🎯 Accuracy-Rechner – Konfusionsmatrix & alle KI-Metriken

Accuracy · Precision · Recall · F1-Score · MCC · Specificity · Balanced Accuracy

Geben Sie Ihre Konfusionsmatrix ein und erhalten Sie sofort alle relevanten Klassifikationsmetriken – mit visueller Matrix, kontextabhängiger Interpretation und dem Accuracy-Paradoxon-Demo. Ideal für Data Scientists, KI-Entwickler, Medizinstudenten und Qualitätsmanager.

🎯 Schritt 1: Anwendungskontext wählen
Der Kontext bestimmt, welche Fehler besonders kostspielig sind.
Allgemein
Ausgeglichene Bewertung
🏥 Medizin
FN kritisch: Krankheit übersehen
📧 Spam-Filter
FP kritisch: gute Mail blockiert
💳 Betrug
FN kritisch: Betrug übersehen
🏭 Produktion
FP kritisch: gute Teile aussortiert
📊 Schritt 2: Konfusionsmatrix eingeben

Geben Sie die vier Zellen Ihrer Konfusionsmatrix ein. Tipp: Vorab-Beispiele weiter unten.

✅ True Positive (TP)
Richtig als positiv erkannt
❌ False Positive (FP)
Falsch als positiv erkannt
⚠️ False Negative (FN)
Falsch als negativ eingestuft
✅ True Negative (TN)
Richtig als negativ erkannt
⚙️ Schritt 3: F-Beta-Score (optional)

🚀 Schnellstart: Typische Beispiele klicken

Klicken Sie auf ein Beispiel, um die Werte automatisch zu laden:

AnwendungsfallTPFPFNTNAccuracyBesonderheit
Spam-Filter (typisch)9010589598,5 %FP = gute Mail blockiert
Krebsdiagnose4551593598,0 %FN kritisch!
Accuracy-Paradoxon51499099,5 %Scheinbar perfekt, aber…
Betrugserkennung30208994299,7 %Niedrige Prävalenz
Produktionskontrolle980201598598,25 %Balance Fehler/Ausschuss

📐 Alle Formeln im Überblick

MetrikFormelDeutschWann besonders relevant
Accuracy(TP+TN) / NGenauigkeitAusgewogene Klassen
PrecisionTP / (TP+FP)Präzision / Positiver VorhersagewertFP ist teuer (Spam, Produktion)
Recall (Sensitivity)TP / (TP+FN)Trefferquote / SensitivitätFN ist teuer (Medizin, Betrug)
SpecificityTN / (TN+FP)Spezifität / Richtig-Negativ-RateScreening-Tests, wenn TN wichtig
F1-Score2·P·R / (P+R)Harmonisches Mittel Precision & RecallUnausgewogene Klassen
MCC(TP·TN−FP·FN) / √((TP+FP)(TP+FN)(TN+FP)(TN+FN))Matthews KorrelationskoeffizientRobusteste Metrik — immer empfehlenswert
Balanced Accuracy(Recall + Specificity) / 2Balancierte GenauigkeitUnausgewogene Klassen
Error Rate(FP+FN) / NFehlerrate= 1 − Accuracy
NPVTN / (TN+FN)Negativer VorhersagewertWie verlässlich ist „negativ“?
F-Beta(1+β²)·P·R / (β²·P+R)Gewichtetes Mittel P & Rβ<1: Precision wichtiger; β>1: Recall wichtiger

Konfusionsmatrix und Accuracy — vollständiger Leitfaden

Was ist eine Konfusionsmatrix?

Die Konfusionsmatrix (engl. Confusion Matrix) ist die Basis für alle Klassifikationsmetriken im Machine Learning. Sie zeigt in einer 2×2-Tabelle wie gut ein binäres Modell performt:

Vorhergesagt: PositivVorhergesagt: Negativ
Tatsächlich: Positiv TP — True Positive
Richtig erkannt: krank → als krank klassifiziert
FN — False Negative (Typ-II)
Übersehen: krank → als gesund klassifiziert
Tatsächlich: Negativ FP — False Positive (Typ-I)
Falscher Alarm: gesund → als krank klassifiziert
TN — True Negative
Richtig verneint: gesund → als gesund klassifiziert

Vollständiges Rechenbeispiel: Spam-Filter mit allen 10 Metriken

Ein Spam-Filter wurde auf 1.000 E-Mails getestet: 100 echte Spam-Mails, 900 legitime Mails. Ergebnis: TP=90, FP=10, FN=5, TN=895.

MetrikRechnungErgebnisInterpretation
Accuracy(90+895) / 100098,5 %Von 1.000 Mails korrekt klassifiziert
Precision90 / (90+10)90,0 %90 % der als Spam markierten Mails sind wirklich Spam
Recall90 / (90+5)94,7 %94,7 % aller Spam-Mails werden erkannt
Specificity895 / (895+10)98,9 %98,9 % der legitimen Mails werden durchgelassen
F1-Score2 × 0,90 × 0,947 / (0,90+0,947)92,3 %Harmonie zwischen Precision und Recall
MCCFormel s.o.≈ 0,914Sehr gute Klassifikation
Error Rate(10+5) / 10001,5 %1,5 % der Mails falsch klassifiziert
NPV895 / (895+5)99,4 %99,4 % der „keine Spam“-Entscheidungen sind korrekt
Balanced Accuracy(0,947 + 0,989) / 296,8 %Ausgewogene Sicht auf beide Klassen

Das Accuracy-Paradoxon: Warum 99 % Accuracy nutzlos sein kann

Das ist das wichtigste Konzept in der ML-Evaluierung. Ein Modell zur Krebserkennung: 990 gesunde, 10 kranke Patienten im Testdatensatz. Ein Modell das immer „gesund“ vorhersagt:

⚠️ Das Accuracy-Paradoxon in Zahlen

TP=0, FP=0, FN=10, TN=990 (Modell sagt immer „negativ“)

Accuracy = 990/1000 = 99 % — klingt hervorragend!

Recall = 0/10 = 0 % — kein einziger Krebspatient erkannt

F1-Score = 0 — das Modell ist medizinisch wertlos

MCC = 0 — keine Korrelation zwischen Vorhersage und Realität

Das Paradoxon tritt immer auf wenn die Klassen stark unausgewogen sind. Bei 99 % negativen Fällen reicht es das Modell immer „nein“ sagen zu lassen — und es erreicht trotzdem 99 % Accuracy. Deshalb: Bei unausgewogenen Datensätzen immer MCC, F1-Score oder Balanced Accuracy als primäre Metrik verwenden.

Wann welche Metrik? Entscheidungsleitfaden

AnwendungsfallWas ist teurer?Empfohlene PrimärmetrikBegründung
Krebsdiagnose / Med. Screening FN (kranker Patient übersehen) Recall / Sensitivity Kein Krebsfall darf übersehen werden
Spam-Filter FP (wichtige Mail blockiert) Precision Keine legitimen Mails dürfen verschwinden
Betrugserkennung FN (Betrug nicht erkannt) Recall + MCC Betrug muss erkannt werden; Klassen sehr unausgewogen
Produktionskontrolle FP (gutes Teil aussortiert) Precision + F1 Ausschuss ist teuer; Balance nötig
Bildklassifikation (ausgewogen) Beide gleich Accuracy + MCC Ausgewogene Klassen: Accuracy aussagekräftig
Allgemein / unbekannt Unbekannt MCC Robusteste Metrik — funktioniert immer zuverlässig

Branchenübliche Benchmark-Werte

Was gilt als „gutes“ Modell? Die Antwort hängt stark von Branche und Konsequenz ab:

AnwendungsbereichSchwachAkzeptabelGutSehr gutPrimärmetrik
Medizinische DiagnoseRecall <70 %70–85 %85–95 %>95 %Recall / Sensitivity
BetrugserkennungMCC <0,30,3–0,50,5–0,7>0,7MCC + Recall
Spam-ErkennungF1 <90 %90–95 %95–98 %>98 %Precision + F1
ProduktionskontrolleAccuracy <95 %95–98 %98–99,5 %>99,5 %Precision + F1
NLP / TextklassifikationF1 <0,70,7–0,80,8–0,9>0,9F1 / MCC
Allgemeine BildklassifikationAccuracy <80 %80–90 %90–97 %>97 %Accuracy + MCC

MCC — die robusteste Metrik erklärt

Der Matthews Correlation Coefficient (MCC) berücksichtigt alle vier Zellen der Konfusionsmatrix und ist bei unausgewogenen Datensätzen deutlich aussagekräftiger als Accuracy oder F1-Score. Er liegt zwischen −1 und +1:

MCC-WertInterpretationBeispiel
+1,0Perfekte KlassifikationAlle Vorhersagen korrekt
0,7–1,0Sehr gutProduktionsreife Modelle
0,5–0,7GutNützliches Modell mit Verbesserungspotenzial
0,3–0,5ModeratBesser als Zufall, aber begrenzt brauchbar
0,0ZufallsniveauModell entspricht Münzwurf
−1,0Perfekt falschAlle Vorhersagen falsch — einfach invertieren!

ROC-Kurve und AUC: Was ist das?

Die ROC-Kurve (Receiver Operating Characteristic) zeigt die Performance eines Klassifikators über alle möglichen Entscheidungsschwellenwerte. Die X-Achse zeigt die False-Positive-Rate (1 − Specificity), die Y-Achse die True-Positive-Rate (= Recall).

📐 AUC — Area Under the Curve

AUC = Fläche unter der ROC-Kurve. Interpretation:

AUC = 1,0: Perfektes Modell | AUC = 0,9–1,0: Ausgezeichnet | AUC = 0,8–0,9: Gut

AUC = 0,7–0,8: Akzeptabel | AUC = 0,6–0,7: Schwach | AUC = 0,5: Zufällig

Vorteil gegenüber Accuracy: AUC ist unabhängig vom Entscheidungsschwellenwert und von der Klassenverteilung. Es bewertet das Modell über alle möglichen Trade-offs zwischen Recall und False-Positive-Rate.

Precision-Recall-Tradeoff: Das Dilemma der Klassifikation

Precision und Recall stehen in einem fundamentalen Spannungsverhältnis: Wer den Entscheidungsschwellenwert senkt (mehr Positive vorhersagen), erhöht Recall aber senkt Precision. Der optimale Kompromiss hängt vom Anwendungsfall ab.

SchwellenwertPrecisionRecallF1Geeignet wenn…
Hoch (konservativ)Hoch ↑Niedrig ↓MittelFP teuer (Spam, Fehlalarme)
Mittel (ausgewogen)MittelMittelMaximumKein klarer Kostenvorteil
Niedrig (sensitiv)Niedrig ↓Hoch ↑MittelFN teuer (Krebs, Betrug)

Häufige Fragen zu Accuracy und Klassifikationsmetriken

Warum ist Balanced Accuracy besser als Accuracy bei ungleichen Klassen?

Balanced Accuracy = (Recall + Specificity) / 2 berücksichtigt beide Klassen gleich. Beispiel: 99 % negative Fälle, Modell sagt immer „negativ“. Recall = 0 %, Specificity = 100 %, Balanced Accuracy = 50 % — ein realistisches Bild. Normale Accuracy würde 99 % anzeigen und das Problem verschleiern. Bei stark unausgewogenen Datensätzen (weniger als 10 % positive Klasse) ist Balanced Accuracy immer aussagekräftiger als einfache Accuracy.

Was bedeutet ein MCC von 0,7?

Ein MCC von 0,7 entspricht einer guten bis sehr guten Klassifikationsleistung. Als Faustregel: MCC <0,3 = schwach, 0,3–0,5 = moderat, 0,5–0,7 = gut, >0,7 = sehr gut. Bei medizinischen Diagnosen mit lebenswichtigen Konsequenzen wird oft MCC >0,85 angestrebt. Der Vorteil des MCC: Er gibt selbst bei völlig unausgewogenen Klassen eine zuverlässige Einschätzung — deshalb empfehlen viele ML-Forscher ihn als primäre Metrik für alle binären Klassifikationsprobleme.

Wie berechnet man Metriken für mehr als 2 Klassen?

Bei Multi-Klassen-Klassifikation berechnet man für jede Klasse die Metriken separat (One-vs-Rest-Ansatz) und bildet dann den Durchschnitt. Macro-Average: alle Klassen gleichgewichtet — sinnvoll wenn alle Klassen gleich wichtig sind. Weighted Average: nach Klassengröße gewichtet — sinnvoll wenn größere Klassen wichtiger sind. Micro-Average: globale TP/FP/FN summiert — entspricht der globalen Accuracy. Unser Rechner fokussiert auf binäre Klassifikation, die die theoretische Grundlage für alle Multi-Klassen-Erweiterungen bildet.

Was ist der Unterschied zwischen Sensitivity und Specificity?

Sensitivity (= Recall) misst: Von allen tatsächlich Positiven — wie viele wurden erkannt? Sensitivity = TP / (TP + FN). Hohe Sensitivity = wenige Fälle übersehen. Specificity misst: Von allen tatsächlich Negativen — wie viele wurden korrekt als negativ erkannt? Specificity = TN / (TN + FP). Hohe Specificity = wenige Fehlalarme. In der Medizin: Ein guter Screening-Test hat hohe Sensitivity (kein Fall übersehen), ein guter Bestätigungstest hohe Specificity (kein falscher Alarm).

Wann sollte ich F-Beta statt F1 verwenden?

F1 gewichtet Precision und Recall gleich (β=1). F-Beta mit β<1 gewichtet Precision stärker — sinnvoll wenn FP teurer ist als FN (z.B. Spam-Filter: lieber Spam durchlassen als gute Mail blockieren). F-Beta mit β>1 gewichtet Recall stärker — sinnvoll wenn FN teurer ist als FP (z.B. Krebsdiagnose: lieber Fehlalarm als übersehener Fall, typisch β=2). In der Praxis: F2-Score (β=2) bei medizinischen Anwendungen häufig, F0,5-Score (β=0,5) bei Produktionskontrolle und Spam-Erkennung.

Quellen: Chicco D, Jurman G (2020): The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics 21, 6. Ainsworth BE et al. (2011) Compendium of Physical Activities. Powers DMW (2011): Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness and Correlation. Journal of Machine Learning Technologies.

Vertrauen Sie unserer Expertise

Daniel Niedermayer

Daniel Niedermayer

Geschäftsführer

Zuletzt geprüft: 21. Januar 2026

Berechnungsformeln

Accuracy=(TP+TN)/N · Precision=TP/(TP+FP) · Recall=TP/(TP+FN) · Specificity=TN/(TN+FP) · F1=2·P·R/(P+R) · MCC=(TP·TN−FP·FN)/√((TP+FP)(TP+FN)(TN+FP)(TN+FN)) · Balanced Accuracy=(Recall+Specificity)/2. Bei Division durch 0 wird 0 ausgegeben.

Mehr zur Methodik

4,9 von 5 Sternen

Basierend auf über 1.893 echten Nutzerbewertungen

Nutzerbefragung auf fixrechner.de – 21. Januar 2026

Daniel G.

Die Qualität der Rechner ist enorm, und das kostenlos. Besten Dank.

Daniel G.

Head of Sales & Business Development

Sabine K.

Neben den Rechnern für den Arbeitsalltag finde ich auch die rund um die eigene Finanzplanung sehr hilfreich.

Sabine K.

Agentur Geschäftsführerin

Jeremiah H.

Ich schätze die Genauigkeit und Benutzerfreundlichkeit dieser Rechner sehr.

Jeremiah H.

 

Fixrechner.de – „Alles ist berechenbar“. Der umfassendste deutsche Accuracy-Rechner: 8 Metriken, visuelle Konfusionsmatrix, Kontext-Interpreter, Accuracy-Paradoxon-Demo und F-Beta-Score.

🎯

8 Metriken

Alle relevanten Klassifikationsmetriken auf einmal.

⚠️

Paradoxon-Check

Automatische Warnung bei irreführender Accuracy.

🔒

Datenschutz

Alles lokal – keine Datenspeicherung.

Alle Berechnungen ohne Gewähr. Kein Ersatz für fachliche statistische Beratung.