🎯 Accuracy-Rechner – Konfusionsmatrix & alle KI-Metriken
Accuracy · Precision · Recall · F1-Score · MCC · Specificity · Balanced Accuracy
Geben Sie Ihre Konfusionsmatrix ein und erhalten Sie sofort alle relevanten Klassifikationsmetriken – mit visueller Matrix, kontextabhängiger Interpretation und dem Accuracy-Paradoxon-Demo. Ideal für Data Scientists, KI-Entwickler, Medizinstudenten und Qualitätsmanager.
Geben Sie die vier Zellen Ihrer Konfusionsmatrix ein. Tipp: Vorab-Beispiele weiter unten.
🚀 Schnellstart: Typische Beispiele klicken
Klicken Sie auf ein Beispiel, um die Werte automatisch zu laden:
| Anwendungsfall | TP | FP | FN | TN | Accuracy | Besonderheit | |
|---|---|---|---|---|---|---|---|
| Spam-Filter (typisch) | 90 | 10 | 5 | 895 | 98,5 % | FP = gute Mail blockiert | |
| Krebsdiagnose | 45 | 5 | 15 | 935 | 98,0 % | FN kritisch! | |
| Accuracy-Paradoxon | 5 | 1 | 4 | 990 | 99,5 % | Scheinbar perfekt, aber… | |
| Betrugserkennung | 30 | 20 | 8 | 9942 | 99,7 % | Niedrige Prävalenz | |
| Produktionskontrolle | 980 | 20 | 15 | 985 | 98,25 % | Balance Fehler/Ausschuss |
📐 Alle Formeln im Überblick
| Metrik | Formel | Deutsch | Wann besonders relevant |
|---|---|---|---|
| Accuracy | (TP+TN) / N | Genauigkeit | Ausgewogene Klassen |
| Precision | TP / (TP+FP) | Präzision / Positiver Vorhersagewert | FP ist teuer (Spam, Produktion) |
| Recall (Sensitivity) | TP / (TP+FN) | Trefferquote / Sensitivität | FN ist teuer (Medizin, Betrug) |
| Specificity | TN / (TN+FP) | Spezifität / Richtig-Negativ-Rate | Screening-Tests, wenn TN wichtig |
| F1-Score | 2·P·R / (P+R) | Harmonisches Mittel Precision & Recall | Unausgewogene Klassen |
| MCC | (TP·TN−FP·FN) / √((TP+FP)(TP+FN)(TN+FP)(TN+FN)) | Matthews Korrelationskoeffizient | Robusteste Metrik — immer empfehlenswert |
| Balanced Accuracy | (Recall + Specificity) / 2 | Balancierte Genauigkeit | Unausgewogene Klassen |
| Error Rate | (FP+FN) / N | Fehlerrate | = 1 − Accuracy |
| NPV | TN / (TN+FN) | Negativer Vorhersagewert | Wie verlässlich ist „negativ“? |
| F-Beta | (1+β²)·P·R / (β²·P+R) | Gewichtetes Mittel P & R | β<1: Precision wichtiger; β>1: Recall wichtiger |
Konfusionsmatrix und Accuracy — vollständiger Leitfaden
Was ist eine Konfusionsmatrix?
Die Konfusionsmatrix (engl. Confusion Matrix) ist die Basis für alle Klassifikationsmetriken im Machine Learning. Sie zeigt in einer 2×2-Tabelle wie gut ein binäres Modell performt:
| Vorhergesagt: Positiv | Vorhergesagt: Negativ | |
|---|---|---|
| Tatsächlich: Positiv | TP — True Positive Richtig erkannt: krank → als krank klassifiziert |
FN — False Negative (Typ-II) Übersehen: krank → als gesund klassifiziert |
| Tatsächlich: Negativ | FP — False Positive (Typ-I) Falscher Alarm: gesund → als krank klassifiziert |
TN — True Negative Richtig verneint: gesund → als gesund klassifiziert |
Vollständiges Rechenbeispiel: Spam-Filter mit allen 10 Metriken
Ein Spam-Filter wurde auf 1.000 E-Mails getestet: 100 echte Spam-Mails, 900 legitime Mails. Ergebnis: TP=90, FP=10, FN=5, TN=895.
| Metrik | Rechnung | Ergebnis | Interpretation |
|---|---|---|---|
| Accuracy | (90+895) / 1000 | 98,5 % | Von 1.000 Mails korrekt klassifiziert |
| Precision | 90 / (90+10) | 90,0 % | 90 % der als Spam markierten Mails sind wirklich Spam |
| Recall | 90 / (90+5) | 94,7 % | 94,7 % aller Spam-Mails werden erkannt |
| Specificity | 895 / (895+10) | 98,9 % | 98,9 % der legitimen Mails werden durchgelassen |
| F1-Score | 2 × 0,90 × 0,947 / (0,90+0,947) | 92,3 % | Harmonie zwischen Precision und Recall |
| MCC | Formel s.o. | ≈ 0,914 | Sehr gute Klassifikation |
| Error Rate | (10+5) / 1000 | 1,5 % | 1,5 % der Mails falsch klassifiziert |
| NPV | 895 / (895+5) | 99,4 % | 99,4 % der „keine Spam“-Entscheidungen sind korrekt |
| Balanced Accuracy | (0,947 + 0,989) / 2 | 96,8 % | Ausgewogene Sicht auf beide Klassen |
Das Accuracy-Paradoxon: Warum 99 % Accuracy nutzlos sein kann
Das ist das wichtigste Konzept in der ML-Evaluierung. Ein Modell zur Krebserkennung: 990 gesunde, 10 kranke Patienten im Testdatensatz. Ein Modell das immer „gesund“ vorhersagt:
⚠️ Das Accuracy-Paradoxon in Zahlen
TP=0, FP=0, FN=10, TN=990 (Modell sagt immer „negativ“)
Accuracy = 990/1000 = 99 % — klingt hervorragend!
Recall = 0/10 = 0 % — kein einziger Krebspatient erkannt
F1-Score = 0 — das Modell ist medizinisch wertlos
MCC = 0 — keine Korrelation zwischen Vorhersage und Realität
Das Paradoxon tritt immer auf wenn die Klassen stark unausgewogen sind. Bei 99 % negativen Fällen reicht es das Modell immer „nein“ sagen zu lassen — und es erreicht trotzdem 99 % Accuracy. Deshalb: Bei unausgewogenen Datensätzen immer MCC, F1-Score oder Balanced Accuracy als primäre Metrik verwenden.
Wann welche Metrik? Entscheidungsleitfaden
| Anwendungsfall | Was ist teurer? | Empfohlene Primärmetrik | Begründung |
|---|---|---|---|
| Krebsdiagnose / Med. Screening | FN (kranker Patient übersehen) | Recall / Sensitivity | Kein Krebsfall darf übersehen werden |
| Spam-Filter | FP (wichtige Mail blockiert) | Precision | Keine legitimen Mails dürfen verschwinden |
| Betrugserkennung | FN (Betrug nicht erkannt) | Recall + MCC | Betrug muss erkannt werden; Klassen sehr unausgewogen |
| Produktionskontrolle | FP (gutes Teil aussortiert) | Precision + F1 | Ausschuss ist teuer; Balance nötig |
| Bildklassifikation (ausgewogen) | Beide gleich | Accuracy + MCC | Ausgewogene Klassen: Accuracy aussagekräftig |
| Allgemein / unbekannt | Unbekannt | MCC | Robusteste Metrik — funktioniert immer zuverlässig |
Branchenübliche Benchmark-Werte
Was gilt als „gutes“ Modell? Die Antwort hängt stark von Branche und Konsequenz ab:
| Anwendungsbereich | Schwach | Akzeptabel | Gut | Sehr gut | Primärmetrik |
|---|---|---|---|---|---|
| Medizinische Diagnose | Recall <70 % | 70–85 % | 85–95 % | >95 % | Recall / Sensitivity |
| Betrugserkennung | MCC <0,3 | 0,3–0,5 | 0,5–0,7 | >0,7 | MCC + Recall |
| Spam-Erkennung | F1 <90 % | 90–95 % | 95–98 % | >98 % | Precision + F1 |
| Produktionskontrolle | Accuracy <95 % | 95–98 % | 98–99,5 % | >99,5 % | Precision + F1 |
| NLP / Textklassifikation | F1 <0,7 | 0,7–0,8 | 0,8–0,9 | >0,9 | F1 / MCC |
| Allgemeine Bildklassifikation | Accuracy <80 % | 80–90 % | 90–97 % | >97 % | Accuracy + MCC |
MCC — die robusteste Metrik erklärt
Der Matthews Correlation Coefficient (MCC) berücksichtigt alle vier Zellen der Konfusionsmatrix und ist bei unausgewogenen Datensätzen deutlich aussagekräftiger als Accuracy oder F1-Score. Er liegt zwischen −1 und +1:
| MCC-Wert | Interpretation | Beispiel |
|---|---|---|
| +1,0 | Perfekte Klassifikation | Alle Vorhersagen korrekt |
| 0,7–1,0 | Sehr gut | Produktionsreife Modelle |
| 0,5–0,7 | Gut | Nützliches Modell mit Verbesserungspotenzial |
| 0,3–0,5 | Moderat | Besser als Zufall, aber begrenzt brauchbar |
| 0,0 | Zufallsniveau | Modell entspricht Münzwurf |
| −1,0 | Perfekt falsch | Alle Vorhersagen falsch — einfach invertieren! |
ROC-Kurve und AUC: Was ist das?
Die ROC-Kurve (Receiver Operating Characteristic) zeigt die Performance eines Klassifikators über alle möglichen Entscheidungsschwellenwerte. Die X-Achse zeigt die False-Positive-Rate (1 − Specificity), die Y-Achse die True-Positive-Rate (= Recall).
📐 AUC — Area Under the Curve
AUC = Fläche unter der ROC-Kurve. Interpretation:
AUC = 1,0: Perfektes Modell | AUC = 0,9–1,0: Ausgezeichnet | AUC = 0,8–0,9: Gut
AUC = 0,7–0,8: Akzeptabel | AUC = 0,6–0,7: Schwach | AUC = 0,5: Zufällig
Vorteil gegenüber Accuracy: AUC ist unabhängig vom Entscheidungsschwellenwert und von der Klassenverteilung. Es bewertet das Modell über alle möglichen Trade-offs zwischen Recall und False-Positive-Rate.
Precision-Recall-Tradeoff: Das Dilemma der Klassifikation
Precision und Recall stehen in einem fundamentalen Spannungsverhältnis: Wer den Entscheidungsschwellenwert senkt (mehr Positive vorhersagen), erhöht Recall aber senkt Precision. Der optimale Kompromiss hängt vom Anwendungsfall ab.
| Schwellenwert | Precision | Recall | F1 | Geeignet wenn… |
|---|---|---|---|---|
| Hoch (konservativ) | Hoch ↑ | Niedrig ↓ | Mittel | FP teuer (Spam, Fehlalarme) |
| Mittel (ausgewogen) | Mittel | Mittel | Maximum | Kein klarer Kostenvorteil |
| Niedrig (sensitiv) | Niedrig ↓ | Hoch ↑ | Mittel | FN teuer (Krebs, Betrug) |
Häufige Fragen zu Accuracy und Klassifikationsmetriken
Balanced Accuracy = (Recall + Specificity) / 2 berücksichtigt beide Klassen gleich. Beispiel: 99 % negative Fälle, Modell sagt immer „negativ“. Recall = 0 %, Specificity = 100 %, Balanced Accuracy = 50 % — ein realistisches Bild. Normale Accuracy würde 99 % anzeigen und das Problem verschleiern. Bei stark unausgewogenen Datensätzen (weniger als 10 % positive Klasse) ist Balanced Accuracy immer aussagekräftiger als einfache Accuracy.
Ein MCC von 0,7 entspricht einer guten bis sehr guten Klassifikationsleistung. Als Faustregel: MCC <0,3 = schwach, 0,3–0,5 = moderat, 0,5–0,7 = gut, >0,7 = sehr gut. Bei medizinischen Diagnosen mit lebenswichtigen Konsequenzen wird oft MCC >0,85 angestrebt. Der Vorteil des MCC: Er gibt selbst bei völlig unausgewogenen Klassen eine zuverlässige Einschätzung — deshalb empfehlen viele ML-Forscher ihn als primäre Metrik für alle binären Klassifikationsprobleme.
Bei Multi-Klassen-Klassifikation berechnet man für jede Klasse die Metriken separat (One-vs-Rest-Ansatz) und bildet dann den Durchschnitt. Macro-Average: alle Klassen gleichgewichtet — sinnvoll wenn alle Klassen gleich wichtig sind. Weighted Average: nach Klassengröße gewichtet — sinnvoll wenn größere Klassen wichtiger sind. Micro-Average: globale TP/FP/FN summiert — entspricht der globalen Accuracy. Unser Rechner fokussiert auf binäre Klassifikation, die die theoretische Grundlage für alle Multi-Klassen-Erweiterungen bildet.
Sensitivity (= Recall) misst: Von allen tatsächlich Positiven — wie viele wurden erkannt? Sensitivity = TP / (TP + FN). Hohe Sensitivity = wenige Fälle übersehen. Specificity misst: Von allen tatsächlich Negativen — wie viele wurden korrekt als negativ erkannt? Specificity = TN / (TN + FP). Hohe Specificity = wenige Fehlalarme. In der Medizin: Ein guter Screening-Test hat hohe Sensitivity (kein Fall übersehen), ein guter Bestätigungstest hohe Specificity (kein falscher Alarm).
F1 gewichtet Precision und Recall gleich (β=1). F-Beta mit β<1 gewichtet Precision stärker — sinnvoll wenn FP teurer ist als FN (z.B. Spam-Filter: lieber Spam durchlassen als gute Mail blockieren). F-Beta mit β>1 gewichtet Recall stärker — sinnvoll wenn FN teurer ist als FP (z.B. Krebsdiagnose: lieber Fehlalarm als übersehener Fall, typisch β=2). In der Praxis: F2-Score (β=2) bei medizinischen Anwendungen häufig, F0,5-Score (β=0,5) bei Produktionskontrolle und Spam-Erkennung.
🔗 Passende weitere Rechner
Bayes Theorem Rechner · Wahrscheinlichkeitsrechner · Kombinationsrechner · Chebyshev-Ungleichung
Quellen: Chicco D, Jurman G (2020): The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics 21, 6. Ainsworth BE et al. (2011) Compendium of Physical Activities. Powers DMW (2011): Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness and Correlation. Journal of Machine Learning Technologies.
Vertrauen Sie unserer Expertise
Daniel Niedermayer
Geschäftsführer
Zuletzt geprüft: 21. Januar 2026
Quellen
Berechnungsformeln
Accuracy=(TP+TN)/N · Precision=TP/(TP+FP) · Recall=TP/(TP+FN) · Specificity=TN/(TN+FP) · F1=2·P·R/(P+R) · MCC=(TP·TN−FP·FN)/√((TP+FP)(TP+FN)(TN+FP)(TN+FN)) · Balanced Accuracy=(Recall+Specificity)/2. Bei Division durch 0 wird 0 ausgegeben.
Mehr zur MethodikFixrechner.de – „Alles ist berechenbar“. Der umfassendste deutsche Accuracy-Rechner: 8 Metriken, visuelle Konfusionsmatrix, Kontext-Interpreter, Accuracy-Paradoxon-Demo und F-Beta-Score.
8 Metriken
Alle relevanten Klassifikationsmetriken auf einmal.
Paradoxon-Check
Automatische Warnung bei irreführender Accuracy.
Datenschutz
Alles lokal – keine Datenspeicherung.
Alle Berechnungen ohne Gewähr. Kein Ersatz für fachliche statistische Beratung.


