🎯 Accuracy-Rechner – Konfusionsmatrix & alle KI-Metriken
Accuracy · Precision · Recall · F1-Score · MCC · Specificity · Balanced Accuracy
Geben Sie Ihre Konfusionsmatrix ein und erhalten Sie sofort alle relevanten Klassifikationsmetriken – mit visueller Matrix, kontextabhängiger Interpretation und dem Accuracy-Paradoxon-Demo. Ideal für Data Scientists, KI-Entwickler, Medizinstudenten und Qualitätsmanager.
Geben Sie die vier Zellen Ihrer Konfusionsmatrix ein. Tipp: Vorab-Beispiele weiter unten.
🚀 Schnellstart: Typische Beispiele klicken
Klicken Sie auf ein Beispiel, um die Werte automatisch zu laden:
| Anwendungsfall | TP | FP | FN | TN | Accuracy | Besonderheit | |
|---|---|---|---|---|---|---|---|
| Spam-Filter (typisch) | 90 | 10 | 5 | 895 | 98,5 % | FP = gute Mail blockiert | |
| Krebsdiagnose | 45 | 5 | 15 | 935 | 98,0 % | FN kritisch! | |
| Accuracy-Paradoxon | 5 | 1 | 4 | 990 | 99,5 % | Scheinbar perfekt, aber… | |
| Betrugserkennung | 30 | 20 | 8 | 9942 | 99,7 % | Niedrige Prävalenz | |
| Produktionskontrolle | 980 | 20 | 15 | 985 | 98,25 % | Balance Fehler/Ausschuss |
📐 Alle Formeln im Überblick
| Metrik | Formel | Deutsch | Wann besonders relevant |
|---|---|---|---|
| Accuracy | (TP+TN) / N | Genauigkeit | Ausgewogene Klassen |
| Precision | TP / (TP+FP) | Präzision | FP ist teuer (Spam, Produktion) |
| Recall (Sensitivity) | TP / (TP+FN) | Trefferquote / Sensitivität | FN ist teuer (Medizin, Betrug) |
| Specificity | TN / (TN+FP) | Spezifität | Richtig-Negativ-Rate |
| F1-Score | 2·P·R / (P+R) | Harmonisches Mittel P&R | Unausgewogene Klassen |
| MCC | (TP·TN−FP·FN) / √(…) | Matthews Korrelationskoeff. | Robusteste Metrik |
| Balanced Accuracy | (Recall + Specificity) / 2 | Balancierte Genauigkeit | Unausgewogene Klassen |
| Error Rate | (FP+FN) / N | Fehlerrate | = 1 − Accuracy |
| NPV | TN / (TN+FN) | Negativer Vorhersagewert | Wie verlässlich ist „negativ“? |
| F-Beta | (1+β²)·P·R / (β²·P+R) | Gewichtetes Mittel P&R | Wenn P oder R wichtiger |
Accuracy & Konfusionsmatrix verstehen – der vollständige Leitfaden
Was ist eine Konfusionsmatrix?
Die Konfusionsmatrix (engl. Confusion Matrix) ist die Basis für alle Klassifikationsmetriken im Machine Learning. Sie zeigt übersichtlich, wie gut ein Modell in vier Szenarien performt:
- True Positive (TP): Das Modell erkennt richtig – Patient ist krank und wird als krank eingestuft
- True Negative (TN): Das Modell verneint richtig – gesunder Patient wird als gesund eingestuft
- False Positive (FP / Typ-I-Fehler): Falscher Alarm – gesunder Patient wird als krank eingestuft
- False Negative (FN / Typ-II-Fehler): Übersehener Fall – kranker Patient wird als gesund eingestuft
Das Accuracy-Paradoxon: Warum 99 % Accuracy nutzlos sein kann
Stellen Sie sich vor: Sie entwickeln ein Modell zur Krebserkennung. Im Testdatensatz sind 990 gesunde und 10 kranke Patienten. Ein Modell, das IMMER „gesund“ vorhersagt, erreicht 99 % Accuracy – und ist dennoch vollständig nutzlos. Es erkennt nämlich keinen einzigen Krebspatienten.
Das Accuracy-Paradoxon in Zahlen
Datensatz: 990 negativ, 10 positiv. Modell sagt immer „negativ“:
Accuracy = 990/1000 = 99 % – klingt gut!
Recall = 0/10 = 0 % – kein einziger positiver Fall erkannt
F1-Score = 0 – das Modell ist wertlos
MCC = 0 – keine Korrelation zwischen Vorhersage und Realität
Wann welche Metrik?
Die Wahl der richtigen Metrik hängt vom Kontext ab. Es gibt keine universell beste Metrik – sie müssen passend zum Problem gewählt werden:
Der MCC: Die robusteste Metrik
Der Matthews Correlation Coefficient (MCC) berücksichtigt alle vier Zellen der Konfusionsmatrix und ist bei unausgewogenen Datensätzen deutlich aussagekräftiger als Accuracy, F1 oder Balanced Accuracy. Er liegt zwischen -1 (perfekt falsch) und +1 (perfekt richtig), mit 0 als Zufallsniveau. Viele ML-Experten empfehlen MCC als primäre Metrik – besonders im medizinischen Bereich.
Precision-Recall-Tradeoff
Precision und Recall stehen in einem Spannungsverhältnis: Wer mehr Positive voraussagt (niedrigerer Schwellenwert), erhöht Recall, senkt aber Precision. Der optimale Kompromiss hängt davon ab, ob FP oder FN teurer sind. Der F-Beta-Score erlaubt es, diesen Kompromiss zu steuern: β < 1 gewichtet Precision stärker, β > 1 gewichtet Recall stärker.
Häufige Fragen zu Klassifikationsmetriken
Warum ist Balanced Accuracy besser als Accuracy bei ungleichen Klassen?
Balanced Accuracy = (Recall + Specificity) / 2 berücksichtigt beide Klassen gleich. Bei 99 % negativen Fällen und einem Modell, das immer „negativ“ vorhersagt: Recall = 0 %, Specificity = 100 %, Balanced Accuracy = 50 % – ein realistisches Bild statt irreführender 99 %.
Was bedeutet MCC von 0.7?
Ein MCC von 0,7 entspricht einer guten bis sehr guten Klassifikationsleistung. Als Faustregel: MCC < 0,3 = schwach, 0,3–0,5 = moderat, 0,5–0,7 = gut, > 0,7 = sehr gut. Bei medizinischen Diagnosen wird oft MCC > 0,8 angestrebt.
Wie berechnet man Metriken für mehr als 2 Klassen?
Bei Multi-Klassen-Klassifikation berechnet man für jede Klasse die Metriken separat (One-vs-Rest) und bildet dann den Durchschnitt (Macro-Average: alle Klassen gleichgewichtet, Weighted Average: nach Klassengröße gewichtet). Unser Rechner fokussiert auf die binäre Klassifikation, die die Grundlage für alle Multi-Klassen-Erweiterungen bildet.
Vertrauen Sie unserer Expertise
Daniel Niedermayer
Geschäftsführer
Zuletzt geprüft: 21. Januar 2026
Quellen
Berechnungsformeln
Accuracy=(TP+TN)/N · Precision=TP/(TP+FP) · Recall=TP/(TP+FN) · Specificity=TN/(TN+FP) · F1=2·P·R/(P+R) · MCC=(TP·TN−FP·FN)/√((TP+FP)(TP+FN)(TN+FP)(TN+FN)) · Balanced Accuracy=(Recall+Specificity)/2. Bei Division durch 0 wird 0 ausgegeben.
Mehr zur MethodikFixrechner.de – „Alles ist berechenbar“. Der umfassendste deutsche Accuracy-Rechner: 8 Metriken, visuelle Konfusionsmatrix, Kontext-Interpreter, Accuracy-Paradoxon-Demo und F-Beta-Score.
8 Metriken
Alle relevanten Klassifikationsmetriken auf einmal.
Paradoxon-Check
Automatische Warnung bei irreführender Accuracy.
Datenschutz
Alles lokal – keine Datenspeicherung.
Alle Berechnungen ohne Gewähr. Kein Ersatz für fachliche statistische Beratung.


