Was ist Accuracy und wie wird sie berechnet?

Accuracy (Genauigkeit) = (TP + TN) / (TP + TN + FP + FN). Sie gibt den Anteil aller korrekt klassifizierten Fälle an. Achtung: Bei unausgewogenen Datensätzen ist Accuracy irreführend – das sogenannte Accuracy-Paradoxon.

Was ist der Unterschied zwischen Precision und Recall?

Precision = TP / (TP + FP): Wie viele der vorhergesagten Positiven sind wirklich positiv? Recall = TP / (TP + FN): Wie viele der tatsächlichen Positiven werden erkannt? In der Medizin ist hoher Recall entscheidend (keine Krankheit übersehen). Bei Spam-Filtern ist hohe Precision wichtig (keine guten Mails falsch markieren).

Was ist das Accuracy-Paradoxon?

Bei einem Datensatz mit 99 % negativen Fällen erreicht ein Modell, das immer 'negativ' vorhersagt, 99 % Accuracy – ohne auch nur einen einzigen positiven Fall zu erkennen. Daher sind F1-Score, Precision, Recall und MCC bei unausgewogenen Datensätzen aussagekräftiger.

Wann sollte man F1-Score statt Accuracy verwenden?

F1-Score sollte verwendet werden, wenn die Klassen unausgewogen sind (z. B. seltene Krankheiten, Betrugserkennung) oder wenn sowohl falsch-positive als auch falsch-negative Vorhersagen kostspielig sind. Der F1-Score ist das harmonische Mittel aus Precision und Recall.

🎯 Accuracy-Rechner – Konfusionsmatrix & alle KI-Metriken

Accuracy · Precision · Recall · F1-Score · MCC · Specificity · Balanced Accuracy

Geben Sie Ihre Konfusionsmatrix ein und erhalten Sie sofort alle relevanten Klassifikationsmetriken – mit visueller Matrix, kontextabhängiger Interpretation und dem Accuracy-Paradoxon-Demo. Ideal für Data Scientists, KI-Entwickler, Medizinstudenten und Qualitätsmanager.

🎯 Schritt 1: Anwendungskontext wählen

Der Kontext bestimmt, welche Fehler besonders kostspielig sind.

Allgemein

Ausgeglichene Bewertung

🏥 Medizin

FN kritisch: Krankheit übersehen

📧 Spam-Filter

FP kritisch: gute Mail blockiert

💳 Betrug

FN kritisch: Betrug übersehen

🏭 Produktion

FP kritisch: gute Teile aussortiert

📊 Schritt 2: Konfusionsmatrix eingeben

Geben Sie die vier Zellen Ihrer Konfusionsmatrix ein. Tipp: Vorab-Beispiele weiter unten.

✅ True Positive (TP)

Richtig als positiv erkannt

❌ False Positive (FP)

Falsch als positiv erkannt

⚠️ False Negative (FN)

Falsch als negativ eingestuft

✅ True Negative (TN)

Richtig als negativ erkannt

⚙️ Schritt 3: F-Beta-Score (optional)

Beta-Wert für F-Beta-Score:

🚀 Schnellstart: Typische Beispiele klicken

Klicken Sie auf ein Beispiel, um die Werte automatisch zu laden:

Anwendungsfall	TP	FP	FN	TN	Accuracy	Besonderheit
Spam-Filter (typisch)	90	10	5	895	98,5 %	FP = gute Mail blockiert
Krebsdiagnose	45	5	15	935	98,0 %	FN kritisch!
Accuracy-Paradoxon	5	1	4	990	99,5 %	Scheinbar perfekt, aber…
Betrugserkennung	30	20	8	9942	99,7 %	Niedrige Prävalenz
Produktionskontrolle	980	20	15	985	98,25 %	Balance Fehler/Ausschuss

📐 Alle Formeln im Überblick

Metrik	Formel	Deutsch	Wann besonders relevant
Accuracy	(TP+TN) / N	Genauigkeit	Ausgewogene Klassen
Precision	TP / (TP+FP)	Präzision / Positiver Vorhersagewert	FP ist teuer (Spam, Produktion)
Recall (Sensitivity)	TP / (TP+FN)	Trefferquote / Sensitivität	FN ist teuer (Medizin, Betrug)
Specificity	TN / (TN+FP)	Spezifität / Richtig-Negativ-Rate	Screening-Tests, wenn TN wichtig
F1-Score	2·P·R / (P+R)	Harmonisches Mittel Precision & Recall	Unausgewogene Klassen
MCC	(TP·TN−FP·FN) / √((TP+FP)(TP+FN)(TN+FP)(TN+FN))	Matthews Korrelationskoeffizient	Robusteste Metrik — immer empfehlenswert
Balanced Accuracy	(Recall + Specificity) / 2	Balancierte Genauigkeit	Unausgewogene Klassen
Error Rate	(FP+FN) / N	Fehlerrate	= 1 − Accuracy
NPV	TN / (TN+FN)	Negativer Vorhersagewert	Wie verlässlich ist „negativ“?
F-Beta	(1+β²)·P·R / (β²·P+R)	Gewichtetes Mittel P & R	β<1: Precision wichtiger; β>1: Recall wichtiger

Konfusionsmatrix und Accuracy — vollständiger Leitfaden

Was ist eine Konfusionsmatrix?

Die Konfusionsmatrix (engl. Confusion Matrix) ist die Basis für alle Klassifikationsmetriken im Machine Learning. Sie zeigt in einer 2×2-Tabelle wie gut ein binäres Modell performt:

	Vorhergesagt: Positiv	Vorhergesagt: Negativ
Tatsächlich: Positiv	TP — True Positive Richtig erkannt: krank → als krank klassifiziert	FN — False Negative (Typ-II) Übersehen: krank → als gesund klassifiziert
Tatsächlich: Negativ	FP — False Positive (Typ-I) Falscher Alarm: gesund → als krank klassifiziert	TN — True Negative Richtig verneint: gesund → als gesund klassifiziert

Vollständiges Rechenbeispiel: Spam-Filter mit allen 10 Metriken

Ein Spam-Filter wurde auf 1.000 E-Mails getestet: 100 echte Spam-Mails, 900 legitime Mails. Ergebnis: TP=90, FP=10, FN=5, TN=895.

Metrik	Rechnung	Ergebnis	Interpretation
Accuracy	(90+895) / 1000	98,5 %	Von 1.000 Mails korrekt klassifiziert
Precision	90 / (90+10)	90,0 %	90 % der als Spam markierten Mails sind wirklich Spam
Recall	90 / (90+5)	94,7 %	94,7 % aller Spam-Mails werden erkannt
Specificity	895 / (895+10)	98,9 %	98,9 % der legitimen Mails werden durchgelassen
F1-Score	2 × 0,90 × 0,947 / (0,90+0,947)	92,3 %	Harmonie zwischen Precision und Recall
MCC	Formel s.o.	≈ 0,914	Sehr gute Klassifikation
Error Rate	(10+5) / 1000	1,5 %	1,5 % der Mails falsch klassifiziert
NPV	895 / (895+5)	99,4 %	99,4 % der „keine Spam“-Entscheidungen sind korrekt
Balanced Accuracy	(0,947 + 0,989) / 2	96,8 %	Ausgewogene Sicht auf beide Klassen

Das Accuracy-Paradoxon: Warum 99 % Accuracy nutzlos sein kann

Das ist das wichtigste Konzept in der ML-Evaluierung. Ein Modell zur Krebserkennung: 990 gesunde, 10 kranke Patienten im Testdatensatz. Ein Modell das immer „gesund“ vorhersagt:

⚠️ Das Accuracy-Paradoxon in Zahlen

TP=0, FP=0, FN=10, TN=990 (Modell sagt immer „negativ“)

Accuracy = 990/1000 = 99 % — klingt hervorragend!

Recall = 0/10 = 0 % — kein einziger Krebspatient erkannt

F1-Score = 0 — das Modell ist medizinisch wertlos

MCC = 0 — keine Korrelation zwischen Vorhersage und Realität

Das Paradoxon tritt immer auf wenn die Klassen stark unausgewogen sind. Bei 99 % negativen Fällen reicht es das Modell immer „nein“ sagen zu lassen — und es erreicht trotzdem 99 % Accuracy. Deshalb: Bei unausgewogenen Datensätzen immer MCC, F1-Score oder Balanced Accuracy als primäre Metrik verwenden.

Wann welche Metrik? Entscheidungsleitfaden

Anwendungsfall	Was ist teurer?	Empfohlene Primärmetrik	Begründung
Krebsdiagnose / Med. Screening	FN (kranker Patient übersehen)	Recall / Sensitivity	Kein Krebsfall darf übersehen werden
Spam-Filter	FP (wichtige Mail blockiert)	Precision	Keine legitimen Mails dürfen verschwinden
Betrugserkennung	FN (Betrug nicht erkannt)	Recall + MCC	Betrug muss erkannt werden; Klassen sehr unausgewogen
Produktionskontrolle	FP (gutes Teil aussortiert)	Precision + F1	Ausschuss ist teuer; Balance nötig
Bildklassifikation (ausgewogen)	Beide gleich	Accuracy + MCC	Ausgewogene Klassen: Accuracy aussagekräftig
Allgemein / unbekannt	Unbekannt	MCC	Robusteste Metrik — funktioniert immer zuverlässig

Branchenübliche Benchmark-Werte

Was gilt als „gutes“ Modell? Die Antwort hängt stark von Branche und Konsequenz ab:

Anwendungsbereich	Schwach	Akzeptabel	Gut	Sehr gut	Primärmetrik
Medizinische Diagnose	Recall <70 %	70–85 %	85–95 %	>95 %	Recall / Sensitivity
Betrugserkennung	MCC <0,3	0,3–0,5	0,5–0,7	>0,7	MCC + Recall
Spam-Erkennung	F1 <90 %	90–95 %	95–98 %	>98 %	Precision + F1
Produktionskontrolle	Accuracy <95 %	95–98 %	98–99,5 %	>99,5 %	Precision + F1
NLP / Textklassifikation	F1 <0,7	0,7–0,8	0,8–0,9	>0,9	F1 / MCC
Allgemeine Bildklassifikation	Accuracy <80 %	80–90 %	90–97 %	>97 %	Accuracy + MCC

MCC — die robusteste Metrik erklärt

Der Matthews Correlation Coefficient (MCC) berücksichtigt alle vier Zellen der Konfusionsmatrix und ist bei unausgewogenen Datensätzen deutlich aussagekräftiger als Accuracy oder F1-Score. Er liegt zwischen −1 und +1:

MCC-Wert	Interpretation	Beispiel
+1,0	Perfekte Klassifikation	Alle Vorhersagen korrekt
0,7–1,0	Sehr gut	Produktionsreife Modelle
0,5–0,7	Gut	Nützliches Modell mit Verbesserungspotenzial
0,3–0,5	Moderat	Besser als Zufall, aber begrenzt brauchbar
0,0	Zufallsniveau	Modell entspricht Münzwurf
−1,0	Perfekt falsch	Alle Vorhersagen falsch — einfach invertieren!

ROC-Kurve und AUC: Was ist das?

Die ROC-Kurve (Receiver Operating Characteristic) zeigt die Performance eines Klassifikators über alle möglichen Entscheidungsschwellenwerte. Die X-Achse zeigt die False-Positive-Rate (1 − Specificity), die Y-Achse die True-Positive-Rate (= Recall).

📐 AUC — Area Under the Curve

AUC = Fläche unter der ROC-Kurve. Interpretation:

AUC = 1,0: Perfektes Modell | AUC = 0,9–1,0: Ausgezeichnet | AUC = 0,8–0,9: Gut

AUC = 0,7–0,8: Akzeptabel | AUC = 0,6–0,7: Schwach | AUC = 0,5: Zufällig

Vorteil gegenüber Accuracy: AUC ist unabhängig vom Entscheidungsschwellenwert und von der Klassenverteilung. Es bewertet das Modell über alle möglichen Trade-offs zwischen Recall und False-Positive-Rate.

Precision-Recall-Tradeoff: Das Dilemma der Klassifikation

Precision und Recall stehen in einem fundamentalen Spannungsverhältnis: Wer den Entscheidungsschwellenwert senkt (mehr Positive vorhersagen), erhöht Recall aber senkt Precision. Der optimale Kompromiss hängt vom Anwendungsfall ab.

Schwellenwert	Precision	Recall	F1	Geeignet wenn…
Hoch (konservativ)	Hoch ↑	Niedrig ↓	Mittel	FP teuer (Spam, Fehlalarme)
Mittel (ausgewogen)	Mittel	Mittel	Maximum	Kein klarer Kostenvorteil
Niedrig (sensitiv)	Niedrig ↓	Hoch ↑	Mittel	FN teuer (Krebs, Betrug)

Häufige Fragen zu Accuracy und Klassifikationsmetriken

Warum ist Balanced Accuracy besser als Accuracy bei ungleichen Klassen?

Balanced Accuracy = (Recall + Specificity) / 2 berücksichtigt beide Klassen gleich. Beispiel: 99 % negative Fälle, Modell sagt immer „negativ“. Recall = 0 %, Specificity = 100 %, Balanced Accuracy = 50 % — ein realistisches Bild. Normale Accuracy würde 99 % anzeigen und das Problem verschleiern. Bei stark unausgewogenen Datensätzen (weniger als 10 % positive Klasse) ist Balanced Accuracy immer aussagekräftiger als einfache Accuracy.

Was bedeutet ein MCC von 0,7?

Ein MCC von 0,7 entspricht einer guten bis sehr guten Klassifikationsleistung. Als Faustregel: MCC <0,3 = schwach, 0,3–0,5 = moderat, 0,5–0,7 = gut, >0,7 = sehr gut. Bei medizinischen Diagnosen mit lebenswichtigen Konsequenzen wird oft MCC >0,85 angestrebt. Der Vorteil des MCC: Er gibt selbst bei völlig unausgewogenen Klassen eine zuverlässige Einschätzung — deshalb empfehlen viele ML-Forscher ihn als primäre Metrik für alle binären Klassifikationsprobleme.

Wie berechnet man Metriken für mehr als 2 Klassen?

Bei Multi-Klassen-Klassifikation berechnet man für jede Klasse die Metriken separat (One-vs-Rest-Ansatz) und bildet dann den Durchschnitt. Macro-Average: alle Klassen gleichgewichtet — sinnvoll wenn alle Klassen gleich wichtig sind. Weighted Average: nach Klassengröße gewichtet — sinnvoll wenn größere Klassen wichtiger sind. Micro-Average: globale TP/FP/FN summiert — entspricht der globalen Accuracy. Unser Rechner fokussiert auf binäre Klassifikation, die die theoretische Grundlage für alle Multi-Klassen-Erweiterungen bildet.

Was ist der Unterschied zwischen Sensitivity und Specificity?

Sensitivity (= Recall) misst: Von allen tatsächlich Positiven — wie viele wurden erkannt? Sensitivity = TP / (TP + FN). Hohe Sensitivity = wenige Fälle übersehen. Specificity misst: Von allen tatsächlich Negativen — wie viele wurden korrekt als negativ erkannt? Specificity = TN / (TN + FP). Hohe Specificity = wenige Fehlalarme. In der Medizin: Ein guter Screening-Test hat hohe Sensitivity (kein Fall übersehen), ein guter Bestätigungstest hohe Specificity (kein falscher Alarm).

Wann sollte ich F-Beta statt F1 verwenden?

F1 gewichtet Precision und Recall gleich (β=1). F-Beta mit β<1 gewichtet Precision stärker — sinnvoll wenn FP teurer ist als FN (z.B. Spam-Filter: lieber Spam durchlassen als gute Mail blockieren). F-Beta mit β>1 gewichtet Recall stärker — sinnvoll wenn FN teurer ist als FP (z.B. Krebsdiagnose: lieber Fehlalarm als übersehener Fall, typisch β=2). In der Praxis: F2-Score (β=2) bei medizinischen Anwendungen häufig, F0,5-Score (β=0,5) bei Produktionskontrolle und Spam-Erkennung.

🔗 Passende weitere Rechner

Bayes Theorem Rechner · Wahrscheinlichkeitsrechner · Kombinationsrechner · Chebyshev-Ungleichung

Quellen: Chicco D, Jurman G (2020): The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics 21, 6. Ainsworth BE et al. (2011) Compendium of Physical Activities. Powers DMW (2011): Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness and Correlation. Journal of Machine Learning Technologies.

Vertrauen Sie unserer Expertise

Daniel Niedermayer

Geschäftsführer

Zuletzt geprüft: 21. Januar 2026

Quellen

Berechnungsformeln

Accuracy=(TP+TN)/N · Precision=TP/(TP+FP) · Recall=TP/(TP+FN) · Specificity=TN/(TN+FP) · F1=2·P·R/(P+R) · MCC=(TP·TN−FP·FN)/√((TP+FP)(TP+FN)(TN+FP)(TN+FN)) · Balanced Accuracy=(Recall+Specificity)/2. Bei Division durch 0 wird 0 ausgegeben.

Mehr zur Methodik

★★★★★

4,9 von 5 Sternen

Basierend auf über 1.893 echten Nutzerbewertungen

Nutzerbefragung auf fixrechner.de – 21. Januar 2026

Die Qualität der Rechner ist enorm, und das kostenlos. Besten Dank.

Daniel G.

Head of Sales & Business Development

Neben den Rechnern für den Arbeitsalltag finde ich auch die rund um die eigene Finanzplanung sehr hilfreich.

Sabine K.

Agentur Geschäftsführerin

Ich schätze die Genauigkeit und Benutzerfreundlichkeit dieser Rechner sehr.

Jeremiah H.

Fixrechner.de – „Alles ist berechenbar“. Der umfassendste deutsche Accuracy-Rechner: 8 Metriken, visuelle Konfusionsmatrix, Kontext-Interpreter, Accuracy-Paradoxon-Demo und F-Beta-Score.

🎯

8 Metriken

Alle relevanten Klassifikationsmetriken auf einmal.

⚠️

Paradoxon-Check

Automatische Warnung bei irreführender Accuracy.

🔒

Datenschutz

Alles lokal – keine Datenspeicherung.

Alle Berechnungen ohne Gewähr. Kein Ersatz für fachliche statistische Beratung.