Cohen's Kappa Calculator
Calcola l'accordo inter-valutatore con kappa semplice e ponderata, intervalli di confidenza, test Z e guida operativa per audit clinici e customer experience.
Cohen's Kappa e affidabilità inter-valutatore
Calcola l’accordo tra due valutatori su scale nominali o ordinali, con kappa ponderata, intervallo di confidenza e suggerimenti operativi per audit clinici, psicometrici e controllo qualità.
Classi di valutazione
Valore principale
0.000
Cohen's κ (non ponderata) · Affidabilità nulla
Accordo osservato
0.000%
Po = diag / totale risposte
Accordo atteso
0.000%
Pe = ∑ (riga · colonna) / N²
Intervallo di confidenza 95%
—
Assume distribuzione asintotica (Cohen 1960)
Z-test per κ = 0
—
Valore critico 1,96 (α = 0,05)
Matrice di confusione
| Valutatore B → | Classe A | Classe B | Classe C | Totale riga |
|---|---|---|---|---|
| Classe A | 0 | |||
| Classe B | 0 | |||
| Classe C | 0 | |||
| Totale colonna | 0 | 0 | 0 | 0 |
Inserisci il numero di osservazioni per ogni combinazione di categorie (Valutatore A = righe, Valutatore B = colonne). I totali devono riflettere il numero reale di casi codificati.
Kappa ponderata e sensibilità
Kappa ponderata
0.000
Metodologia Fleiss-Cohen per scale ordinali
Accordo ponderato osservato
0.000%
Somma di wᵢⱼ · oᵢⱼ / N
Accordo ponderato atteso
0.000%
Basato sulle frequenze marginali
- Attenzione alla prevalenza: se una sola categoria domina (>80% dei casi) kappa può risultare bassa nonostante un alto accordo percentuale. In questi casi confronta anche il coefficiente di Gwet (AC1) o il B-statistic di Byrt.
- Bias index: controlla la differenza tra le distribuzioni marginali dei valutatori; scarti >10% suggeriscono necessità di training supplementare.
Interpretazione rapida
| Intervallo κ | Giudizio | Azioni suggerite |
|---|---|---|
| ≤ 0,00 | Affidabilità nulla o peggiore del caso | Controlla bias di prevalenza e sbilanciamento delle categorie. |
| 0,01 – 0,20 | Accordo lieve (Landis & Koch, 1977) | Programma sessioni di calibrazione e rivedi la griglia di codifica. |
| 0,21 – 0,40 | Accordo discreto | Controlla bias di prevalenza e sbilanciamento delle categorie. |
| 0,41 – 0,60 | Accordo moderato | Revisiona criteri operativi, esempi borderline e definizioni tassonomiche. |
| 0,61 – 0,80 | Accordo sostanziale | Monitoraggio periodico: documenta training e controlli di qualità. |
| 0,81 – 1,00 | Accordo quasi perfetto | Accordo ottimo: conserva la procedura e verifica che non vi sia over-fitting. |
Guida metodologica
1. Preparazione del dataset
- Assicurati che i due valutatori lavorino sugli stessi casi (stesso ID) e che ogni caso abbia una singola classe.
- Normalizza le etichette (maiuscole/minuscole) e documenta il codice utilizzato per eventuali audit ISO 9001 o GCP.
- Per dataset sbilanciati, valuta anche precisione/recall o coefficienti specifici di categoria.
2. Scelta del coefficiente
Cohen's κ è appropriato per due valutatori indipendenti. Per più di due osservatori usa Fleiss κ o Gwet's AC2. Per scale ordinali, seleziona il peso lineare/quadratico per penalizzare diversamente gli errori lontani.
3. Reporting professionale
Riporta sempre: dimensione del campione, distribuzione delle categorie, κ (non ponderata e ponderata), intervallo di confidenza e metodologia di ponderazione. Collega le soglie decisionali alle policy interne (es. kappa ≥ 0,7 richiesto per studi clinici fase III).
4. Limiti
Kappa è sensibile alla prevalenza e al bias marginale. Quando una categoria è dominante possono emergere paradossi: integra l’analisi con AC1/AC2, percent agreement e analisi dei disaccordi critici. Per campioni piccoli (<30) preferisci bootstrap o metodi esatti.
Disclaimer professionale
I risultati sono indicativi e validi per analisi preliminari. Per studi clinici regolati, validazioni psicometriche o decisioni legali applicare protocolli statistici completi, salvare i log di calcolo e far revisionare il report da un biostatistico certificato.