Calcolo.online

Calcolatori Professionali Certificati

Cohen's Kappa Calculator

Calcola l'accordo inter-valutatore con kappa semplice e ponderata, intervalli di confidenza, test Z e guida operativa per audit clinici e customer experience.

Cohen's Kappa e affidabilità inter-valutatore

Calcola l’accordo tra due valutatori su scale nominali o ordinali, con kappa ponderata, intervallo di confidenza e suggerimenti operativi per audit clinici, psicometrici e controllo qualità.

Classi di valutazione

Valore principale

0.000

Cohen's κ (non ponderata) · Affidabilità nulla

Accordo osservato

0.000%

Po = diag / totale risposte

Accordo atteso

0.000%

Pe = ∑ (riga · colonna) / N²

Intervallo di confidenza 95%

Assume distribuzione asintotica (Cohen 1960)

Z-test per κ = 0

Valore critico 1,96 (α = 0,05)

Matrice di confusione

Valutatore B →Classe AClasse BClasse CTotale riga
Classe A0
Classe B0
Classe C0
Totale colonna0000

Inserisci il numero di osservazioni per ogni combinazione di categorie (Valutatore A = righe, Valutatore B = colonne). I totali devono riflettere il numero reale di casi codificati.

Kappa ponderata e sensibilità

Kappa ponderata

0.000

Metodologia Fleiss-Cohen per scale ordinali

Accordo ponderato osservato

0.000%

Somma di wᵢⱼ · oᵢⱼ / N

Accordo ponderato atteso

0.000%

Basato sulle frequenze marginali

  • Attenzione alla prevalenza: se una sola categoria domina (>80% dei casi) kappa può risultare bassa nonostante un alto accordo percentuale. In questi casi confronta anche il coefficiente di Gwet (AC1) o il B-statistic di Byrt.
  • Bias index: controlla la differenza tra le distribuzioni marginali dei valutatori; scarti >10% suggeriscono necessità di training supplementare.

Interpretazione rapida

Intervallo κGiudizioAzioni suggerite
≤ 0,00Affidabilità nulla o peggiore del casoControlla bias di prevalenza e sbilanciamento delle categorie.
0,01 – 0,20Accordo lieve (Landis & Koch, 1977)Programma sessioni di calibrazione e rivedi la griglia di codifica.
0,21 – 0,40Accordo discretoControlla bias di prevalenza e sbilanciamento delle categorie.
0,41 – 0,60Accordo moderatoRevisiona criteri operativi, esempi borderline e definizioni tassonomiche.
0,61 – 0,80Accordo sostanzialeMonitoraggio periodico: documenta training e controlli di qualità.
0,81 – 1,00Accordo quasi perfettoAccordo ottimo: conserva la procedura e verifica che non vi sia over-fitting.

Guida metodologica

1. Preparazione del dataset

  • Assicurati che i due valutatori lavorino sugli stessi casi (stesso ID) e che ogni caso abbia una singola classe.
  • Normalizza le etichette (maiuscole/minuscole) e documenta il codice utilizzato per eventuali audit ISO 9001 o GCP.
  • Per dataset sbilanciati, valuta anche precisione/recall o coefficienti specifici di categoria.

2. Scelta del coefficiente

Cohen's κ è appropriato per due valutatori indipendenti. Per più di due osservatori usa Fleiss κ o Gwet's AC2. Per scale ordinali, seleziona il peso lineare/quadratico per penalizzare diversamente gli errori lontani.

3. Reporting professionale

Riporta sempre: dimensione del campione, distribuzione delle categorie, κ (non ponderata e ponderata), intervallo di confidenza e metodologia di ponderazione. Collega le soglie decisionali alle policy interne (es. kappa ≥ 0,7 richiesto per studi clinici fase III).

4. Limiti

Kappa è sensibile alla prevalenza e al bias marginale. Quando una categoria è dominante possono emergere paradossi: integra l’analisi con AC1/AC2, percent agreement e analisi dei disaccordi critici. Per campioni piccoli (<30) preferisci bootstrap o metodi esatti.

Disclaimer professionale

I risultati sono indicativi e validi per analisi preliminari. Per studi clinici regolati, validazioni psicometriche o decisioni legali applicare protocolli statistici completi, salvare i log di calcolo e far revisionare il report da un biostatistico certificato.