Calculateur du khi-deux
Calculez les statistiques du khi-deux (χ²) pour les tests d'ajustement et les tests d'indépendance. Saisissez les fréquences observées et attendues, ou remplissez un tableau de contingence, pour calculer instantanément χ², les degrés de liberté, la valeur p et les contributions par cellule.
χ² = ∑ (Oᵢ − Eᵢ)² / Eᵢ
Valeurs séparées par des espaces, des virgules ou des tabulations
Doit contenir le même nombre de valeurs que les fréquences observées
Questions fréquentes
Qu'est-ce qu'un test du khi-deux ?
Un test du khi-deux est un test d'hypothèse statistique qui évalue si les fréquences observées diffèrent significativement des fréquences attendues. Il s'applique aux données catégorielles et existe sous deux formes principales : le test d'ajustement (une variable catégorielle comparée à une distribution attendue) et le test d'indépendance (deux variables catégorielles dans un tableau de contingence).
Comment calcule-t-on la statistique du khi-deux ?
La statistique du khi-deux se calcule ainsi : χ² = Σ (O − E)² / E, où O est la fréquence observée et E la fréquence attendue pour chaque catégorie ou cellule. Additionnez cette valeur sur toutes les catégories ou cellules pour obtenir la statistique χ² totale.
Quelle est la différence entre le test d'ajustement et le test d'indépendance ?
Le test d'ajustement vérifie si un seul ensemble d'effectifs observés correspond à une distribution attendue précise (par exemple, un dé est-il équilibré ?). Le test d'indépendance utilise un tableau de contingence pour déterminer si deux variables catégorielles sont liées (par exemple, le genre influence-t-il la préférence pour un produit ?). La formule des degrés de liberté diffère : k − 1 pour l'ajustement, (lignes − 1) × (colonnes − 1) pour l'indépendance.
Que sont les degrés de liberté dans un test du khi-deux ?
Les degrés de liberté (df) déterminent quelle distribution du khi-deux utiliser. Pour un test d'ajustement, df = k − 1 (k = nombre de catégories). Pour un test d'indépendance, df = (lignes − 1) × (colonnes − 1). Par exemple, un tableau de contingence 3×4 a df = (3−1)×(4−1) = 6.
Quelle valeur p est statistiquement significative pour un test du khi-deux ?
Le seuil de signification standard est α = 0,05. Si la valeur p est inférieure à 0,05, le résultat est statistiquement significatif et l'hypothèse nulle est rejetée. Vous pouvez aussi utiliser α = 0,10 pour une analyse exploratoire ou α = 0,01 pour des critères plus stricts. La valeur p représente la probabilité d'observer une valeur χ² aussi grande ou plus grande si l'hypothèse nulle était vraie.
Quelle est la fréquence attendue minimale pour un test du khi-deux ?
L'approximation du khi-deux est fiable lorsque toutes les fréquences attendues des cellules sont au moins égales à 5. Si certaines cellules ont des fréquences attendues inférieures à 5, envisagez de regrouper des catégories, de collecter davantage de données ou d'utiliser le test exact de Fisher (pour les tableaux 2×2). Des fréquences attendues très faibles peuvent gonfler la statistique χ² et produire des valeurs p faussement petites.
Comment interpréter les contributions par cellule ?
La contribution de chaque cellule à χ² est (O − E)² / E. Les grandes contributions indiquent les cellules où les effectifs observés s'écartent le plus des effectifs attendus. Examiner les contributions individuelles aide à repérer les catégories ou combinaisons de variables qui expliquent l'association globale. Une contribution supérieure à 3,84 (df = 1 à α = 0,05) dans une seule cellule suggère un écart particulièrement important.
Peut-on utiliser le test du khi-deux pour des données continues ?
Non. Les tests du khi-deux s'appliquent uniquement aux données de comptage (fréquences de variables catégorielles). Pour des données continues, utilisez des tests t (comparaison de deux moyennes), une ANOVA (comparaison de plusieurs moyennes de groupes) ou une corrélation de Pearson/Spearman (mesure de l'association entre variables continues). Pour utiliser le khi-deux avec des données continues, il faut d'abord regrouper les valeurs en catégories.
Formule du khi-deux
La statistique du khi-deux (χ²) mesure l'écart entre les fréquences observées et ce que l'on attend sous l'hypothèse nulle. La formule de base est :
χ² = Σ (Oᵢ − Eᵢ)² / Eᵢ
Où :
- Oᵢ — Fréquence observée pour la catégorie i
- Eᵢ — Fréquence attendue pour la catégorie i
- Σ — Somme sur toutes les catégories ou cellules
Plus la valeur de χ² est élevée, plus l'écart entre les fréquences observées et attendues est important. Pour déterminer si cet écart est statistiquement significatif, comparez la statistique χ² à une valeur critique de la distribution du khi-deux avec les degrés de liberté appropriés, ou calculez de façon équivalente la valeur p.
Test d'ajustement ou test d'indépendance
Il existe deux principaux types de tests du khi-deux, chacun répondant à une question différente :
| Élément | Test d'ajustement | Test d'indépendance |
|---|---|---|
| Question | La distribution correspond-elle à une distribution attendue précise ? | Deux variables catégorielles sont-elles indépendantes ? |
| Entrée | Un ensemble de fréquences observées + un ensemble de fréquences attendues | Tableau de contingence 2D (lignes × colonnes) |
| Formule de df | k − 1 (k = nombre de catégories) | (lignes − 1) × (colonnes − 1) |
| Exemple | Un dé est-il équilibré ? Des données d'enquête suivent-elles une distribution connue ? | Le tabagisme est-il lié à une maladie pulmonaire ? Le genre influence-t-il une préférence ? |
Test d'ajustement
Utilisez le test d'ajustement lorsque vous disposez d'une seule variable catégorielle et que vous voulez comparer les effectifs observés à des effectifs théoriquement attendus. Par exemple, si vous lancez un dé 100 fois, la fréquence attendue pour chaque face est 100/6 ≈ 16,67. Le test d'ajustement indique si les effectifs observés des lancers s'écartent significativement de cette attente.
Test d'indépendance
Utilisez le test d'indépendance (aussi appelé test du khi-deux sur tableau de contingence) lorsque vous avez deux variables catégorielles et que vous voulez déterminer si elles sont statistiquement liées. La fréquence attendue pour chaque cellule est calculée ainsi :
Eᵢⱼ = (Total ligneᵢ × Total colonneⱼ) / Total général
Degrés de liberté
Les degrés de liberté (df) déterminent quelle distribution du khi-deux utiliser pour calculer la valeur p. Les df reflètent le nombre d'informations indépendantes disponibles après prise en compte des contraintes.
- Test d'ajustement : df = k − 1, où k est le nombre de catégories. On perd 1 degré de liberté parce que les fréquences observées doivent sommer au total.
- Test d'indépendance : df = (lignes − 1) × (colonnes − 1). Pour un tableau 2×2, df = 1. Pour un tableau 3×4, df = 6.
Un df plus élevé décale la distribution du khi-deux vers la droite, ce qui exige une valeur χ² plus grande pour atteindre la signification statistique au même niveau alpha.
Tableau des valeurs critiques du khi-deux
Le tableau ci-dessous présente les valeurs critiques χ² pour des degrés de liberté et des seuils de signification courants. Si votre χ² calculé dépasse la valeur critique, le résultat est statistiquement significatif.
| df | α = 0.10 | α = 0.05 | α = 0.025 | α = 0.01 |
|---|---|---|---|---|
| 1 | 2.706 | 3.841 | 5.024 | 6.635 |
| 2 | 4.605 | 5.991 | 7.378 | 9.210 |
| 3 | 6.251 | 7.815 | 9.348 | 11.345 |
| 4 | 7.779 | 9.488 | 11.143 | 13.277 |
| 5 | 9.236 | 11.070 | 12.832 | 15.086 |
| 6 | 10.645 | 12.592 | 14.449 | 16.812 |
| 8 | 13.362 | 15.507 | 17.535 | 20.090 |
| 10 | 15.987 | 18.307 | 20.483 | 23.209 |
| 15 | 22.307 | 24.996 | 27.488 | 30.578 |
| 20 | 28.412 | 31.410 | 34.170 | 37.566 |
Exemples de calcul du khi-deux
Exemple 1 : test d'ajustement — dé équilibré
Vous lancez un dé 100 fois et observez : 16, 18, 16, 14, 12, 24. Le dé est-il équilibré ? Fréquence attendue pour chaque face : 100 / 6 ≈ 16,67.
χ² = (16 − 16.67)² / 16.67 + (18 − 16.67)² / 16.67 + ...
χ² ≈ 4.68, df = 5
valeur p ≈ 0.456
Non significatif (α = 0.05). Rien n'indique que le dé soit déséquilibré.
Exemple 2 : test d'indépendance — genre et préférence
Enquête auprès de 100 personnes : les hommes et les femmes préfèrent-ils des produits différents ? Tableau de contingence : hommes — 20 préfèrent A, 30 préfèrent B ; femmes — 35 préfèrent A, 15 préfèrent B.
Totaux des lignes : hommes = 50, femmes = 50
Totaux des colonnes : A = 55, B = 45, total général = 100
Attendu (hommes, A) = 50 × 55 / 100 = 27.5
χ² ≈ 8.08, df = 1
valeur p ≈ 0.004
Significatif (α = 0.05). Le genre et la préférence sont liés.
Hypothèses et limites
- Indépendance : chaque observation doit être indépendante des autres. Les mesures répétées ou les données groupées violent cette hypothèse.
- Règle des fréquences attendues : chaque fréquence attendue de cellule devrait être au moins égale à 5. Sinon, envisagez de regrouper des catégories ou d'utiliser le test exact de Fisher (pour les tableaux 2×2).
- Données catégorielles : les tests du khi-deux s'appliquent uniquement aux effectifs, pas aux moyennes ni aux proportions exprimées sous forme décimale. Pour les données continues, utilisez des tests t ou une ANOVA.
- Taille d'échantillon : l'approximation du khi-deux s'améliore avec les grands échantillons. Les très petits échantillons peuvent produire des valeurs p peu fiables.
- Uniquement bilatéral : les tests du khi-deux sont intrinsèquement non directionnels. Ils détectent tout écart par rapport à la distribution attendue, pas une direction particulière.