Calculateur du khi-deux

Calculez les statistiques du khi-deux (χ²) pour les tests d'ajustement et les tests d'indépendance. Saisissez les fréquences observées et attendues, ou remplissez un tableau de contingence, pour calculer instantanément χ², les degrés de liberté, la valeur p et les contributions par cellule.

χ² = ∑ (Oᵢ − Eᵢ)² / Eᵢ

Valeurs séparées par des espaces, des virgules ou des tabulations

Doit contenir le même nombre de valeurs que les fréquences observées

Questions fréquentes

Qu'est-ce qu'un test du khi-deux ?

Un test du khi-deux est un test d'hypothèse statistique qui évalue si les fréquences observées diffèrent significativement des fréquences attendues. Il s'applique aux données catégorielles et existe sous deux formes principales : le test d'ajustement (une variable catégorielle comparée à une distribution attendue) et le test d'indépendance (deux variables catégorielles dans un tableau de contingence).

Comment calcule-t-on la statistique du khi-deux ?

La statistique du khi-deux se calcule ainsi : χ² = Σ (O − E)² / E, où O est la fréquence observée et E la fréquence attendue pour chaque catégorie ou cellule. Additionnez cette valeur sur toutes les catégories ou cellules pour obtenir la statistique χ² totale.

Quelle est la différence entre le test d'ajustement et le test d'indépendance ?

Le test d'ajustement vérifie si un seul ensemble d'effectifs observés correspond à une distribution attendue précise (par exemple, un dé est-il équilibré ?). Le test d'indépendance utilise un tableau de contingence pour déterminer si deux variables catégorielles sont liées (par exemple, le genre influence-t-il la préférence pour un produit ?). La formule des degrés de liberté diffère : k − 1 pour l'ajustement, (lignes − 1) × (colonnes − 1) pour l'indépendance.

Que sont les degrés de liberté dans un test du khi-deux ?

Les degrés de liberté (df) déterminent quelle distribution du khi-deux utiliser. Pour un test d'ajustement, df = k − 1 (k = nombre de catégories). Pour un test d'indépendance, df = (lignes − 1) × (colonnes − 1). Par exemple, un tableau de contingence 3×4 a df = (3−1)×(4−1) = 6.

Quelle valeur p est statistiquement significative pour un test du khi-deux ?

Le seuil de signification standard est α = 0,05. Si la valeur p est inférieure à 0,05, le résultat est statistiquement significatif et l'hypothèse nulle est rejetée. Vous pouvez aussi utiliser α = 0,10 pour une analyse exploratoire ou α = 0,01 pour des critères plus stricts. La valeur p représente la probabilité d'observer une valeur χ² aussi grande ou plus grande si l'hypothèse nulle était vraie.

Quelle est la fréquence attendue minimale pour un test du khi-deux ?

L'approximation du khi-deux est fiable lorsque toutes les fréquences attendues des cellules sont au moins égales à 5. Si certaines cellules ont des fréquences attendues inférieures à 5, envisagez de regrouper des catégories, de collecter davantage de données ou d'utiliser le test exact de Fisher (pour les tableaux 2×2). Des fréquences attendues très faibles peuvent gonfler la statistique χ² et produire des valeurs p faussement petites.

Comment interpréter les contributions par cellule ?

La contribution de chaque cellule à χ² est (O − E)² / E. Les grandes contributions indiquent les cellules où les effectifs observés s'écartent le plus des effectifs attendus. Examiner les contributions individuelles aide à repérer les catégories ou combinaisons de variables qui expliquent l'association globale. Une contribution supérieure à 3,84 (df = 1 à α = 0,05) dans une seule cellule suggère un écart particulièrement important.

Peut-on utiliser le test du khi-deux pour des données continues ?

Non. Les tests du khi-deux s'appliquent uniquement aux données de comptage (fréquences de variables catégorielles). Pour des données continues, utilisez des tests t (comparaison de deux moyennes), une ANOVA (comparaison de plusieurs moyennes de groupes) ou une corrélation de Pearson/Spearman (mesure de l'association entre variables continues). Pour utiliser le khi-deux avec des données continues, il faut d'abord regrouper les valeurs en catégories.

Formule du khi-deux

La statistique du khi-deux (χ²) mesure l'écart entre les fréquences observées et ce que l'on attend sous l'hypothèse nulle. La formule de base est :

χ² = Σ (Oᵢ − Eᵢ)² / Eᵢ

Où :

  • Oᵢ — Fréquence observée pour la catégorie i
  • Eᵢ — Fréquence attendue pour la catégorie i
  • Σ — Somme sur toutes les catégories ou cellules

Plus la valeur de χ² est élevée, plus l'écart entre les fréquences observées et attendues est important. Pour déterminer si cet écart est statistiquement significatif, comparez la statistique χ² à une valeur critique de la distribution du khi-deux avec les degrés de liberté appropriés, ou calculez de façon équivalente la valeur p.

Test d'ajustement ou test d'indépendance

Il existe deux principaux types de tests du khi-deux, chacun répondant à une question différente :

ÉlémentTest d'ajustementTest d'indépendance
QuestionLa distribution correspond-elle à une distribution attendue précise ?Deux variables catégorielles sont-elles indépendantes ?
EntréeUn ensemble de fréquences observées + un ensemble de fréquences attenduesTableau de contingence 2D (lignes × colonnes)
Formule de dfk − 1 (k = nombre de catégories)(lignes − 1) × (colonnes − 1)
ExempleUn dé est-il équilibré ? Des données d'enquête suivent-elles une distribution connue ?Le tabagisme est-il lié à une maladie pulmonaire ? Le genre influence-t-il une préférence ?

Test d'ajustement

Utilisez le test d'ajustement lorsque vous disposez d'une seule variable catégorielle et que vous voulez comparer les effectifs observés à des effectifs théoriquement attendus. Par exemple, si vous lancez un dé 100 fois, la fréquence attendue pour chaque face est 100/6 ≈ 16,67. Le test d'ajustement indique si les effectifs observés des lancers s'écartent significativement de cette attente.

Test d'indépendance

Utilisez le test d'indépendance (aussi appelé test du khi-deux sur tableau de contingence) lorsque vous avez deux variables catégorielles et que vous voulez déterminer si elles sont statistiquement liées. La fréquence attendue pour chaque cellule est calculée ainsi :

Eᵢⱼ = (Total ligneᵢ × Total colonneⱼ) / Total général

Degrés de liberté

Les degrés de liberté (df) déterminent quelle distribution du khi-deux utiliser pour calculer la valeur p. Les df reflètent le nombre d'informations indépendantes disponibles après prise en compte des contraintes.

  • Test d'ajustement : df = k − 1, où k est le nombre de catégories. On perd 1 degré de liberté parce que les fréquences observées doivent sommer au total.
  • Test d'indépendance : df = (lignes − 1) × (colonnes − 1). Pour un tableau 2×2, df = 1. Pour un tableau 3×4, df = 6.

Un df plus élevé décale la distribution du khi-deux vers la droite, ce qui exige une valeur χ² plus grande pour atteindre la signification statistique au même niveau alpha.

Tableau des valeurs critiques du khi-deux

Le tableau ci-dessous présente les valeurs critiques χ² pour des degrés de liberté et des seuils de signification courants. Si votre χ² calculé dépasse la valeur critique, le résultat est statistiquement significatif.

dfα = 0.10α = 0.05α = 0.025α = 0.01
12.7063.8415.0246.635
24.6055.9917.3789.210
36.2517.8159.34811.345
47.7799.48811.14313.277
59.23611.07012.83215.086
610.64512.59214.44916.812
813.36215.50717.53520.090
1015.98718.30720.48323.209
1522.30724.99627.48830.578
2028.41231.41034.17037.566

Exemples de calcul du khi-deux

Exemple 1 : test d'ajustement — dé équilibré

Vous lancez un dé 100 fois et observez : 16, 18, 16, 14, 12, 24. Le dé est-il équilibré ? Fréquence attendue pour chaque face : 100 / 6 ≈ 16,67.

χ² = (16 − 16.67)² / 16.67 + (18 − 16.67)² / 16.67 + ...
χ² ≈ 4.68, df = 5
valeur p ≈ 0.456
Non significatif (α = 0.05). Rien n'indique que le dé soit déséquilibré.

Exemple 2 : test d'indépendance — genre et préférence

Enquête auprès de 100 personnes : les hommes et les femmes préfèrent-ils des produits différents ? Tableau de contingence : hommes — 20 préfèrent A, 30 préfèrent B ; femmes — 35 préfèrent A, 15 préfèrent B.

Totaux des lignes : hommes = 50, femmes = 50
Totaux des colonnes : A = 55, B = 45, total général = 100
Attendu (hommes, A) = 50 × 55 / 100 = 27.5
χ² ≈ 8.08, df = 1
valeur p ≈ 0.004
Significatif (α = 0.05). Le genre et la préférence sont liés.

Hypothèses et limites

  • Indépendance : chaque observation doit être indépendante des autres. Les mesures répétées ou les données groupées violent cette hypothèse.
  • Règle des fréquences attendues : chaque fréquence attendue de cellule devrait être au moins égale à 5. Sinon, envisagez de regrouper des catégories ou d'utiliser le test exact de Fisher (pour les tableaux 2×2).
  • Données catégorielles : les tests du khi-deux s'appliquent uniquement aux effectifs, pas aux moyennes ni aux proportions exprimées sous forme décimale. Pour les données continues, utilisez des tests t ou une ANOVA.
  • Taille d'échantillon : l'approximation du khi-deux s'améliore avec les grands échantillons. Les très petits échantillons peuvent produire des valeurs p peu fiables.
  • Uniquement bilatéral : les tests du khi-deux sont intrinsèquement non directionnels. Ils détectent tout écart par rapport à la distribution attendue, pas une direction particulière.