Calculateur de taille d'échantillon pour test A/B

Planifiez votre test A/B en calculant la taille d'échantillon requise par variante. Saisissez votre taux de conversion de référence et l'effet minimal détectable pour déterminer combien de visiteurs sont nécessaires à une expérience statistiquement valide.

n = (Zₐ/₂ + Z𝛃)² × (p₁(1-p₁) + p₂(1-p₂)) / (p₂ - p₁)²

Amélioration relative que vous voulez détecter (ex. 10 % = détecter 5 % → 5,5 %)

Référence rapide de taille d'échantillon

Taille d'échantillon par variante à 95 % de confiance et 80 % de puissance :

Taux de référenceMDE de 5 %MDE de 10 %MDE de 20 %
1%637,008163,09242,691
3%207,93653,20813,911
5%122,12131,2318,155
10%57,76014,7493,839
20%25,5806,5071,680

* MDE = effet minimal détectable (relatif). Un MDE ou un taux de référence plus faible nécessite des échantillons plus grands.

Questions fréquentes

Comment calculer la taille d'échantillon d'un test A/B ?

La taille d'échantillon se calcule avec la formule : n = (Zα/2 + Zβ)² × (p₁(1-p₁) + p₂(1-p₂)) / (p₂-p₁)², où p₁ est le taux de conversion de référence, p₂ le taux amélioré attendu, Zα/2 la valeur z correspondant à votre niveau de confiance, et Zβ la valeur z correspondant à la puissance souhaitée.

Qu'est-ce que l'effet minimal détectable (MDE) ?

Le MDE est la plus petite amélioration relative que vous voulez pouvoir détecter dans votre test. Un MDE de 10 % sur une référence de 5 % signifie que vous voulez détecter si la variante atteint au moins 5,5 % (soit une amélioration absolue de 0,5 point de pourcentage). Des MDE plus faibles exigent des tailles d'échantillon plus grandes.

Qu'est-ce que la puissance statistique ?

La puissance statistique (1-β) est la probabilité de détecter correctement un effet réel. Une puissance de 80 % signifie que vous avez 80 % de chances de détecter une vraie différence et 20 % de chances de la manquer (erreur de type II). Une puissance plus élevée nécessite plus d'échantillons, mais réduit les faux négatifs.

Pourquoi ai-je besoin d'autant de visiteurs pour mon test A/B ?

La taille d'échantillon dépend de votre taux de référence, du MDE souhaité, du niveau de confiance et de la puissance. Des taux de référence plus bas, des MDE plus petits, une confiance plus élevée et une puissance plus élevée augmentent tous la taille d'échantillon requise. Une référence de 5 % avec un MDE relatif de 5 %, à 95 % de confiance et 80 % de puissance, nécessite environ 125 000 visiteurs par variante.

Combien de temps dois-je faire durer mon test A/B ?

Divisez la taille totale d'échantillon requise par votre trafic quotidien. Par exemple, si vous avez besoin de 20 000 visiteurs au total et recevez 2 000 visiteurs par jour, faites durer le test au moins 10 jours. Prévoyez aussi au minimum 1 à 2 semaines complètes pour tenir compte des variations de comportement selon le jour de la semaine.

Quel niveau de confiance et quelle puissance dois-je utiliser ?

Le standard est 95 % de confiance et 80 % de puissance. Utilisez 90 % de confiance pour des itérations plus rapides lorsque les faux positifs coûtent moins cher. Utilisez 99 % de confiance pour les changements à fort impact. Augmentez la puissance à 90-95 % lorsqu'il serait très coûteux de manquer une amélioration réelle (par exemple, pour des tests de prix).

Puis-je réduire la taille d'échantillon requise ?

Oui : (1) Acceptez un MDE plus grand — si seules les grandes améliorations vous intéressent, vous avez besoin de moins d'échantillons. (2) Abaissez la confiance à 90 %. (3) Abaissez la puissance à 70-80 %. (4) Utilisez des tests unilatéraux si seules les améliorations vous intéressent (déconseillé dans la plupart des cas). (5) Concentrez le trafic sur les pages testées.

Que se passe-t-il si j'arrête mon test trop tôt ?

Arrêter le test trop tôt lorsque vous voyez un résultat significatif gonfle fortement les taux de faux positifs, un phénomène lié à la consultation répétée des résultats. Vous pouvez conclure qu'une variante est meilleure alors qu'elle ne l'est pas. Engagez-vous toujours à atteindre la taille d'échantillon calculée à l'avance avant d'analyser les résultats, ou utilisez des méthodes de test séquentiel conçues pour le suivi continu.

Pourquoi la taille d'échantillon compte dans les tests A/B

Lancer un test A/B sans taille d'échantillon suffisante revient à lancer une pièce trois fois et à conclure qu'elle est biaisée. La taille d'échantillon détermine la fiabilité de vos résultats de test. Avec trop peu de visiteurs, vous risquez soit de manquer de vraies améliorations (faux négatifs), soit de déclarer des gagnants qui n'existent pas réellement (faux positifs).

Calculer la taille d'échantillon avant de lancer votre expérience est essentiel parce que :

  • Cela vous indique combien de temps le test doit durer
  • Cela évite les arrêts prématurés (qui gonflent les taux de faux positifs)
  • Cela garantit une puissance statistique suffisante pour détecter des différences significatives
  • Cela vous aide à décider si un test est réaliste compte tenu de vos niveaux de trafic

Formule de taille d'échantillon

La taille d'échantillon requise par variante pour un test de proportions à deux échantillons est :

Taille d'échantillon par variante :

n = (Zₐ/₂ + Z𝛃)² × (p₁(1-p₁) + p₂(1-p₂)) / (p₂ - p₁)²

Où :

  • n = taille d'échantillon requise par variante
  • Zα/2 = valeur z correspondant au niveau de confiance (par ex. 1,96 pour 95 %)
  • = valeur z correspondant à la puissance statistique (par ex. 0,842 pour 80 %)
  • p₁ = taux de conversion de référence
  • p₂ = taux de conversion attendu (p₁ × (1 + MDE))

Exemples de calcul de taille d'échantillon

Exemple 1 : test e-commerce standard

Taux de conversion de référence : 3 %. Vous voulez détecter une amélioration relative de 10 % (3 % → 3,3 %) avec 95 % de confiance et 80 % de puissance.

p₁ = 0.03, p₂ = 0.033
Zₐ/₂ = 1.96, Z𝛃 = 0.842
n = (1.96 + 0.842)² × (0.03 × 0.97 + 0.033 × 0.967) / (0.003)²
n ≈ 44 202 par variante (88 404 au total)

Exemple 2 : page d'atterrissage à forte conversion

Référence : 15 % de conversion. Détection d'une amélioration relative de 5 % avec 95 % de confiance et 80 % de puissance.

p₁ = 0.15, p₂ = 0.1575
n ≈ 41 122 par variante — Avec 10 000 visiteurs/jour : environ 9 jours pour terminer

Exemple 3 : changement ambitieux, faible trafic

Référence : 2 %. Détection d'une amélioration relative de 50 % (2 % → 3 %) avec 95 % de confiance et 80 % de puissance.

p₁ = 0.02, p₂ = 0.03
n ≈ 3 682 par variante (7 364 au total) — Avec 500 visiteurs/jour : environ 15 jours

Comprendre les paramètres clés

Taux de conversion de référence

Votre taux de conversion actuel avant le test. Des taux de référence plus bas exigent plus d'échantillons parce que les conversions sont des événements plus rares. Une référence de 1 % nécessite environ 5 fois plus d'échantillons qu'une référence de 5 % pour le même MDE relatif.

Effet minimal détectable (MDE)

La plus petite amélioration relative que vous voulez détecter. Un MDE de 10 % sur une référence de 5 % signifie détecter une hausse à 5,5 %. Des MDE plus faibles exigent exponentiellement plus d'échantillons — diviser le MDE par deux multiplie approximativement par quatre la taille d'échantillon requise.

Niveau de confiance (1 - α)

La probabilité de ne pas commettre une erreur de type I (faux positif). À 95 % de confiance, il existe 5 % de chances de déclarer un gagnant alors qu'il n'y a en réalité aucune différence.

Puissance statistique (1 - β)

La probabilité de détecter un effet réel. À 80 % de puissance, il existe 20 % de chances de manquer une amélioration réelle (erreur de type II / faux négatif). Une puissance plus élevée exige plus d'échantillons.

Type d'erreurNomContrôlé parConséquence
Type I (α)Faux positifNiveau de confianceDéployer un changement qui ne fonctionne pas
Type II (β)Faux négatifPuissance statistiqueManquer une amélioration réelle

Comment réduire la taille d'échantillon requise

  1. Accepter un MDE plus grand — Testez uniquement les changements dont vous attendez un impact significatif. Si vous n'êtes prêt à déployer qu'une amélioration de 20 % ou plus, utilisez un MDE de 20 %.
  2. Abaisser votre niveau de confiance — Utilisez 90 % au lieu de 95 % pour les expériences non critiques. Cela réduit la taille d'échantillon d'environ 20 %.
  3. Accepter une puissance plus faible — Une puissance de 80 % est standard, mais 70 % est acceptable pour des tests de sélection. Cela réduit la taille d'échantillon d'environ 15 %.
  4. Concentrer le trafic — Lancez le test uniquement sur les pages ou segments ayant le trafic le plus élevé afin d'accélérer la collecte de données.
  5. Utiliser des métriques composites — Les métriques aux taux plus élevés (comme le taux de clics par rapport au taux d'achat) nécessitent moins d'échantillons.

Pièges courants dans la planification de la taille d'échantillon

  • Utiliser des MDE irréalistes — Une amélioration de 50 % semble excellente, mais elle est rarement atteignable. La plupart des améliorations réelles se situent entre 5 et 15 %. Planifiez en conséquence.
  • Oublier la durée du test — Même si votre trafic total est suffisant, vous devez faire durer le test au moins 1 à 2 semaines complètes pour capter les effets liés aux jours de la semaine.
  • Ne pas tenir compte des comparaisons multiples — Tester 5 variantes face à un contrôle nécessite une correction de Bonferroni ou un ajustement similaire.
  • Ignorer la saisonnalité — Un test lancé pendant un pic saisonnier peut ne pas se généraliser à d'autres périodes.
  • Consulter les résultats trop tôt — Vérifier la significativité avant d'atteindre la taille d'échantillon planifiée augmente fortement les taux de faux positifs.

Calculateurs associés