Analyse de fréquence : comment briser les chiffres de substitution avec les statistiques de lettres
Découvrez comment l'analyse de fréquence brise les chiffrements de substitution à l'aide des statistiques de lettres. Guide complet avec tableaux de fréquences en anglais, didacticiel de déchiffrement étape par étape, analyse bigramme et index de coïncidence.
Présentation
L’analyse fréquentielle est la technique la plus ancienne et la plus fondamentale de la cryptanalyse – la science qui consiste à déchiffrer les codes et les chiffrements sans en connaître la clé. Son principe sous-jacent est d’une simplicité trompeuse : chaque langue naturelle a une distribution caractéristique de lettres, et cette distribution survit au cryptage par chiffrement de substitution. En comptant la fréquence d'apparition de chaque lettre dans un texte chiffré et en comparant ces chiffres aux fréquences attendues de la langue cible, un cryptanalyste peut déduire la clé de substitution et récupérer le message d'origine.
Cette technique a été décrite pour la première fois vers 850 AD par le mathématicien arabe Al-Kindi dans son manuscrit Sur le déchiffrement des messages cryptographiques. Pendant près de mille ans, il est resté la principale méthode pour déchiffrer les chiffres – et encore aujourd’hui, c’est le premier outil enseigné dans tout cours d’introduction à la cryptographie.
Ce guide couvre toute la profondeur de l'analyse des fréquences : les fondements mathématiques, des tableaux de référence complets pour les fréquences des lettres anglaises, un didacticiel étape par étape pour déchiffrer un chiffre réel, des techniques avancées, notamment l'analyse des bigrammes et des trigrammes, l'indice de coïncidence et les limites de l'analyse des fréquences par rapport aux chiffrements modernes.
Essayez notre outil gratuit d'analyse de la fréquence des lettres pour analyser n'importe quel texte et comparer sa distribution de lettres avec les fréquences anglaises standard en temps réel.
Qu'est-ce que l'analyse de fréquence ?
L'analyse fréquentielle est l'étude de la fréquence à laquelle chaque lettre (ou symbole) apparaît dans un corps de texte. Dans le contexte de la cryptanalyse, il exploite une faiblesse fondamentale des chiffres de substitution monoalphabétiques : ces chiffrements remplacent chaque lettre du texte en clair par une seule lettre de texte chiffré fixe, ce qui signifie que le modèle de fréquence de la langue d'origine est parfaitement préservé dans le texte chiffré — juste mappé sur différentes lettres.
Par exemple, si la lettre E apparaît 12,7 % du temps dans le texte anglais et qu'un chiffre de substitution remplace E par la lettre Q, alors Q apparaîtra environ 12,7 % du temps dans le texte chiffré. La substitution modifie les étiquettes mais pas la distribution statistique sous-jacente.
Cela signifie que pour déchiffrer le chiffre, le cryptanalyste doit simplement :
- Comptez la fréquence de chaque lettre dans le texte chiffré
- Comparez ces fréquences à la distribution de fréquences connue de la langue cible
- Faites correspondre la lettre de texte chiffré la plus courante à la lettre de texte en clair la plus courante (E en anglais), la deuxième la plus courante à la seconde (T), et ainsi de suite.
- Affinez les suppositions initiales à l'aide de l'analyse des bigrammes, des modèles de mots courants et des indices contextuels
Al-Kindi et la naissance de la cryptanalyse
Abu Yusuf Yaqub ibn Ishaq al-Sabbah Al-Kindi (vers 801-873 AD), connu en Occident sous le nom d'Alkindus, était un philosophe, mathématicien et mathématicien arabe travaillant à la Maison de la Sagesse à Bagdad pendant l'âge d'or islamique. Son traité Un manuscrit sur le déchiffrement des messages cryptographiques est la première description connue de l'analyse fréquentielle.
Al-Kindi a écrit :
"Une façon de résoudre un message crypté, si nous connaissons sa langue, est de trouver un texte en clair différent de la même langue suffisamment long pour remplir une feuille environ, puis nous comptons les occurrences de chaque lettre. Nous appelons la lettre la plus fréquente la "première", la lettre la plus fréquente suivante la "deuxième", la lettre la plus fréquente suivante la "troisième", et ainsi de suite, jusqu'à ce que nous prenions en compte toutes les différentes lettres de l'échantillon de texte en clair. "
Ce passage décrit essentiellement la même technique que celle utilisée par les cryptanalystes modernes. Le travail d'Al-Kindi est resté largement inconnu en Europe jusqu'à la Renaissance, mais dans le monde arabophone, ses méthodes ont été appliquées pour déchiffrer les chiffres utilisés dans les communications diplomatiques et militaires pendant des siècles.
Distribution de fréquence des lettres anglaises
Le tableau suivant présente la distribution de fréquence standard pour les 26 lettres de l'alphabet anglais, basée sur l'analyse de millions de mots provenant de divers textes en langue anglaise, notamment des journaux, des romans, des articles universitaires et de la correspondance.
| Rang | Lettre | Fréquence (%) | Cumul (%) | Remarques |
|---|---|---|---|---|
| 1 | E | 12.702 | 12h70 | Le plus courant ; trouvé dans "the," "he," "she," "be" |
| 2 | T | 9.056 | 21h76 | Deuxième plus courant ; "the," "to," "it," "that" |
| 3 | Un | 8.167 | 29.93 | Troisième plus courant ; "and," "a," "are," "as" |
| 4 | Ô | 7.507 | 37.43 | "of," "or," "on," "to," "so" |
| 5 | Je | 6.966 | 44h40 | "in," "is," "it," "I," "if" |
| 6 | N | 6.749 | 51.15 | "and," "not," "no," "in," "on" |
| 7 | S | 6.327 | 57.48 | "so," "she," "is," pluriels |
| 8 | H | 6.094 | 63,57 | "the," "he," "has," "had," "his" |
| 9 | R | 5.987 | 69,56 | "are," "or," "her," "for" |
| 10 | D | 4.253 | 73,81 | "and," "did," "do," "had" |
| 11 | L | 4.025 | 77,84 | "all," "like," "last," "will" |
| 12 | U | 2.758 | 80,60 | "up," "us," "but," "use" |
| 13 | C | 2.782 | 83.38 | "can," "come," "could" |
| 14 | M | 2.406 | 85,79 | "me," "my," "may," "more" |
| 15 | W | 2.360 | 88.15 | "was," "we," "with," "will" |
| 16 | F | 2.228 | 90.38 | "for," "from," "first" |
| 17 | Oui | 1.974 | 92,35 | "you," "yes," "year" |
| 18 | G | 2.015 | 94.37 | "go," "get," "good" |
| 19 | P | 1.929 | 96h30 | "put," "part," "people" |
| 20 | B | 1,492 | 97,79 | "but," "be," "by," "been" |
| 21 | V | 0,978 | 98,77 | "very," "have," "over" |
| 22 | K | 0,772 | 99,54 | "know," "keep," "king" |
| 23 | X | 0,150 | 99,69 | "next," "six," "box" |
| 24 | J | 0,153 | 99,84 | "just," "job," "join" |
| 25 | Q | 0,095 | 99,94 | "queen," "quite," "question" |
| 26 | Z | 0,074 | 100,00 | "zero," "zone," "size" |
Le mnémonique ETAOIN SHRDLU capture les 12 premières lettres par fréquence. Cette séquence était si bien connue parmi les compositeurs Linotype (qui avaient leurs claviers classés par fréquence de lettres) que l'expression est entrée dans la culture populaire comme synonyme de texte tronqué.
Variation de fréquence selon les langues
Différentes langues ont des profils de fréquence radicalement différents. Ceci est utile pour identifier la langue d'un texte crypté :
| Langue | Lettres les plus courantes (décroissantes) | Valeur IC |
|---|---|---|
| Anglais | E, T, A, O, I, N, S, H, R | 0,0667 |
| français | E, A, S, I, N, T, R, L, U | 0,0778 |
| Allemand | E, N, I, S, R, A, T, D, H | 0,0762 |
| Espagnol | E, A, O, S, R, N, I, D, L | 0,0775 |
| Italien | E, A, I, O, N, L, R, T, S | 0,0738 |
| Portugais | A, E, O, S, R, I, N, D, M | 0,0745 |
Notez que E est la lettre la plus courante dans la plupart des langues européennes, mais le reste de l’ordre des fréquences varie considérablement. Ces différences signifient que l'analyse de fréquence nécessite une connaissance (ou une hypothèse sur) du langage en clair.
Tutoriel de déchiffrement étape par étape
Examinons un exemple complet de cassage d'un chiffre de substitution à l'aide de l'analyse de fréquence. Voici le texte chiffré :
UIF RVJDL CSPXO GPY KVNQT PWFS UIF MBAZ EPH.
UIF TFDPOET BGUFS UIF GJSTU BSF BMXBZT IBSEFS.
Étape 1 : Compter les fréquences des lettres
Tout d’abord, nous comptons chaque caractère alphabétique, en ignorant les espaces et la ponctuation :
| Lettre | Comte | Fréquence (%) | Lettre | Comte | Fréquence (%) |
|---|---|---|---|---|---|
| F | 8 | 10.67 | B | 4 | 5.33 |
| U | 5 | 6,67 | S | 4 | 5.33 |
| Je | 4 | 5.33 | T | 4 | 5.33 |
| P | 3 | 16h00 | G | 3 | 16h00 |
| E | 2 | 2,67 | J | 2 | 2,67 |
| Q | 2 | 2,67 | W | 2 | 2,67 |
| D | 2 | 2,67 | X | 1 | 1.33 |
| H | 1 | 1.33 | K | 1 | 1.33 |
| L | 1 | 1.33 | M | 1 | 1.33 |
| N | 1 | 1.33 | Ô | 2 | 2,67 |
| Un | 2 | 2,67 | C | 1 | 1.33 |
| Z | 1 | 1.33 | R | 1 | 1.33 |
| V | 1 | 1.33 | Oui | 1 | 1.33 |
Nombre total de caractères alphabétiques : 75
Étape 2 : Comparez avec les fréquences anglaises
La lettre la plus fréquente dans notre texte chiffré est F(10,67 %). En anglais, la lettre la plus fréquente est E (12,7%). Notre hypothèse de départ :F = E.
Le deuxième plus fréquent est U(6,67 %). En anglais, T est deuxième (9,1%). Hypothèse :U = T.
Étape 3 : Recherchez des mots courants
Le mot de trois lettres « UIF » apparaît deux fois. Si U=T et F=E, alors UIF = T_E, ce qui suggère fortement UIF = THE, ce qui signifie I = H.
Nous avons maintenant trois substitutions confirmées : F=E, U=T, I=H.
Étape 4 : Testez l'hypothèse du chiffre de César
En regardant nos substitutions :
- F (position 6) -> E (position 5) : décalage de +1
- U (position 21) -> T (position 20) : décalage de +1
- I (position 9) -> H (position 8) : décalage de +1
Les trois substitutions montrent le même décalage de +1. C'est un indicateur fort que nous avons affaire à un chiffre César avec décalage 1 — chaque lettre a été décalée d'une position.
Étape 5 : Appliquer la clé et décoder
En décalant chaque lettre d'une position, le texte brut complet est :
THE QUICK BROWN FOX JUMPS OVER THE LAZY DOG.
THE SECONDS AFTER THE FIRST ARE ALWAYS HARDER.
Cet exemple est volontairement simple pour illustrer clairement la méthode. En pratique, les chiffrements de substitution utilisent des mappages de clés plus complexes, mais la même approche d'analyse de fréquence s'applique : elle nécessite simplement plus d'itérations et de correspondance de modèles.
Et s'il ne s'agit pas d'un chiffre de César ?
Si les décalages ne sont pas uniformes, vous avez affaire à un chiffre de substitution monoalphabétique général. Dans ce cas :
- Mappez les 5 à 6 premières lettres de texte chiffré sur ETAOIN par fréquence.
- Recherchez des modèles répétés de deux et trois lettres (probablement « le », « et », « pour », « est », « de »).
- Recherchez les mots d'une seule lettre (probablement « a » ou « I »)
- Utilisez le décryptage partiel pour identifier davantage de mappages de lettres
- Répétez jusqu'à ce que le texte clair devienne clair
Pour les textes de plus de 200 caractères, ce processus converge généralement vers la bonne solution en 15 à 30 minutes de travail systématique.
Bigrammes, trigrammes et analyse de modèles
L'analyse de fréquence d'une seule lettre fournit la première approximation, mais l'analyse de paires (bigrammes) et de triples (trigrammes) de lettres consécutives améliore considérablement la précision et la rapidité.
Top 20 des bigrammes anglais
| Rang | Bigramme | Fréquence (%) | Rang | Bigramme | Fréquence (%) |
|---|---|---|---|---|---|
| 1 | TH | 3.56 | 11 | ES | 1.34 |
| 2 | HE | 3.07 | 12 | ED | 1.17 |
| 3 | IN | 2.43 | 13 | OR | 1.15 |
| 4 | ER | 2.05 | 14 | TI | 1.14 |
| 5 | AN | 1,99 | 15 | HI | 1.09 |
| 6 | RE | 1,85 | 16 | AS | 1.07 |
| 7 | ON | 1,76 | 17 | TO | 1.05 |
| 8 | AT | 1,49 | 18 | HA | 1.02 |
| 9 | EN | 1,45 | 19 | NG | 0,95 |
| 10 | ND | 1,35 | 20 | SE | 0,93 |
Top 15 des trigrammes anglais
| Rang | Trigramme | Fréquence (%) | Rang | Trigramme | Fréquence (%) |
|---|---|---|---|---|---|
| 1 | THE | 3.51 | 9 | ION | 0,70 |
| 2 | AND | 1,59 | 10 | TER | 0,68 |
| 3 | ING | 1,47 | 11 | WAS | 0,61 |
| 4 | HER | 0,90 | 12 | THA | 0,58 |
| 5 | THA | 0,83 | 13 | HAT | 0,55 |
| 6 | ERE | 0,78 | 14 | ATE | 0,52 |
| 7 | FOR | 0,76 | 15 | ALL | 0,50 |
| 8 | ENT | 0,73 |
Comment utiliser l'analyse N-gram
La puissance de l’analyse n-gramme réside dans sa capacité à contraindre l’espace des solutions :
- Trouvez le bigramme le plus courant dans le texte chiffré. Il représente très probablement TH ou HE.
- Si vous avez identifié T et H, recherchez le trigramme THE. Il s'agit du mot le plus courant en anglais et produit le trigramme THE à 3,51 %.
- Vérifiez le motif bigramme AB BA. En anglais, les bigrammes réciproques les plus courants sont ER/RE, HE/EH, ON/NO et AN/NA. La recherche de ces modèles confirme l'attribution des lettres.
- Analysez les terminaisons des mots. Les suffixes anglais courants incluent -ING, -TION, -ED, -ER, -EST, -LY et -MENT. Dans un chiffrement de substitution, ces modèles restent sous forme de séquences répétées reconnaissables aux limites des mots.
- Utilisez des lettres doubles. Les lettres doubles les plus courantes en anglais sont LL, SS, EE, OO, TT, FF, RR, NN, PP et CC. Si vous voyez des lettres doublées dans le texte chiffré, vérifiez d'abord ces candidats.
Indice de coïncidence expliqué
L'indice de coïncidence (IC), introduit par William Friedman en 1922, est une mesure statistique qui permet de déterminer le type de chiffre utilisé pour chiffrer un message. Il calcule la probabilité que deux lettres sélectionnées au hasard dans un texte soient identiques.
La formule
Pour un texte de longueur N avec un nombre de lettres n1, n2, ..., n26 (pour chaque lettre de A à Z), le IC est :
IC = Somme de [ni * (ni - 1)] / [N * (N - 1)]
où la somme est reprise sur les 26 lettres.
Interprétation des valeurs IC
| Valeur IC | Interprétation |
|---|---|
| ~0,0667 | Texte anglais typique ou chiffre monoalphabétique |
| ~0,0500 - 0,0600 | Chiffre polyalphabétique avec clé courte (2-5 caractères) |
| ~0,0385 | Texte aléatoire ou touche polyalphabétique très longue |
Le IC du texte anglais standard (~0,0667) est nettement supérieur à celui du texte aléatoire (~0,0385, ce qui équivaut à 1/26) car l'anglais a une répartition inégale des lettres. Certaines lettres (E, T, A) apparaissent beaucoup plus souvent que d'autres (Z, Q, X), ce qui rend plus probable la correspondance de deux lettres choisies au hasard.
Utilisation de IC en cryptanalyse
Le IC est particulièrement utile pour distinguer les chiffres monoalphabétiques et polyalphabétiques :
- Calculez le IC du texte chiffré.
- Si IC est proche de 0,0667 : Le chiffre est probablement monoalphabétique (César, substitution, Atbash, affine). La distribution des fréquences a été mélangée mais pas aplatie. L'analyse de fréquence standard fonctionnera.
- Si IC est compris entre 0,04 et 0,06 : Le chiffre est probablement polyalphabétique (Vigenère, Beaufort, Gronsfeld). La distribution des fréquences a été partiellement aplatie. Vous devez d’abord déterminer la longueur de la clé, puis appliquer une analyse de fréquence à chaque sous-chiffre.
- Si IC est proche de 0,0385 : Le chiffre utilise une clé très longue (se rapprochant d'un pavé à usage unique) ou est un chiffre moderne. L'analyse de fréquence ne sera pas directement utile.
Détermination de la longueur de la clé avec IC
Pour un chiffre de Vigenère suspecté, vous pouvez estimer la longueur de la clé comme suit :
- Essayez des longueurs de clé de 2, 3, 4, 5, etc.
- Pour chaque longueur de clé candidate k, divisez le texte chiffré en k groupes (chaque k-ième lettre appartient au même groupe).
- Calculez le IC pour chaque groupe.
- Lorsque le IC de chaque groupe est proche de 0,0667, vous avez trouvé la longueur de clé correcte, car chaque groupe a été chiffré avec le même décalage César.
Cette méthode, combinée à l'examen Kasiski (recherche de séquences répétées dans le texte chiffré pour déduire la longueur de la clé), constitue l'approche standard pour déchiffrer les chiffres de Vigenere.
Lorsque l'analyse de fréquence échoue
L’analyse fréquentielle est un outil puissant, mais il présente des limites évidentes. Comprendre quand et pourquoi cela échoue est aussi important que savoir comment l’appliquer.
Chiffres polyalphabétiques
Le chiffre de Vigenère, inventé au XVIe siècle, a été spécialement conçu pour déjouer l'analyse des fréquences. Il utilise plusieurs alphabets de chiffrement César en rotation, contrôlés par un mot-clé. Chaque lettre du texte en clair est décalée d'un montant différent en fonction de sa position dans le cycle du mot-clé.
L'effet sur l'analyse de fréquence est spectaculaire : au lieu que chaque texte en clair E soit mappé sur une seule lettre de texte chiffré, il correspond à plusieurs lettres de texte chiffré différentes (une par caractère de mot-clé). Cela répartit le pic de fréquence de E sur plusieurs lettres de texte chiffré, aplatissant la distribution globale et la faisant ressembler à un texte aléatoire.
Cependant, les chiffres polyalphabétiques ne sont pas à l’abri des attaques statistiques. Une fois la longueur de la clé déterminée (à l'aide de l'examen IC ou Kasiski), le texte chiffré peut être divisé en groupes, chacun étant chiffré avec un simple décalage César. L’analyse fréquentielle fonctionne alors parfaitement sur chaque groupe individuellement.
Substitution homophonique
Un chiffre de substitution homophonique attribue plusieurs symboles de texte chiffré à chaque lettre du texte en clair, les lettres communes recevant plus d'alternatives. Par exemple :
- E (12,7 %) peut correspondre à l'un des symboles : 14, 27, 38, 51, 63, 79, 82, 91, 03, 45, 56, 68, 74.
- Z (0,07 %) correspond à seulement : 99
Si le nombre d'alternatives pour chaque lettre est proportionnel à sa fréquence, le texte chiffré résultant a une distribution de fréquence presque plate : chacun des ~100 symboles apparaît environ 1 % du temps. Un simple comptage de fréquence ne révèle rien.
Casser les chiffres homophoniques nécessite des techniques plus sophistiquées : analyse de fréquence des bigrammes (la substitution ne masque pas aussi efficacement les modèles de bigrammes), algorithmes d'escalade et attaques en texte clair connu.
Textes très courts
L'analyse des fréquences s'appuie sur la loi des grands nombres : avec suffisamment de texte, les fréquences observées convergent vers leurs valeurs attendues. Avec des textes courts (moins de 100 caractères), le bruit statistique est trop important pour permettre des conclusions fiables.
Considérez : une phrase anglaise parfaitement normale comme "Fuzzy ducks quack by jinxingvois" a une distribution de lettres extrêmement non standard simplement parce qu'elle est courte et contient des lettres inhabituelles. L’analyse de cette phrase suggérerait à tort qu’elle a été cryptée.
En règle générale :
- < 50 caractères : L'analyse de fréquence est essentiellement inutile
- 50-100 caractères : ne fournit que des hypothèses faibles
- 100-200 caractères : Modérément fiable pour les chiffres monoalphabétiques
- 200+ caractères : Très fiable pour les chiffres monoalphabétiques
- Plus de 500 caractères : Peut distinguer les types de chiffrement à l'aide de IC
Bloc-notes unique
Le pad à usage unique (OTP) est le seul chiffre théoriquement incassable. Il utilise une clé aléatoire aussi longue que le message et n’est jamais réutilisée. Par rapport à un OTP correctement implémenté, l'analyse de fréquence (et toute autre technique cryptanalytique) est manifestement inutile : le texte chiffré ne contient aucune information sur le texte en clair, car chaque texte en clair possible est également probable.
Cryptage moderne
Les algorithmes cryptographiques modernes (AES, ChaCha20, RSA) produisent un texte chiffré qui ne se distingue pas des données aléatoires sur le plan informatique. Chaque valeur d'octet possible (0-255) apparaît avec une probabilité égale et aucun modèle statistique d'aucune sorte n'est détectable. L’analyse de fréquence est totalement inapplicable au chiffrement moderne : il s’agit strictement d’un outil pour les chiffrements classiques.
Applications modernes de l'analyse de fréquence
Alors que l’analyse fréquentielle était à l’origine un outil de décryptage, le principe sous-jacent – selon lequel le texte présente des modèles statistiques caractéristiques – a trouvé des applications bien au-delà de la cryptographie.
Attribution de la paternité
L'analyse statistique des fréquences des lettres, des mots et des n-grammes peut aider à identifier l'auteur de textes anonymes ou contestés. Différents auteurs ont des « empreintes » stylistiques mesurables différentes dans leur utilisation des mots fonctionnels (le, a, de et), la longueur des phrases et les modèles de vocabulaire. Cette technique a été appliquée à des œuvres shakespeariennes contestées, à des tracts politiques anonymes et à l'examen de documents médico-légaux.
Identification de la langue
L'analyse fréquentielle peut identifier automatiquement la langue d'un texte en comparant ses fréquences de lettres et de bigrammes avec des profils connus pour différentes langues. C'est la base des fonctionnalités de détection de langue dans les moteurs de recherche, les outils de traduction et les systèmes de traitement de texte.
Détection du spam
L'analyse statistique du texte, y compris les modèles de fréquence des caractères et des mots, est l'un des composants des systèmes modernes de détection du spam. Les courriers indésirables ont souvent des profils de fréquence sensiblement différents de ceux de la correspondance légitime : par exemple, des fréquences plus élevées de points d'exclamation, de lettres majuscules et de mots comme « gratuit », « gagnant » et « urgent ».
Compression des données
L’idée fondamentale derrière l’analyse de fréquence – à savoir que certains symboles sont plus courants que d’autres – est le même principe qui régit les algorithmes de compression de données. Le codage Huffmanattribue des codes binaires plus courts aux symboles plus fréquents, tout comme le code Morse attribue des motifs de points-tirets plus courts aux lettres les plus courantes. Lecodage arithmétiqueet lecodage entropique étendent ce principe pour atteindre des taux de compression presque optimaux.
Linguistique médico-légale
Dans les contextes juridiques, les techniques d'analyse de fréquence aident à déterminer si les aveux ont été véritablement rédigés par l'accusé, si une lettre de menace correspond au style d'écriture d'un suspect ou si un document a été falsifié. Ces analyses vont bien au-delà du simple comptage de lettres pour inclure des profils de fréquence des mots, des modèles syntaxiques et des mesures statistiques de la complexité du texte.
Questions fréquemment posées
L'analyse de fréquence peut-elle briser n'importe quel chiffre ?
L'analyse de fréquence est efficace contre les chiffrements de substitution monoalphabétiques (César, mot-clé, Atbash, affine) où chaque lettre de texte en clair correspond à exactement une lettre de texte chiffré. Il est moins efficace contre les chiffres polyalphabétiques (Vigenere, Beaufort), nécessite une modification pour la substitution homophonique et est totalement inutile contre les algorithmes de chiffrement modernes (AES, RSA) qui produisent une sortie statistiquement aléatoire.
Combien de temps faut-il pour déchiffrer un chiffre avec l'analyse de fréquence ?
Pour un chiffrement de substitution monoalphabétique comportant plus de 200 caractères de texte chiffré, un cryptanalyste expérimenté peut généralement récupérer le texte brut en 15 à 30 minutes en utilisant une combinaison d'analyse de fréquence d'une seule lettre, de modèles de bigrammes/trigrammes et de reconnaissance de mots courants. Pour les textes plus courts ou les chiffres plus complexes, le processus peut prendre beaucoup plus de temps et nécessiter une analyse informatisée.
Quels outils les cryptanalystes professionnels utilisent-ils pour l'analyse de fréquence ?
Les cryptanalystes modernes utilisent des outils logiciels qui automatisent le comptage des lettres, l'analyse des bigrammes/trigrammes, le calcul du IC et les tests de substitution. Les outils vont des simples scripts en Python (utilisant la classe collections.Counter) aux programmes spécialisés tels que CrypTool, Cipher Tools et un logiciel de cryptanalyse personnalisé. Notre outil d'analyse de la fréquence des lettres fournit des graphiques interactifs et des comparaisons statistiques adaptés à l'analyse des chiffrements classiques.
L'analyse fréquentielle est-elle la même chose que l'analyse statistique ?
L'analyse fréquentielle est une application spécifique de l'analyse statistique au texte et à la cryptographie. L'analyse statistique est la discipline plus large de la collecte, de l'organisation et de l'interprétation des données. L'analyse de fréquence applique des techniques de comptage statistique et de comparaison spécifiquement aux lettres (ou autres éléments) d'un texte, dans le but d'identifier des modèles qui révèlent des informations sur l'origine, la langue ou la méthode de cryptage du texte.
L'analyse de fréquence peut-elle déterminer dans quelle langue un chiffre a été écrit ?
Oui. Si vous parvenez à déchiffrer suffisamment de texte chiffré pour voir la distribution de fréquence du texte en clair, le modèle indiquera la langue. Même sans décryptage, la valeur IC fournit des indices : différentes langues ont des valeurs IC différentes (anglais ~0,0667, français ~0,0778, allemand ~0,0762). Si vous connaissez le type de chiffrement mais pas la langue, essayer différents profils de fréquence de langue révélera lequel produit un texte clair cohérent.
Quelle est la différence entre l'analyse fréquentielle et la force brute ?
L'analyse de fréquence est une attaque intelligente basée sur des modèles qui utilise les propriétés statistiques du langage pour en déduire la clé. La force brute essaie toutes les clés possibles jusqu'à ce que l'une d'entre elles produise un texte clair lisible. Pour un chiffrement général de substitution de 26 lettres, la force brute devrait en essayer jusqu'à 26 ! (environ 4 x 10 ^ 26) clés possibles - irréalisables sur le plan informatique. L’analyse des fréquences, en revanche, ne nécessite généralement l’examen que de quelques dizaines d’hypothèses, ce qui la rend pratique même à la main.
Comment l'analyse des fréquences a-t-elle changé l'histoire de la guerre ?
L'analyse des fréquences a influencé de nombreux conflits militaires. Les cryptanalystes arabes l'ont utilisé contre les codes européens pendant les croisades. Mary, reine d'Écosse, a été reconnue coupable et exécutée en 1587, en partie parce que sa correspondance cryptée avec Anthony Babington a été rompue grâce à l'analyse des fréquences. Au cours de la Première Guerre mondiale, la salle 40 du renseignement naval britannique a utilisé des techniques d'analyse de fréquence pour briser les codes diplomatiques allemands, notamment le télégramme Zimmermann qui a contribué à faire entrer les États-Unis dans la guerre.
Que se passe-t-il après l'analyse de fréquence dans un cours de cryptanalyse ?
Après avoir maîtrisé l'analyse de fréquence, les étudiants étudient généralement l'examen Kasiski et l'indice de coïncidence pour casser les chiffrements polyalphabétiques, suivis de l'analyse du chiffrement par transposition, des attaques en texte clair connu, des attaques en texte clair choisi et, éventuellement, des fondements mathématiques de la cryptographie moderne, notamment l'arithmétique modulaire, la théorie des nombres premiers et la complexité informatique. Notre site propose des outils pour bon nombre de ces types de chiffrement sur caesarcipher.org/ciphers.
Conclusion
L’analyse fréquentielle constitue l’une des intersections les plus élégantes de la linguistique et des mathématiques. Depuis le manuscrit pionnier d'Al-Kindi à Bagdad au IXe siècle jusqu'aux outils de cryptanalyse informatisés d'aujourd'hui, l'idée centrale est restée inchangée : la langue n'est pas aléatoire, et les régularités statistiques dans la façon dont nous utilisons les lettres fournissent une clé puissante pour déchiffrer les chiffres qui substituent une lettre à une autre.
Comprendre l’analyse de fréquence n’est pas simplement un exercice académique. Il fournit la base conceptuelle permettant de comprendre pourquoi les chiffrements modernes fonctionnent comme ils le font, en particulier pourquoi ils doivent produire des résultats statistiquement impossibles à distinguer des données aléatoires. Chaque progrès de la cryptographie depuis la Renaissance peut être compris comme une réponse à l’analyse fréquentielle : les chiffrements polyalphabétiques ont tenté d’aplatir la distribution des fréquences, les chiffrements homophoniques ont tenté d’égaliser l’utilisation des symboles et les algorithmes modernes garantissent qu’aucun modèle statistique, quel qu’il soit, ne survit au chiffrement.
Prêt à essayer vous-même l’analyse de fréquence ? Utilisez notre outil gratuit d'analyse de la fréquence des lettres pour coller n'importe quel texte (texte brut ou texte chiffré) et voyez instantanément sa distribution de lettres par rapport aux fréquences anglaises standard. Les graphiques interactifs et les statistiques détaillées permettent d'identifier facilement des modèles et de tester des hypothèses. Pour vous entraîner, essayez de chiffrer un message avec nos outils César Cipher ou Keyword Cipher, puis utilisez l'analyse de fréquence pour briser votre propre cryptage.