Comment utiliser l'analyse de fréquence
L'analyse de fréquence est le processus qui consiste à compter la fréquence à laquelle chaque lettre apparaît dans un texte et à utiliser ces chiffres pour tirer des conclusions sur l'origine ou le chiffrement du texte. Voici un guide étape par étape pour utiliser l'outil de cette page:
-
Passer ou taper votre texte dans le champ d'entrée. L'outil accepte tout texte — texte simple, chiffre ou contenu mixte. Pour obtenir de meilleurs résultats, utilisez au moins 100 caractères de texte afin que les modèles de fréquence soient statistiquement significatifs.
-
Revoir le diagramme de fréquence. Le diagramme à barres interactif affiche la fréquence de chaque lettre en pourcentage du total des caractères alphabétiques. Les lettres sont classées alphabétiquement par défaut, mais vous pouvez trier par fréquence pour identifier rapidement les lettres les plus et les moins courantes.
-
Comparer avec les fréquences anglaises. Le graphique recouvre les fréquences de lettres anglaises standard à côté de la distribution de votre texte. Cherchez les pics caractéristiques à E, T, A, O et moi. Si les pics sont décalés uniformément, vous pouvez regarder un chiffre César. Si la distribution semble aplatie, il est probable qu'un chiffre polyalphabétique comme Vigenere soit utilisé.
-
Vérifiez la statistique du chi carré. Ce numéro unique résume à quel point votre texte correspond aux fréquences anglaises attendues. Une valeur chi carré inférieure à 30 suggère un anglais normal; des valeurs supérieures à 50 suggèrent fortement un chiffrement ou une langue non anglaise.
-
** Écarts d'examine par lettre**. Le tableau statistique détaillé montre la fréquence observée, la fréquence prévue et l'écart entre les deux lettres. Les écarts positifs importants indiquent des lettres qui apparaissent plus souvent que prévu en anglais; les écarts négatifs importants indiquent des lettres qui apparaissent moins souvent.
-
Former des hypothèses et les tester. Si vous soupçonnez un chiffre de substitution monoalphabétique, cartographiez la lettre de chiffrement la plus fréquente à E, la seconde à T, etc. Regardez ces devinettes contre les bigrams et les trigrammes communs. Ajustez vos substitutions jusqu'à ce que le texte en clair cohérent émerge.
Tableau de référence de la fréquence des lettres anglaises
Le tableau suivant montre la distribution de fréquence standard pour chaque lettre en texte anglais, basée sur l'analyse de corps de texte volumineux. Ces valeurs représentent des moyennes et varieront selon les genres, les auteurs et la longueur du texte.
| Letter | Fréquence (%) | Exemple de mots | Letter | Fréquence (%) | Exemple de mots |
|---|---|---|---|---|---|
| A | 8.167 | et sont, | N | 6.749 | Pas, nouveau, non |
| B | 1.492 | Mais, soyez, par | O | 7.507 | ou, le |
| C | 2.782 | peut, viens | P | 1.929 | mise, partie |
| D | 4.253 | Oui, le jour. | Q | 0.095 | reine, tout à fait |
| E | 12.702 | le, il, soit | R | 5.987 | sont, elle, ou |
| F | 2.228 | pour, | S | 6.327 | Alors, elle est |
| G | 2.015 | Allez, allez, allez | T | 9.056 | pour |
| H | 6.094 | il, a, avait | U | 2.758 | En haut, nous, utilisez |
| I | 6.966 | Dans, est, il | V | 0.978 | très, ont |
| J | 0.153 | juste, travail | W | 2.360 | était, nous, avec |
| K | 0.772 | C'est bon. | X | 0.150 | Suivant, six |
| L | 4.025 | genre, dernier | Y | 1.974 | toi, année |
| M | 2.406 | mon, moi, peut-être | Z | 0.074 | 0, zone |
La mnémonique ETAOIN SHRDLU capture les douze lettres les plus fréquentes en ordre décroissant: E, T, A, O, I, N, S, H, R, D, L, U. Cette séquence était si bien connue des typographes qu'elle devint une référence culturelle à part entière.
Briser un chiffre: Exemple travaillé
Considérez le chiffre suivant, qui a été chiffré à l'aide d'un chiffre de substitution simple:
GSZIV GSV OVGGVI UIVJFVMXB WRHGIRYF GRLM LU GSRH GVCG DRGS HGZMWZIW VMTORHSFIVJFVMXRVH GL XIZXP GSV XRKSVI
**Étape 1: Compter les fréquences des lettres. **
En analysant ce texte, les lettres les plus fréquentes sont:
| Rank | Letter | Count | Frequency |
|---|---|---|---|
| 1 | G | 14 | 13.2% |
| 2 | V | 12 | 11.3% |
| 3 | R | 9 | 8.5% |
| 4 | H | 8 | 7.5% |
| 5 | I | 7 | 6.6% |
**Étape 2: Comparer avec les fréquences anglaises. **
En anglais standard, les cinq premières lettres sont E (12,7 %), T (9,1 %), A (8,2 %), O (7,5 %), I (7,0 %). Comparaison:
- G (13,2 %) se compare probablement à T (9,1 %) ou E (12,7 %)
- V (11,3 %) des cartes à E (12,7 %) ou T (9,1 %)
**Étape 3: Recherchez des modèles communs. **
Le mot à trois lettres "GSV" apparaît plusieurs fois. Le mot le plus courant en anglais est "THE". Si GSV = THE, alors G=T, S=H, V=E.
**Étape 4: Appliquer l'hypothèse et étendre. **
Avec G=T, S=H, V=E, cochez "GSZIV" — par substitution de "THA_E" qui suggère fortement "SHARE" (Z=R, I=R... attendez, je suis déjà différent). En fait, Z=A et I=R donnent "THARE" — près de "SHARE". Vérifier plus loin: c'est en fait un chiffre Atbash où chaque lettre est cartographiée à son inverse (A<->Z, B<->Y, etc.). Les cartes de la lettre G (position 7) à T (position 20), confirmant 7+20=27, qui est le motif Atbash (position + position inverse = 27).
**Étape 5: Décoder le message complet. **
L'application de la substitution Atbash décode l'ensemble du message vers: "SHARE THE LETTER FREQUENCY DISTRIBUTION OF THIS TEXT WITH STANDARD ENGLISH FREQUENCIES TO CRACK THE CIPHER"
Cet exemple montre comment l'analyse de fréquence, combinée à la reconnaissance des motifs et à la connaissance des mots communs, peut systématiquement briser un chiffre de substitution.
Analyse N-gram: Bigrams et Trigrams
L'analyse de fréquence par lettre unique est puissante, mais l'analyse des paires (bigrammes) et des triples (trigrammes) de lettres consécutives révèle encore plus sur la structure d'un texte. L'analyse N-gram exploite le fait que l'anglais — et chaque langue naturelle — a de fortes préférences statistiques pour certaines combinaisons de lettres.
Top 10 des Bigrams anglais
| Rank | Bigram | Fréquence (%) | Notes |
|---|---|---|---|
| 1 | TH | 3.56 | Le bigram le plus commun; commence "le", "ça", "ça", "eux" |
| 2 | HE | 3.07 | Trouvé dans "le", "il", "elle", "ici", "eux" |
| 3 | IN | 2.43 | Préposition commune et fin du mot ("-ing", "-tion") |
| 4 | ER | 2.05 | Le mot commun se termine ("-er", "-ler", "-ber") et dans "elle", "chaque" |
| 5 | AN | 1.99 | Article "an" et dans "et", "tout", "peut", "homme" |
| 6 | RE | 1.85 | Préfixe "re-" et dans "sont", "étaient", "ici" |
| 7 | ON | 1.76 | Préposition et dans "un", "seulement", "sur" |
| 8 | AT | 1.49 | Préposition et dans "ça", "quoi", "chat" |
| 9 | EN | 1.45 | Fin commune ("-en", "-ment") et dans "alors", "quand" |
| 10 | ND | 1.35 | Fin de "et", "fin", "fin", "fin", "genre" |
Top 10 des trigrammes anglais
| Rank | Trigram | Fréquence (%) | Notes |
|---|---|---|---|
| 1 | THE | 3.51 | Le mot anglais le plus courant |
| 2 | AND | 1.59 | La conjonction la plus courante |
| 3 | ING | 1.47 | Nombre de participants actuels |
| 4 | HER | 0.90 | Pronom et dans "il", "où", "autre" |
| 5 | THA | 0.83 | Début de "ça", "que" |
| 6 | ERE | 0.78 | Dans "là", "où", "ici" |
| 7 | FOR | 0.76 | Préposition commune |
| 8 | ENT | 0.73 | Suffixe dans "went", "sent", "ment" |
| 9 | ION | 0.70 | Le suffixe commun "-tion", "-sion" |
| 10 | TER | 0.68 | Dans "après", "eau", "lettre" |
Utilisation de N-grammes dans la Cryptanalyse
Lorsque l'analyse de fréquence à une lettre produit de multiples cartes plausibles, l'analyse de bigram et de trigramme aide à réduire la substitution correcte:
- Identifiez les bigrams répétés dans le code. Le bigram le plus commun correspond probablement à TH.
- Choisissez des modèles trigrammes. Si une séquence de trois lettres en particulier domine, elle représente probablement THE.
- Vérifier les limites des mots. Les mots à deux lettres sont extrêmement limités en anglais (communes: OF, TO, IN, IS, IT, AS, AT, WE, HE, BY, OR, ON, DO, IF, ME, MY, UP, AN, GO, NO, US, AM, SO). Si vous pouvez identifier les limites des mots dans le code, les tester contre des mots connus à deux lettres limite rapidement l'espace de la solution.
- Combiner avec les données de fréquence des lettres. Une fois que vous avez des cartes de haute confiance à partir de l'analyse n-gram, utilisez-les pour ancrer vos attributions de fréquence à une lettre.
Quand l'analyse de fréquence fait défaut
L'analyse de la fréquence n'est pas un outil de rupture de chiffre universel. Plusieurs types de chiffrement résistent ou l'emportent entièrement:
Polyalphabétique Chiffres
Les chiffres comme le chiffre Vigenere utilisent des alphabets de substitution multiples, en les traversant avec chaque lettre. Cela distribue chaque lettre en texte en clair sur plusieurs lettres de chiffrement différentes, aplatissant la distribution de fréquence et la rendant semblable à du texte aléatoire. Il faut d'abord déterminer la longueur de la clé (à l'aide de l'examen Kasiski ou de l'indice ** de coincidence**), puis appliquer l'analyse de fréquence séparément à chaque sous-cipher.
Substitution homophonique
Un chiffrement homophonique de substitution cartographie chaque lettre en texte en clair à plusieurs symboles de chiffrement possibles, avec des lettres plus fréquentes ayant plus d'alternatives. Par exemple, E pourrait mapper vers l'un des cinq symboles différents, tandis que Z maps vers un seul. Ceci égalise la distribution des fréquences de chiffrement, en vainquant les attaques simples basées sur le comptage. La rupture des chiffres homophoniques nécessite des techniques plus sophistiquées, y compris l'analyse des fréquences de bigram et les algorithmes d'escalade.
Textes courts
Avec moins de 100 caractères, la variation statistique naturelle de l'utilisation des lettres peut être plus grande que le signal que vous essayez de détecter. Un court texte pourrait ne pas contenir de lettre E du tout, même si E est la lettre la plus courante en anglais. Dans ces cas, l'analyse de fréquence ne fournit que de faibles données probantes et doit être complétée par d'autres techniques telles que les attaques en texte en clair ou les suppositions en contexte.
Chiffres Null et Steganographie
Certaines méthodes de chiffrement cachent le message dans un texte apparemment innocent, rendant l'analyse de fréquence du texte porteur inutile parce que le texte porteur a des distributions de fréquence normales. La détection de ces phénomènes nécessite des approches analytiques différentes.
Chiffrement moderne
Les algorithmes cryptographiques modernes (AES, RSA, ChaCha20) produisent un chiffrement impossible à distinguer des données aléatoires. Chaque valeur d'octet apparaît avec une probabilité égale, et aucune quantité d'analyse de fréquence ne peut révéler aucune information sur le texte en clair. L'analyse de fréquence est strictement un outil pour les chiffrements classiques.
Outils connexes
- Caesar Cipher Decoder — Le chiffre César est l'un des chiffrements de substitution les plus simples, vulnérables à l'analyse de fréquence parce qu'il déplace simplement la distribution de fréquence entière d'une quantité fixe.
- Cinéma des mots clés — Chiffre de substitution monoalphabétique qui réarrange l'alphabet en utilisant un mot clé. L'analyse de fréquence est la méthode principale pour briser les chiffres de mots clés.
- Homophonic Cipher — Conçu spécifiquement pour vaincre l'analyse de fréquence en mappant des lettres communes à plusieurs symboles de chiffrement, égalisant la distribution de sortie.
- Identificateur du chiffre — Utilisez l'identificateur de chiffre pour déterminer quel type de chiffre a été utilisé pour chiffrer un message avant de choisir une approche d'analyse.
- Cipher vigenere — Cipher polyalphabétique qui résiste à une analyse de fréquence simple. Il faut d'abord déterminer la longueur de la clé à l'aide de l'examen de Kasiski ou de l'indice de coincidence, puis appliquer l'analyse de fréquence à chaque sous-cipher individuellement.