Qu'est-ce que l'analyse de fréquence en cryptographie?

L'analyse de fréquence est une technique de cryptoanalyse qui étudie la fréquence à laquelle chaque lettre apparaît dans un morceau de texte. Comme chaque langue a une distribution caractéristique de la fréquence des lettres (par exemple, E est la lettre la plus courante en anglais à environ 12,7%), l'analyse des fréquences des lettres dans le chiffrement peut révéler le modèle de substitution utilisé pour le chiffrer. Cette méthode a d'abord été décrite par le polymath arabe Al-Kindi au IXe siècle et demeure l'un des outils les plus fondamentaux de la cryptographie classique.

Comment l'analyse de fréquence brise-t-elle les chiffres de substitution?

Dans un chiffre de substitution simple, chaque lettre du texte en clair est toujours remplacée par une seule lettre chiffrée. Le profil de fréquence de la langue d'origine est donc conservé dans le message chiffré, mais associé à d'autres lettres. En comparant les fréquences des lettres chiffrées aux fréquences de langues connues, un cryptanalyste peut associer la lettre chiffrée la plus courante à E, la deuxième plus courante à T, et ainsi de suite. Combinée à l'analyse de digrammes courants (TH, HE, IN) et de trigrammes (THE, AND, ING), cette méthode permet de casser la plupart des chiffrements de substitution avec une quantité modérée de texte chiffré.

Quelles sont les fréquences de lettres anglaises les plus courantes?

Les lettres les plus courantes en anglais, dans l'ordre, sont: E (12,7 %), T (9,1 %), A (8,2 %), O (7,5 %), I (7,0 %), N (6,7 %), S (6,3 %), H (6,1 %), R (6,0 %) et D (4,3 %). Le ETAOIN mnémonique SHRDLU capture les 12 premières lettres par fréquence. Les lettres les moins courantes sont Z (0,07 %), Q (0,10 %), X (0,15 %) et J (0,15 %). Ces fréquences sont des moyennes sur de grands corps de texte anglais et peuvent varier selon les textes, les genres et les styles d'écriture.

Quelle est la statistique chi carré dans l'analyse de fréquence?

La statistique chi carré mesure la différence entre une distribution de fréquence observée et une distribution attendue. Dans l'analyse des fréquences, il compare les nombres de lettres réels dans votre texte aux nombres que vous attendez si le texte suivait les fréquences de langue standard. Une valeur bas chi-carré (moins de 30 pour 25 degrés de liberté) suggère que le texte correspond à des modèles de langage normaux, alors qu'une valeur élevée suggère que le texte est chiffré, écrit dans une langue différente, ou a une distribution de lettres inhabituelle.

Quels chiffres sont vulnérables à l'analyse de fréquence?

Les chiffres de substitution simples (monoalphabétiques) sont les plus vulnérables, y compris le chiffre César, le chiffre Atbash, le chiffre mot-clé et le chiffre affine. Tous ces éléments mapent chaque lettre en texte en clair à exactement une lettre en texte codé, préservant les modèles de fréquence. Les chiffres polyalphabétiques comme Vigenere rendent l'analyse de fréquence plus difficile parce que chaque lettre en texte simple peut chiffrer en plusieurs lettres en texte, mais ils peuvent encore être brisés en utilisant l'examen de Kasiski ou l'index de coïncidence pour déterminer la longueur de la clé, après quoi chaque sous-cipher peut être attaqué individuellement.

De combien de chiffrement avez-vous besoin pour que l'analyse de fréquence fonctionne?

En général, l'analyse de fréquence devient fiable avec au moins 100 à 200 caractères de chiffrement pour des chiffrements de substitution simples. Avec des textes plus courts, la variation naturelle des fréquences des lettres rend plus difficile de tirer des conclusions fiables. Les messages très courts (moins de 50 caractères) peuvent ne pas contenir suffisamment de données pour que les fréquences des lettres correspondent au schéma linguistique prévu. Pour les chiffrements polyalphabétiques, il faut encore plus de chiffrement car l'analyse doit être effectuée sur des sous-ensembles du texte correspondant à chaque position clé.

Quels sont les bigrammes les plus courants en anglais?

Les bigrammes anglais les plus courants sont TH (3,56 %), HE (3,07 %), IN (2,43 %), ER (2,05 %), AN (1,99 %), RE (1,85 %), ON (1,76 %), AT (1,49 %), EN (1,45 %) et ND (1,35 %). L'analyse de la fréquence des bigrammes peut révéler des indices que l'analyse lettre par lettre ne montre pas.

Comment utiliser l'analyse de fréquence pour casser un chiffrement ?

Comptez la fréquence de chaque lettre dans le message chiffré. Comparez ces fréquences aux fréquences standard des lettres anglaises (E=12,7%, T=9,1%, A=8,2%, O=7,5%, I=7,0%). La lettre la plus fréquente représente probablement E. Utilisez des bigrammes courants (TH, HE, IN) et des mots courts (THE, AND, FOR) pour confirmer les substitutions et décoder progressivement le message.

Quel est l'indice de coincidence?

L'indice de coincidence (IC) mesure la probabilité que deux lettres choisies au hasard dans un texte soient identiques. Le texte anglais a un IC d'environ 0.0667, alors que le texte aléatoire est d'environ 0.0385. IC aide à déterminer si un chiffre est monoalphabétique (IC près de l'anglais) ou polyalphabétique (IC plus près du hasard), guidant quelle approche de cryptoanalyse à utiliser.

Quand l'analyse de fréquence échoue-t-elle?

L'analyse de la fréquence n'est pas fiable sur les textes très courts (moins de 100 caractères), les textes en vocabulaire spécialisé, les chiffres polyalphabétiques comme Vigenere (qui aplatit les distributions de fréquences) et les chiffres homophoniques de substitution qui cartographient les lettres fréquentes à plusieurs symboles. Pour les chiffres polyalphabétiques, vous devez d'abord déterminer la longueur de la clé en utilisant l'examen Kasiski ou l'analyse IC.

Outil d'analyse de la fréquence des lettres — Chiffres de substitution des fissures

Comment utiliser l'analyse de fréquence

L'analyse de fréquence est le processus qui consiste à compter la fréquence à laquelle chaque lettre apparaît dans un texte et à utiliser ces chiffres pour tirer des conclusions sur l'origine ou le chiffrement du texte. Voici un guide étape par étape pour utiliser l'outil de cette page:

Passer ou taper votre texte dans le champ d'entrée. L'outil accepte tout texte — texte simple, chiffre ou contenu mixte. Pour obtenir de meilleurs résultats, utilisez au moins 100 caractères de texte afin que les modèles de fréquence soient statistiquement significatifs.
Revoir le diagramme de fréquence. Le diagramme à barres interactif affiche la fréquence de chaque lettre en pourcentage du total des caractères alphabétiques. Les lettres sont classées alphabétiquement par défaut, mais vous pouvez trier par fréquence pour identifier rapidement les lettres les plus et les moins courantes.
Comparer avec les fréquences anglaises. Le graphique recouvre les fréquences de lettres anglaises standard à côté de la distribution de votre texte. Cherchez les pics caractéristiques à E, T, A, O et moi. Si les pics sont décalés uniformément, vous pouvez regarder un chiffre César. Si la distribution semble aplatie, il est probable qu'un chiffre polyalphabétique comme Vigenere soit utilisé.
Vérifiez la statistique du chi carré. Ce numéro unique résume à quel point votre texte correspond aux fréquences anglaises attendues. Une valeur chi carré inférieure à 30 suggère un anglais normal; des valeurs supérieures à 50 suggèrent fortement un chiffrement ou une langue non anglaise.
** Écarts d'examine par lettre**. Le tableau statistique détaillé montre la fréquence observée, la fréquence prévue et l'écart entre les deux lettres. Les écarts positifs importants indiquent des lettres qui apparaissent plus souvent que prévu en anglais; les écarts négatifs importants indiquent des lettres qui apparaissent moins souvent.
Former des hypothèses et les tester. Si vous soupçonnez un chiffre de substitution monoalphabétique, cartographiez la lettre de chiffrement la plus fréquente à E, la seconde à T, etc. Regardez ces devinettes contre les bigrams et les trigrammes communs. Ajustez vos substitutions jusqu'à ce que le texte en clair cohérent émerge.

Tableau de référence de la fréquence des lettres anglaises

Le tableau suivant montre la distribution de fréquence standard pour chaque lettre en texte anglais, basée sur l'analyse de corps de texte volumineux. Ces valeurs représentent des moyennes et varieront selon les genres, les auteurs et la longueur du texte.

Letter	Fréquence (%)	Exemple de mots	Letter	Fréquence (%)	Exemple de mots
A	8.167	et sont,	N	6.749	Pas, nouveau, non
B	1.492	Mais, soyez, par	O	7.507	ou, le
C	2.782	peut, viens	P	1.929	mise, partie
D	4.253	Oui, le jour.	Q	0.095	reine, tout à fait
E	12.702	le, il, soit	R	5.987	sont, elle, ou
F	2.228	pour,	S	6.327	Alors, elle est
G	2.015	Allez, allez, allez	T	9.056	pour
H	6.094	il, a, avait	U	2.758	En haut, nous, utilisez
I	6.966	Dans, est, il	V	0.978	très, ont
J	0.153	juste, travail	W	2.360	était, nous, avec
K	0.772	C'est bon.	X	0.150	Suivant, six
L	4.025	genre, dernier	Y	1.974	toi, année
M	2.406	mon, moi, peut-être	Z	0.074	0, zone

La mnémonique ETAOIN SHRDLU capture les douze lettres les plus fréquentes en ordre décroissant: E, T, A, O, I, N, S, H, R, D, L, U. Cette séquence était si bien connue des typographes qu'elle devint une référence culturelle à part entière.

Briser un chiffre: Exemple travaillé

Considérez le chiffre suivant, qui a été chiffré à l'aide d'un chiffre de substitution simple:

GSZIV GSV OVGGVI UIVJFVMXB WRHGIRYF GRLM LU GSRH GVCG DRGS HGZMWZIW VMTORHSFIVJFVMXRVH GL XIZXP GSV XRKSVI

**Étape 1: Compter les fréquences des lettres. **

En analysant ce texte, les lettres les plus fréquentes sont:

Rank	Letter	Count	Frequency
1	G	14	13.2%
2	V	12	11.3%
3	R	9	8.5%
4	H	8	7.5%
5	I	7	6.6%

**Étape 2: Comparer avec les fréquences anglaises. **

En anglais standard, les cinq premières lettres sont E (12,7 %), T (9,1 %), A (8,2 %), O (7,5 %), I (7,0 %). Comparaison:

G (13,2 %) se compare probablement à T (9,1 %) ou E (12,7 %)
V (11,3 %) des cartes à E (12,7 %) ou T (9,1 %)

**Étape 3: Recherchez des modèles communs. **

Le mot à trois lettres "GSV" apparaît plusieurs fois. Le mot le plus courant en anglais est "THE". Si GSV = THE, alors G=T, S=H, V=E.

**Étape 4: Appliquer l'hypothèse et étendre. **

Avec G=T, S=H, V=E, cochez "GSZIV" — par substitution de "THA_E" qui suggère fortement "SHARE" (Z=R, I=R... attendez, je suis déjà différent). En fait, Z=A et I=R donnent "THARE" — près de "SHARE". Vérifier plus loin: c'est en fait un chiffre Atbash où chaque lettre est cartographiée à son inverse (A<->Z, B<->Y, etc.). Les cartes de la lettre G (position 7) à T (position 20), confirmant 7+20=27, qui est le motif Atbash (position + position inverse = 27).

**Étape 5: Décoder le message complet. **

L'application de la substitution Atbash décode l'ensemble du message vers: "SHARE THE LETTER FREQUENCY DISTRIBUTION OF THIS TEXT WITH STANDARD ENGLISH FREQUENCIES TO CRACK THE CIPHER"

Cet exemple montre comment l'analyse de fréquence, combinée à la reconnaissance des motifs et à la connaissance des mots communs, peut systématiquement briser un chiffre de substitution.

Analyse N-gram: Bigrams et Trigrams

L'analyse de fréquence par lettre unique est puissante, mais l'analyse des paires (bigrammes) et des triples (trigrammes) de lettres consécutives révèle encore plus sur la structure d'un texte. L'analyse N-gram exploite le fait que l'anglais — et chaque langue naturelle — a de fortes préférences statistiques pour certaines combinaisons de lettres.

Top 10 des Bigrams anglais

Rank	Bigram	Fréquence (%)	Notes
1	TH	3.56	Le bigram le plus commun; commence "le", "ça", "ça", "eux"
2	HE	3.07	Trouvé dans "le", "il", "elle", "ici", "eux"
3	IN	2.43	Préposition commune et fin du mot ("-ing", "-tion")
4	ER	2.05	Le mot commun se termine ("-er", "-ler", "-ber") et dans "elle", "chaque"
5	AN	1.99	Article "an" et dans "et", "tout", "peut", "homme"
6	RE	1.85	Préfixe "re-" et dans "sont", "étaient", "ici"
7	ON	1.76	Préposition et dans "un", "seulement", "sur"
8	AT	1.49	Préposition et dans "ça", "quoi", "chat"
9	EN	1.45	Fin commune ("-en", "-ment") et dans "alors", "quand"
10	ND	1.35	Fin de "et", "fin", "fin", "fin", "genre"

Top 10 des trigrammes anglais

Rank	Trigram	Fréquence (%)	Notes
1	THE	3.51	Le mot anglais le plus courant
2	AND	1.59	La conjonction la plus courante
3	ING	1.47	Nombre de participants actuels
4	HER	0.90	Pronom et dans "il", "où", "autre"
5	THA	0.83	Début de "ça", "que"
6	ERE	0.78	Dans "là", "où", "ici"
7	FOR	0.76	Préposition commune
8	ENT	0.73	Suffixe dans "went", "sent", "ment"
9	ION	0.70	Le suffixe commun "-tion", "-sion"
10	TER	0.68	Dans "après", "eau", "lettre"

Utilisation de N-grammes dans la Cryptanalyse

Lorsque l'analyse de fréquence à une lettre produit de multiples cartes plausibles, l'analyse de bigram et de trigramme aide à réduire la substitution correcte:

Identifiez les bigrams répétés dans le code. Le bigram le plus commun correspond probablement à TH.
Choisissez des modèles trigrammes. Si une séquence de trois lettres en particulier domine, elle représente probablement THE.
Vérifier les limites des mots. Les mots à deux lettres sont extrêmement limités en anglais (communes: OF, TO, IN, IS, IT, AS, AT, WE, HE, BY, OR, ON, DO, IF, ME, MY, UP, AN, GO, NO, US, AM, SO). Si vous pouvez identifier les limites des mots dans le code, les tester contre des mots connus à deux lettres limite rapidement l'espace de la solution.
Combiner avec les données de fréquence des lettres. Une fois que vous avez des cartes de haute confiance à partir de l'analyse n-gram, utilisez-les pour ancrer vos attributions de fréquence à une lettre.

Quand l'analyse de fréquence fait défaut

L'analyse de la fréquence n'est pas un outil de rupture de chiffre universel. Plusieurs types de chiffrement résistent ou l'emportent entièrement:

Polyalphabétique Chiffres

Les chiffres comme le chiffre Vigenere utilisent des alphabets de substitution multiples, en les traversant avec chaque lettre. Cela distribue chaque lettre en texte en clair sur plusieurs lettres de chiffrement différentes, aplatissant la distribution de fréquence et la rendant semblable à du texte aléatoire. Il faut d'abord déterminer la longueur de la clé (à l'aide de l'examen Kasiski ou de l'indice ** de coincidence**), puis appliquer l'analyse de fréquence séparément à chaque sous-cipher.

Substitution homophonique

Un chiffrement homophonique de substitution cartographie chaque lettre en texte en clair à plusieurs symboles de chiffrement possibles, avec des lettres plus fréquentes ayant plus d'alternatives. Par exemple, E pourrait mapper vers l'un des cinq symboles différents, tandis que Z maps vers un seul. Ceci égalise la distribution des fréquences de chiffrement, en vainquant les attaques simples basées sur le comptage. La rupture des chiffres homophoniques nécessite des techniques plus sophistiquées, y compris l'analyse des fréquences de bigram et les algorithmes d'escalade.

Textes courts

Avec moins de 100 caractères, la variation statistique naturelle de l'utilisation des lettres peut être plus grande que le signal que vous essayez de détecter. Un court texte pourrait ne pas contenir de lettre E du tout, même si E est la lettre la plus courante en anglais. Dans ces cas, l'analyse de fréquence ne fournit que de faibles données probantes et doit être complétée par d'autres techniques telles que les attaques en texte en clair ou les suppositions en contexte.

Chiffres Null et Steganographie

Certaines méthodes de chiffrement cachent le message dans un texte apparemment innocent, rendant l'analyse de fréquence du texte porteur inutile parce que le texte porteur a des distributions de fréquence normales. La détection de ces phénomènes nécessite des approches analytiques différentes.

Chiffrement moderne

Les algorithmes cryptographiques modernes (AES, RSA, ChaCha20) produisent un chiffrement impossible à distinguer des données aléatoires. Chaque valeur d'octet apparaît avec une probabilité égale, et aucune quantité d'analyse de fréquence ne peut révéler aucune information sur le texte en clair. L'analyse de fréquence est strictement un outil pour les chiffrements classiques.

Outils connexes

Caesar Cipher Decoder — Le chiffre César est l'un des chiffrements de substitution les plus simples, vulnérables à l'analyse de fréquence parce qu'il déplace simplement la distribution de fréquence entière d'une quantité fixe.
Cinéma des mots clés — Chiffre de substitution monoalphabétique qui réarrange l'alphabet en utilisant un mot clé. L'analyse de fréquence est la méthode principale pour briser les chiffres de mots clés.
Homophonic Cipher — Conçu spécifiquement pour vaincre l'analyse de fréquence en mappant des lettres communes à plusieurs symboles de chiffrement, égalisant la distribution de sortie.
Identificateur du chiffre — Utilisez l'identificateur de chiffre pour déterminer quel type de chiffre a été utilisé pour chiffrer un message avant de choisir une approche d'analyse.
Cipher vigenere — Cipher polyalphabétique qui résiste à une analyse de fréquence simple. Il faut d'abord déterminer la longueur de la clé à l'aide de l'examen de Kasiski ou de l'indice de coincidence, puis appliquer l'analyse de fréquence à chaque sous-cipher individuellement.

Outil d'analyse de la fréquence des lettres

Texte d'entrée

Distribution des fréquences

Foire aux questions sur l'analyse de fréquence