Chiffre de substitution homophonique : de la défaite de l'analyse de fréquence au tueur du zodiaque
Découvrez comment les chiffrements de substitution homophoniques défont l’analyse de fréquence. Couvre les chiffres Z408 et Z340 du Zodiac Killer, les origines historiques et la construction des chiffres.
Présentation
L'analyse de fréquence est l'arme la plus puissante de l'arsenal d'un cryptanalyste contre les simples chiffrements de substitution. En comptant la fréquence à laquelle chaque symbole apparaît dans un texte chiffré et en comparant ces fréquences à la distribution connue des lettres de la langue source, un analyste expérimenté peut déchiffrer la plupart des chiffres monoalphabétiques en quelques minutes. Pendant des siècles après que le mathématicien arabe al-Kindi ait décrit pour la première fois la technique vers 850 CE, l'analyse de fréquence a rendu les simples chiffres de substitution peu fiables pour les secrets sérieux.
Le chiffre de substitution homophonique était la réponse du monde cryptographique à ce problème. Au lieu de remplacer chaque lettre du texte en clair par un seul symbole de texte chiffré fixe, un chiffre homophonique attribue plusieurs symboles différents à chaque lettre. Plus une lettre apparaît fréquemment dans la langue, plus elle reçoit de symboles de substitution. Lorsque cela est bien fait, cela aplatit la distribution de fréquence du texte chiffré, faisant apparaître chaque symbole avec une probabilité à peu près égale et supprimant l'empreinte statistique dont dépend l'analyse de fréquence.
Cette idée, simple dans son concept mais exigeante dans son exécution, a façonné certains des épisodes les plus importants de l'histoire de la cryptographie - de la correspondance papale de la Renaissance aux chiffres non résolus les plus célèbres du XXe siècle.
Essayez notre outil gratuit de chiffrement homophonique pour expérimenter la substitution homophonique et voir comment elle obscurcit les fréquences des lettres.
Qu'est-ce que la substitution homophonique ?
L'idée de base
Dans un chiffrement de substitution simple standard (comme le chiffre César ou chiffrement par mot-clé), chaque lettre de l'alphabet en texte brut correspond à exactement un symbole de texte chiffré, et chaque symbole de texte chiffré correspond à exactement une lettre de texte en clair. La cartographie est une bijection : un-à-un et sur. Cela signifie que si E est la lettre la plus courante en anglais (apparaissant environ 12,7 % du temps), alors quel que soit le symbole auquel E correspond, il apparaîtra également environ 12,7 % du temps dans le texte chiffré. L'empreinte de fréquence est transférée directement du texte brut au texte chiffré.
Un chiffre de substitution homophonique rompt cette relation un-à-un. Chaque lettre en clair peut être représentée par plusieurs symboles chiffrés différents, appelés homophones. Lors du cryptage d'un message, chaque occurrence d'une lettre est remplacée par un homophone choisi au hasard parmi l'ensemble de ces lettres. Le résultat est que la fréquence du texte chiffré de chaque symbole individuel est beaucoup plus uniforme que dans un chiffrement de substitution standard.
Un exemple simple
Supposons que nous attribuions les homophones suivants à quelques lettres seulement :
| Lettre | Homophones |
|---|---|
| E | 14, 27, 43, 56, 72, 81 |
| T | 09, 33, 65, 48 |
| Un | 17, 39, 62, 51 |
| Ô | 05, 28, 74 |
| N | 11, 36, 88 |
| S | 22, 47, 70 |
| R | 03, 58 |
| Je | 19, 44 |
| ... | ... |
La lettre E, la plus courante, reçoit six homophones. Lors du chiffrement, chaque occurrence de E est remplacée par une parmi {14, 27, 43, 56, 72, 81} choisie au hasard. Dans le texte chiffré résultant, aucun symbole ne domine : chacun des six symboles E n'apparaît qu'environ 2 % du temps (12,7 % répartis entre six symboles), se fondant dans les fréquences des lettres moins courantes.
Pourquoi ça marche
L'efficacité de la substitution homophonique se résume à un simple principe statistique. L'analyse de fréquence repose sur l'hypothèse que la fréquence des symboles chiffrés reflète la fréquence des lettres en clair. En répartissant la fréquence de chaque lettre sur plusieurs symboles, le chiffre homophonique viole cette hypothèse. Si chaque symbole apparaît à peu près à la même fréquence, l’analyste ne peut pas déterminer quels symboles représentent des lettres communes et lesquels représentent des lettres rares.
Le chiffre homophonique idéal attribue les homophones en proportion exacte aux fréquences des lettres : si E représente 12,7 % du texte et que le chiffre utilise 100 symboles au total, alors E devrait recevoir environ 13 symboles. Si Z représente 0,07 % du texte, il peut recevoir un seul symbole. Lorsque les proportions sont exactes, chaque symbole apparaît avec une probabilité d'environ 1/100 = 1 %, et le texte chiffré a une distribution de fréquence parfaitement plate.
Origines historiques : cryptographes papaux et tribunaux de la Renaissance
La première utilisation connue (années 1400)
Le chiffre de substitution homophonique est apparu dans les cours de l’Italie de la Renaissance, où des cités-États comme Florence, Venise, Milan et les États pontificaux étaient enfermées dans des intrigues diplomatiques constantes. Les ambassadeurs, les maîtres-espions et les secrétaires pontificaux avaient besoin de chiffres capables de résister aux techniques d'analyse de fréquence qui se répandaient déjà dans la communauté scientifique.
Les premiers chiffres homophoniques documentés apparaissent dans les archives du duché de Mantoue et de la République de Florence dès le début du XVe siècle. Ces premiers systèmes étaient relativement simples : ils attribuaient deux ou trois symboles aux lettres les plus courantes (E, T, A, O) tout en laissant les lettres moins courantes avec des symboles uniques. Même ce modeste niveau de substitution homophonique augmentait considérablement la difficulté de la cryptanalyse.
Le bureau du chiffre papal
Le Vatican entretenait l’une des opérations cryptographiques les plus sophistiquées de l’Europe de la Renaissance. Le secrétaire papal du chiffre était responsable du codage et du décodage de toute la correspondance diplomatique entre Rome et son réseau de nonces (ambassadeurs papaux) à travers l'Europe.
Au milieu du XVe siècle, le bureau papal du chiffrement avait développé des systèmes homophoniques élaborés qui comprenaient :
- Plusieurs symboles pour chaque lettre commune
- Nulls (symboles dénués de sens insérés pour confondre les analystes)
- Mots de code pour les noms, lieux et concepts communs (un système hybride connu sous le nom de nomenclateur)
Les Argentis, une famille de secrétaires papaux du chiffre s'étendant sur plusieurs générations aux XVIe et XVIIe siècles, ont perfectionné ces systèmes jusqu'à en faire un grand art. Leurs nomenclateurs combinaient des centaines de groupes de codes pour les mots et les syllabes avec une substitution homophonique pour les lettres individuelles, créant ainsi des chiffres extrêmement difficiles à déchiffrer selon les normes de l'époque.
Nomenclateurs : le système de chiffrement dominant depuis des siècles
Pendant environ trois cents ans, entre 1400 et 1700 environ, la nomenclature a été le système de cryptage dominant dans la diplomatie européenne. Une nomenclature combinait deux couches de cryptage :
- Un tableau de substitution homophonique pour des lettres individuelles
- Une table de codes mappant des mots, des noms et des expressions courants à des symboles ou des groupes de chiffres arbitraires
Le terme « nomenclateur » lui-même vient du latin « appelant », reflétant le rôle de la table de codes dans le déguisement des noms propres. Une nomenclature typique pourrait inclure des groupes de codes pour « le roi de France », « déclarer la guerre », « traité de paix », « 10 000 soldats » et des centaines d’autres termes diplomatiques, ainsi qu’un alphabet homophonique pour épeler les mots qui ne figurent pas dans la table de codes.
Les nomenclateurs allaient de systèmes simples comportant quelques dizaines de groupes de codes à des tableaux massifs contenant des milliers d'entrées. Plus la table de codes contenait d'entrées, plus le chiffre était difficile à déchiffrer, mais aussi plus il était difficile à utiliser correctement et plus l'opérateur risquait de commettre des erreurs.
Le Grand Chiffre de Louis XIV
Antoine et Bonaventure Rossignol
La nomenclature la plus célèbre de l'histoire était le « Grand Chiffre » utilisé par la cour de Louis XIV de France à la fin du XVIIe siècle. Il a été créé par Antoine Rossignol et son fils Bonaventure Rossignol, qui ont servi de cryptanalystes et de créateurs de chiffres auprès de la couronne de France.
Le Grand Chiffre était exceptionnel en raison de sa conception : au lieu de coder des lettres individuelles, il codait des syllabes. La langue française était divisée en syllabes qui la composaient, et chaque syllabe se voyait attribuer un numéro unique (parmi un ensemble de 587 chiffres). Certains chiffres étaient des pièges : ils indiquaient que le chiffre précédent devait être ignoré, ce qui décourageait tout analyste qui tentait une attaque systématique.
Ce codage syllabique, combiné aux numéros pièges, rendait le Grand Chiffre extraordinairement résistant à l'analyse. Après la mort des Rossignol, la clé du code a été perdue et les messages codés avec celui-ci sont restés non lus pendant plus de deux cents ans.
Etienne Bazeries et la Solution
En 1893, le commandant Etienne Bazeries, cryptanalyste militaire français, a finalement déchiffré le Grand Chiffre après trois années de travail minutieux. L'idée clé de Bazeries était de reconnaître que les nombres représentaient des syllabes plutôt que des lettres individuelles. Une fois qu'il a identifié quelques valeurs de syllabes grâce à des suppositions éclairées et à une analyse statistique, il a pu se frayer un chemin à travers le système, en utilisant les décryptages partiels pour identifier des valeurs de syllabes supplémentaires.
Parmi les messages décodés par Bazeries figurait une correspondance révélant la véritable identité de l'Homme au masque de fer, un prisonnier d'État que Louis XIV avait gardé enfermé pendant des décennies, le visage caché derrière un masque. Les lettres décodées suggéraient que le prisonnier était un général en disgrâce nommé Vivien de Bulonde, bien que cette identification reste débattue par les historiens.
Les chiffres du tueur du zodiaque
Les codes de substitution homophoniques les plus célèbres de l'histoire moderne sont les cryptogrammes créés par Zodiac Killer, un meurtrier en série non identifié qui a opéré dans le nord de la Californie à la fin des années 1960 et au début des années 1970. Le Zodiac a envoyé des lettres et des chiffres provocateurs aux journaux de la région de la baie de San Francisco, affirmant avoir commis de nombreux meurtres et mettant le public au défi de décoder ses messages.
Le chiffre Z408 (1969)
Le 31 juillet 1969, le Zodiac a envoyé trois fragments d'un chiffre à trois journaux de la Bay Area : le San Francisco Chronicle, le San Francisco Examiner et le Vallejo Times-Herald. Chaque journal a reçu un tiers du cryptogramme complet de 408 symboles. Le Zodiac a exigé que les journaux publient le chiffre en première page, menaçant de se lancer dans une tuerie s'ils ne le faisaient pas.
Le chiffre combiné, connu sous le nom de Z408, était un chiffre de substitution homophonique utilisant un mélange de lettres, de chiffres et de symboles inventés. Le zodiaque utilisait environ 54 symboles différents pour représenter les 26 lettres de l'alphabet, attribuant plusieurs symboles aux lettres communes comme E et T.
Donald et Bettye Harden : résoudre Z408
Moins d'une semaine après la publication du chiffre, un professeur de lycée nommé Donald Harden et son épouse Bettye, de Salinas, en Californie, ont piraté le Z408. C'étaient des passionnés d'énigmes amateurs sans formation formelle en cryptanalyse.
L'approche de Hardens combinait plusieurs techniques :
**Crib devinant.**Bettye Harden a suggéré que le Zodiaque, étant donné son narcissisme apparent, aurait pu commencer le message avec le mot « I » ou l'expression « I LIKE KILLING ». Cela leur a donné un possible berceau – un segment de texte clair connu ou deviné – pour rechercher des modèles dans le chiffre.**Correspondance de modèles.**L'expression "KILLING" contient un double L, qui apparaîtrait comme un symbole répété dans le texte chiffré. Ils ont recherché des symboles répétés pouvant correspondre au double L et ont trouvé une correspondance.Amorçage. Une fois "I LIKE KILLING" provisoirement placé, les lettres I, L, K, N, G étaient partiellement connues. Ces lettres connues ont été utilisées pour deviner les mots adjacents, ce qui a révélé davantage de correspondances lettres-symboles, ce qui a permis un décryptage plus approfondi.
Le Z408 décodé disait :
I LIKE KILLING PEOPLE BECAUSE IT IS SO MUCH FUN IT IS MORE FUN THAN KILLING WILD GAME IN THE FORREST BECAUSE MAN IS THE MOST DANGEROUE ANAMAL OF ALL TO KILL SOMETHING GIVES ME THE MOST THRILLING EXPERENCE IT IS EVEN BETTER THAN GETTING YOUR ROCKS OFF WITH A GIRL THE BEST PART OF IT IS THAE WHEN I DIE I WILL BE REBORN IN PARADICE AND ALL THE I HAVE KILLED WILL BECOME MY SLAVES I WILL NOT GIVE YOU MY NAME BECAUSE YOU WILL TRY TO SLOI DOWN OR ATOP MY COLLECTIOG OF SLAVES FOR MY AFTERLIFE EBEORIETEMETHHPITI
Le message contenait plusieurs fautes d'orthographe (probablement intentionnelles) et se terminait par 18 caractères apparemment dénués de sens ("EBEORIETEMETHHPITI") qui n'ont jamais été expliqués de manière satisfaisante. Certains analystes pensent qu'ils cachent le nom du Zodiaque ; d'autres pensent qu'ils remplissent la grille au hasard.
Le chiffre Z340 : 51 ans non résolus
Le 8 novembre 1969, le Zodiac envoya un nouveau chiffre au San Francisco Chronicle. Celui-ci comptait 340 symboles et utilisait un schéma de substitution homophonique plus complexe. Le Z340 résistera à toutes les tentatives de solution pendant plus d'un demi-siècle.
Le Z340 a défié l’analyse pour plusieurs raisons :
**Plusieurs couches de cryptage.**Contrairement à la simple substitution homophonique du Z408, le Z340 semble utiliser des manipulations supplémentaires en plus de la substitution – mais personne n'a pu déterminer exactement quelles étaient ces manipulations.**Plus courte longueur.**À 340 symboles, le chiffre fournissait moins de données statistiques avec lesquelles travailler que le Z408 à 408 symboles.**Erreurs possibles.**Si le Zodiac faisait des erreurs lors du chiffrement (une possibilité réelle étant donné la complexité du chiffrement), ces erreurs introduiraient du bruit qui pourrait perturber toute analyse systématique.Langage du texte en clair incertain. Même si l'anglais était supposé, la tendance connue du Zodiaque aux fautes d'orthographe et aux formulations inhabituelles rendait plus difficile l'utilisation des statistiques anglaises standard.
La percée de 2020 : Oranchak, Blake et Van Eycke
Le 5 décembre 2020, 51 ans après l'envoi du code, une équipe de trois décrypteurs amateurs a annoncé avoir résolu le problème du Z340. L'équipe était composée de David Oranchak, un développeur Web de Virginie qui travaillait sur le chiffrement depuis plus de 14 ans ; Sam Blake, un mathématicien appliqué de Melbourne, en Australie ; et Jarl Van Eycke, un exploitant d'entrepôt et programmeur belge qui avait créé un logiciel spécialisé de résolution de chiffrement appelé AZdecrypt.
Leur percée est venue de la reconnaissance que le Z340 utilisait non seulement une substitution homophonique mais également une étape de transposition. Le texte en clair avait été écrit dans une grille, puis les lignes de la grille avaient été manipulées (certaines étaient lues à l'envers, d'autres décalées) avant que la substitution homophonique ne soit appliquée. Ce chiffrement à deux couches – transposition suivie de substitution – était ce qui avait vaincu les cryptanalystes pendant cinq décennies.
L'approche de l'équipe s'est fortement appuyée sur des méthodes informatiques :
-
Génération d'hypothèses. Blake a écrit un logiciel qui testait systématiquement des milliers de schémas de transposition possibles - différentes façons dont les lignes auraient pu être réorganisées, inversées ou décalées.
-
Résolution automatisée. Pour chaque transposition candidate, le logiciel AZdecrypt de Van Eycke a tenté de résoudre la substitution homophonique résultante à l'aide d'algorithmes d'escalade qui ont testé des millions de tables de substitution possibles.
-
Notation. Chaque solution candidate a été notée par rapport aux statistiques de la langue anglaise (fréquences des lettres, fréquences des bigrammes, fréquences des trigrammes) pour identifier le texte brut le plus plausible.
-
Vérification humaine. Oranchak a examiné les candidats les mieux notés et a confirmé la solution lorsqu'un texte anglais cohérent est apparu.
Le Z340 décodé disait :
I HOPE YOU ARE HAVING LOTS OF FUN IN TRYING TO CATCH ME THAT WASNT ME ON THE TV SHOW WHICH BRINGS UP A POINT ABOUT ME I AM NOT AFRAID OF THE GAS CHAMBER BECAUSE IT WILL SEND ME TO PARADICE ALL THE SOONER BECAUSE I NOW HAVE ENOUGH SLAVES TO WORK FOR ME WHERE EVERYONE ELSE HAS NOTHING WHEN THEY REACH PARADICE SO THEY ARE AFRAID OF DEATH I AM NOT AFRAID BECAUSE I KNOW THAT MY NEW LIFE IS LIFE WILL BE AN EASY ONE IN PARADICE DEATH
Le FBI a confirmé la solution le 11 décembre 2020. Le texte décodé était cohérent avec le style d'écriture connu du Zodiac, y compris sa faute d'orthographe caractéristique de « paradis » sous la forme « PARADICE » – la même faute d'orthographe qui apparaissait dans la solution Z408. Cependant, le message ne contenait aucune information permettant d’identifier le tueur.
Les chiffres Z13 et Z32
Le Zodiaque a également envoyé deux chiffres plus courts : un chiffre à 13 symboles (Z13) contenant prétendument son nom, et un chiffre à 32 symboles (Z32) contenant une formule revendiquée pour fabriquer des bombes. Les deux restent non résolus. Leur extrême brièveté (respectivement 13 et 32 symboles) fournit trop peu de données statistiques pour les méthodes basées sur la fréquence, et les approches par force brute produisent trop de solutions plausibles pour distinguer la bonne.
Comment construire une table de substitution homophonique
Construire une substitution homophonique efficace nécessite une attention particulière aux proportions de fréquence des lettres.
Étape 1 : Déterminez le nombre total de symboles
Un choix courant est de 100 symboles, ce qui permet aux pourcentages de fréquence de correspondre directement au nombre de symboles. Des jeux de symboles plus grands (200, 500) fournissent une granularité plus fine et des distributions de texte chiffré plus plates.
Étape 2 : Attribuer les symboles proportionnellement
Utilisation des fréquences de lettres anglaises standard :
| Lettre | Fréquence (%) | Symboles (sur 100) |
|---|---|---|
| E | 12.7 | 13 |
| T | 9.1 | 9 |
| Un | 8.2 | 8 |
| Ô | 7.5 | 8 |
| Je | 7.0 | 7 |
| N | 6.7 | 7 |
| S | 6.3 | 6 |
| H | 6.1 | 6 |
| R | 6.0 | 6 |
| D | 4.3 | 4 |
| L | 4.0 | 4 |
| C | 2.8 | 3 |
| U | 2.8 | 3 |
| M | 2.4 | 2 |
| W | 2.4 | 2 |
| F | 2.2 | 2 |
| G | 2.0 | 2 |
| Oui | 2.0 | 2 |
| P | 1.9 | 2 |
| B | 1.5 | 2 |
| V | 1.0 | 1 |
| K | 0,8 | 1 |
| J | 0,2 | 1 |
| X | 0,2 | 1 |
| Q | 0,1 | 1 |
| Z | 0,1 | 1 |
Cela donne 103 symboles. Ajustez en supprimant les symboles des lettres où l'arrondi était généreux jusqu'à ce que le total atteigne exactement 100 (ou utilisez 103 symboles).
Étape 3 : Attribuer des symboles spécifiques
Chaque symbole doit être un glyphe, un nombre ou un caractère unique. Pour un jeu de 100 symboles, vous pouvez utiliser les chiffres 00 à 99 ou un mélange de lettres, de chiffres et de caractères spéciaux. Le Zodiac Killer a utilisé un mélange créatif de lettres standard, de lettres inversées, de symboles astrologiques et de formes inventées.
Étape 4 : Sélection aléatoire des symboles pendant le cryptage
Lors du cryptage, pour chaque lettre en clair, choisissez au hasard parmi ses homophones disponibles. Cette randomisation est essentielle : si vous utilisez toujours les homophones dans un ordre fixe (en les parcourant de manière séquentielle), un analyste peut détecter le modèle et reconstruire la cartographie.
Forces et limites
Points forts
**Défait l'analyse de fréquence simple.**Le principal avantage. Avec un jeu de symboles bien proportionné, l’analyse de fréquence d’un seul symbole ne fournit aucune information utile. Il s’agissait d’une amélioration révolutionnaire par rapport aux simples chiffres de substitution.**Mise à l'échelle de sécurité flexible.**Plus de symboles signifie des distributions de fréquences plus plates et une analyse plus difficile. Un ensemble de 50 symboles offre une protection modérée ; un ensemble de 500 symboles se rapproche d'une distribution plate.Efficacité historique prouvée. Les chiffres homophoniques ont protégé avec succès les communications diplomatiques pendant des siècles et ont vaincu les cryptanalystes professionnels à de nombreuses reprises.
Limites
**Vulnérable à l'analyse des bigrammes et des trigrammes.**Même avec des fréquences plates d'un seul symbole, les modèles de paires de symboles (bigrammes) et de triples (trigrammes) contiennent toujours des informations. En anglais, la paire TH est bien plus courante que QX. Si l’analyste peut identifier quelles paires de symboles correspondent aux bigrammes communs, le chiffre peut être décrypté. Il s'agit du principal vecteur d'attaque contre la substitution homophonique.**Complexité de gestion des clés.**La table de substitution est volumineuse et doit être gardée secrète. Partager un tableau contenant plus de 100 entrées est plus difficile et plus sujet aux erreurs que de partager un simple mot-clé.**Extension du texte chiffré.**Si les symboles sont des nombres à plusieurs chiffres (comme les codes à deux chiffres), le texte chiffré est plus long que le texte en clair, ce qui constitue un inconvénient pratique pour les communications manuscrites ou télégraphiques.Ne résiste pas au texte clair connu. Si l'attaquant connaît une partie du texte clair, il peut immédiatement identifier quels symboles correspondent à quelles lettres dans cette partie, puis étendre le mappage au reste du texte chiffré.
Comparaison avec d'autres chiffres de substitution
vs substitution simple (César, mot clé)
Le chiffre César et le chiffre mot-clé sont tous deux monoalphabétiques : chaque lettre a exactement un substitut. L'analyse de fréquence les brise trivialement. La substitution homophonique est une mise à niveau directe qui neutralise cette attaque spécifique. Cependant, la complexité supplémentaire liée à la gestion de plusieurs symboles par lettre rend les chiffrements homophoniques plus sujets aux erreurs dans la pratique.
vs. Chiffres polyalphabétiques (Vigenère)
Les chiffres polyalphabétiques comme le chiffre de Vigenere échouent également à l'analyse de fréquence à une seule lettre, mais ils le font par un mécanisme différent : en utilisant plusieurs alphabets de substitution en rotation. La faiblesse du chiffre de Vigenère réside dans sa clé répétitive, qui peut être détectée grâce à l'examen de Kasiski ou au test de Friedman. Les chiffres homophoniques n'ont pas de clé répétitive à détecter, mais ils sont vulnérables à l'analyse bigramme, à laquelle résistent partiellement les chiffres polyalphabétiques.
En pratique, un chiffre homophonique bien conçu est à peu près comparable en termes de sécurité à un chiffre Vigenere avec une clé de longueur modérée. Les deux peuvent être décryptés par un analyste expérimenté disposant de suffisamment de texte chiffré, mais les deux représentent une avancée significative par rapport à une simple substitution.
contre les chiffres polygraphiques (Playfair, Hill)
Les chiffrements polygraphiques comme le chiffre Playfair chiffrent plusieurs lettres à la fois, ce qui perturbe également les modèles de fréquence à une seule lettre. Le cryptage digraphique du chiffre Playfair crée un type différent de masquage de fréquence : il masque les lettres individuelles mais introduit des modèles digraphiques détectables. La substitution homophonique et le cryptage polygraphique peuvent être considérés comme deux stratégies différentes pour le même objectif : vaincre l’analyse fréquentielle.
Briser les chiffres homophoniques : approches modernes
Algorithmes d'escalade
L’approche moderne la plus efficace pour briser les chiffres homophoniques utilise l’optimisation de l’escalade. L'algorithme fonctionne comme suit :
- Commencez par attribuer aléatoirement des symboles aux lettres.
- Décryptez le texte chiffré à l'aide de cette mission.
- Notez le texte brut résultant à l'aide d'une fonction de fitness (généralement basée sur les statistiques du quadgramme - les fréquences des séquences de quatre lettres en anglais).
- Apportez une petite modification aléatoire à l'affectation (échangez deux mappages de symboles).
- Re-décrypter et re-marquer. Si le score s’améliore, conservez la monnaie ; sinon, annulez-le.
- Répétez des milliers de fois jusqu'à ce que le score converge.
Cette approche a joué un rôle central dans la résolution du chiffre Z340 du Zodiac. Le logiciel AZdecrypt de Jarl Van Eycke utilise une variante sophistiquée de l'escalade optimisée pour les chiffres homophoniques.
Recuit simulé
Le recuit simulé est un raffinement de l'escalade qui accepte parfois des changements qui aggravent le score. Cela aide l'algorithme à échapper aux optima locaux - des solutions sous-optimales dans lesquelles l'escalade se retrouve coincée, car chaque petit changement aggrave le score, même si un saut plus important pourrait trouver une bien meilleure solution.
Approches d'apprentissage automatique
Des recherches récentes ont exploré l'utilisation de réseaux de neurones et d'autres techniques d'apprentissage automatique pour attaquer les chiffres homophoniques. Ces approches s'entraînent sur de grands ensembles de données de paires texte clair-texte chiffré connues et apprennent à reconnaître les signatures statistiques d'un texte correctement décodé. Bien qu’encore expérimental, l’apprentissage automatique s’avère prometteur pour automatiser l’analyse de chiffrements complexes qui résistent aux méthodes traditionnelles.
Questions fréquemment posées
Que signifie « homophonique » ?
Le mot « homophonique » vient du grec « homo » (même) et « téléphone » (son ou voix). En musique, « homophonique » fait référence à une texture dans laquelle plusieurs voix se déplacent au même rythme. En cryptographie, « homophonique » signifie que plusieurs symboles différents peuvent représenter la même lettre – ce sont des « voix » différentes pour le même « son ». Le terme distingue la substitution homophonique de la substitution simple (monophonique), où chaque lettre n'a qu'un seul substitut.
De combien de symboles ai-je besoin pour un chiffre homophonique sécurisé ?
Il n'y a pas de nombre magique, mais à titre indicatif général : 50 symboles offrent une protection modérée contre une analyse occasionnelle, 100 symboles offrent une bonne protection contre une analyse manuelle et plus de 200 symboles se rapprochent de la limite pratique de ce que la substitution homophonique peut atteindre. Au-delà d'un certain point, l'ajout de symboles supplémentaires fournit des rendements décroissants, car l'analyse des bigrammes et des trigrammes devient le vecteur d'attaque dominant, quelle que soit la distribution de fréquence d'un seul symbole.
Le Zodiac Killer a-t-il déjà été identifié ?
En 2026, le Zodiac Killer n'a jamais été officiellement identifié. Divers suspects ont été proposés au fil des décennies, notamment Arthur Leigh Allen, qui a fait l'objet d'une enquête policière lors de l'affaire initiale. En octobre 2021, une équipe appelée « The Case Breakers » a désigné Gary Francis Poste comme suspect, mais les forces de l'ordre n'ont pas confirmé cette identification. L'affaire reste ouverte auprès du FBI et des forces de l'ordre locales.
Un chiffre homophonique peut-il être vraiment incassable ?
Non. Même si la substitution homophonique augmente considérablement la difficulté de la cryptanalyse, elle n’est pas théoriquement incassable. Avec une longueur de texte chiffré suffisante, l’analyse des bigrammes et des trigrammes finira par révéler le modèle de substitution sous-jacent. Le seul chiffre qui s'avère théoriquement incassable est le tampon à usage unique, qui nécessite une clé aussi longue que le message et n'est pas du tout un chiffre de substitution. Cependant, les chiffres homophoniques très courts (comme le Z13 du Zodiac) peuvent être pratiquement incassables simplement parce qu'ils contiennent trop peu de données pour que l'analyse statistique puisse fonctionner.
En quoi un chiffre homophonique est-il différent d'une nomenclature ?
Un nomenclateur est un système hybride qui combine la substitution de lettres homophoniques avec une table de codes pour les mots et les expressions. Dans un chiffrement homophonique pur, chaque caractère du texte en clair est crypté individuellement via la table de substitution. Dans une nomenclature, les mots et expressions courants sont remplacés par des groupes de codes provenant d'un tableau séparé, et seul le texte restant est crypté lettre par lettre. Les nomenclateurs étaient le système de chiffrement diplomatique dominant d'environ 1400 à 1850 et constituent historiquement le contexte le plus courant dans lequel la substitution homophonique est apparue.