Décryptage par IA : la fin du mystère des manuscrits chiffrés anciens

Pendant quatre siècles, les historiens se sont cassés les dents sur ce manuscrit. Une intelligence artificielle a réussi à analyser, traduire et expliquer un extrait de 500 symboles en un peu plus de 29 minutes chrono.

Borg Cipher // Source : Bibliothèque apostolique vaticane

Conservé dans les archives de la bibliothèque du Vatican, un manuscrit de 408 pages, connu sous le nom de Borg Cipher (ou codex Borg en français), résistait obstinément aux assauts des historiens et cryptologues depuis quatre siècles. Sa particularité ? Une couverture en arabe et des pages entièrement griffonnées de 34 symboles mystérieux, sans aucune clé de chiffrement connue pour en livrer le sens.

Là où un expert humain passe traditionnellement une journée entière à retranscrire péniblement deux pages de symboles inconnus, la technologie vient de pulvériser le goulot d’étranglement temporel. Un outil basé sur l’intelligence artificielle a réussi l’exploit d’analyser, de traduire et d’expliquer un extrait clé de 500 symboles du manuscrit en un peu plus de 29 minutes. De quoi poser une question fondamentale : comment le machine learning est-il en train de transformer une tâche de décryptage autrefois titanesque en un simple benchmark de performance algorithmique ?

Le cerveau humain a capitulé pendant 4 siècles

Il faut dire que le défi était de taille. Pour protéger son contenu, l’auteur du Borg Cipher a utilisé un chiffrement par substitution simple, où un symbole unique correspond à une lettre de l’alphabet. Une technique classique, mais rendue diaboliquement complexe par l’usure du temps : l’encre effacée, les pages coupées ou mouillées rendaient le travail de retranscription manuel presque impossible.

Dans la cryptographie historique, le temps est l’ennemi juré de l’archiviste. Pour donner un ordre d’idée, la cryptologue française Cécile Pierrot, chercheuse à l’INRIA, a mis près de six mois à décoder une lettre de seulement trois pages écrite par l’empereur Charles Quint.

On estime aujourd’hui que 1 % de l’ensemble des matériaux textuels stockés dans les bibliothèques et les archives mondiales est entièrement ou partiellement chiffré et encore inviolé. Des milliers de documents dorment ainsi dans l’oubli, n’ayant jamais été lus à l’ère moderne, faute de temps.

Comment l’IA a pulvérisé le chrono

Pour casser le Borg Cipher, une équipe internationale de chercheurs travaillant sur le projet multinational Descrypt — comprenant notamment la professeure Beáta Megyesi de l’Université de Stockholm et la professeure Michelle Waldispühl de l’Université de Oslo — a développé une autre approche. Au lieu de procéder de manière séquentielle par essais-erreurs comme un chercheur humain, l’IA s’appuie ici sur la puissance du parallélisme pour attaquer le problème sur plusieurs fronts simultanément.

Beáta Megyesi på Riksarkivet med gamla krypterade texter. — Beáta Megyesi // Source : Ingmarie Andersson – Stockholm University

La véritable prouesse réside dans le traitement en une seule étape. Conçu sous la forme d’un chatbot spécialisé, l’outil n’a requis aucune pré-transcription manuelle de la part des équipes. Le flux de traitement a été entièrement automatisé en un flux unique :

Des algorithmes de reconnaissance d’image ont d’abord analysé les annotations manuscrites et converti les symboles en caractères exploitables. Dans un second temps, le système a ensuite appliqué ses modèles de langage et ses algorithmes de décryptage pour calculer instantanément la fréquence et la distribution des signes.

Pour éviter les dérives bien connues des grands modèles de langage, un garde-fou anti-hallucination strict a été intégré. L’IA ne s’est pas contentée de « deviner » une traduction plausible : elle a documenté l’intégralité de sa démarche mathématique pour prouver la plausibilité de sa solution, éliminant ainsi le risque d’inventer des fonctionnalités ou des contresens historiques.

Le chatbot sur-mesure intègre d’ailleurs un système d’apprentissage continu, capable de s’auto-améliorer en intégrant les corrections ultérieures des experts humains.

Des philtres magiques cryptés pour éviter le bûcher

En brisant le code, les chercheurs ont découvert qu’il était en latin. Même la page de garde qui semblait être de l’arabe était en réalité du latin translittéré affichant : « naturalis observationis illuminati ».

Oui, pas de géopolitique ici, mais un recueil de recettes médicinales avec des prescriptions basées sur l’utilisation de noix de muscade fermentée dans de la pâte ou laisser mourir une taupe dans sa main face au soleil pour soigner les douleurs mammaires.

Des pratiques assez mal vues il y a quelques siècles et qui justifient que ces textes soient cryptés afin de ne pas attirer les soupçons des autorités religieuses et mener tout droit à une accusation de sorcellerie, explique la professeure Beáta Megyesi, spécialiste en linguistique computationnelle à l’Université de Stockholm.

L’IA, le nouvel assistant indispensable des historiens

Comme le souligne Beáta Megyesi, ce travail s’apparente à une « enquête de détective où chaque symbole, motif et solution partielle nous rapproche de secrets enfouis et d’un monde historique perdu ». L’IA agit ici comme un accélérateur de productivité phénoménal, capable de gérer l’échelle, la vitesse et la découverte de patterns à des volumes inaccessibles pour l’homme.

Les symboles figurant sur le disque de Phaistos, vieux de 4 000 ans – découvert dans les vestiges d’un palais minoen en Crète // Source : Getty Images

Avec ce nouveau super assistant, les scientifiques espèrent appliquer ces algorithmes à des écritures anciennes dont on ne connaît même pas encore la langue d’origine, à l’image du célèbre Disque de Phaistos, vieux de 4 000 ans, ou du système d’écriture Linear A, qui continuent d’éluder tout décryptage.

Si vous voulez recevoir les meilleures actus Frandroid sur WhatsApp, rejoignez cette discussion.