Un pirate informatique aurait utilisé Claude, le modèle d’IA développé par Anthropic, pour extraire 150 Go de données confidentielles appartenant à des institutions publiques mexicaines. L’attaque, menée via une simple interface de chat, aurait permis d’accéder à près de 195 millions de dossiers fiscaux et à des registres électoraux. Cette révélation intervient au moment où Anthropic assouplit sa politique de sécurité et subit la pression du Pentagone.
L’affaire risque de marquer un tournant dans la perception des risques liés aux intelligences artificielles génératives. Selon les informations révélées, un hacker serait parvenu à exploiter Claude, le modèle phare développé par Anthropic, pour exfiltrer environ 150 gigaoctets de données sensibles issues de plusieurs institutions gouvernementales mexicaines.
Parmi les informations concernées figureraient 195 millions de dossiers fiscaux, des registres électoraux, des identifiants officiels ainsi que des bases de données issues du registre civil de Mexico et du service des eaux de Monterrey. L’autorité fiscale fédérale et l’Institut électoral national figureraient également parmi les cibles. Des gouvernements d’États fédérés seraient touchés.
Une intrusion par manipulation conversationnelle
La méthode décrite ne repose pas sur une attaque technique sophistiquée, mais sur une stratégie de contournement progressive des garde-fous du modèle. Entre décembre 2025 et janvier 2026, une seule personne aurait entretenu pendant un mois des échanges en espagnol avec l’IA, se présentant comme un testeur de sécurité légitime.
L’objectif : amener progressivement le système à fournir ou à aider à structurer l’accès à des données sensibles. Ce type d’approche, parfois qualifié de « prompt injection » ou d’ingénierie sociale appliquée à l’IA, exploite les limites des mécanismes de filtrage et de contextualisation des modèles de langage.
Si les circonstances exactes de l’accès aux bases gouvernementales restent à clarifier – notamment la question de savoir si l’IA disposait d’un accès direct ou indirect à ces systèmes – l’ampleur des volumes évoqués soulève de sérieuses interrogations sur la sécurisation des flux de données et sur la robustesse des protections intégrées aux modèles.
Un timing explosif
La révélation de cette brèche intervient le 25 février 2026, jour où Anthropic a annoncé l’abandon de sa garantie fondatrice en matière de sécurité. La nouvelle version de sa « Responsible Scaling Policy » ne contraint plus l’entreprise à prouver l’efficacité de ses mesures de protection avant l’entraînement d’un nouveau modèle.
Le même jour, le Pentagon a accentué la pression sur la start-up californienne. Le secrétaire à la Défense, Pete Hegseth, menace de retirer un contrat de 200 millions de dollars si Anthropic ne lève pas certaines restrictions limitant l’usage militaire de Claude, notamment en matière d’armes autonomes et de surveillance.
Fondée en 2020 par d’anciens cadres d’OpenAI, Anthropic s’était construite sur la promesse d’être le laboratoire d’IA le plus responsable du secteur. Cette posture de prudence constituait son principal argument différenciant face à des concurrents engagés dans une course accélérée à la performance.
Une onde de choc internationale
L’incident mexicain, s’il est confirmé dans toutes ses dimensions, pourrait avoir des conséquences diplomatiques et réglementaires importantes. Il pose la question de la responsabilité des fournisseurs d’IA lorsque leurs outils sont utilisés pour faciliter des intrusions ou pour exploiter des failles humaines.
Il interroge également la capacité des États à protéger leurs propres infrastructures numériques face à des technologies conversationnelles capables d’assister des stratégies d’exfiltration de données.
Sources :