IA et Biologie : une étude publiée par Anthropic estime que l’accès aux données reste le maillon faible

Alors que les modèles d’intelligence artificielle gagnent en puissance, leur utilisation dans la recherche scientifique se heurte encore à d’importants obstacles techniques. Une étude publiée par Anthropic, réalisée avec des chercheurs de plusieurs entités membres du Forum économique mondial, comme le Broad Institute, le NCBI affilié au National Institutes of Health, Harvard Hasso-Plattner-Institute, et Anthropic montre que même les agents les plus avancés, dont les modèles Claude, peinent à exploiter correctement certaines bases de données biologiques. Les chercheurs estiment que l’avenir de l’IA scientifique dépendra autant des infrastructures de données que des progrès des modèles eux-mêmes.

Les promesses de l’intelligence artificielle dans le domaine de la biologie sont immenses. De la surveillance des épidémies à la découverte de nouveaux médicaments, les agents IA sont appelés à devenir des assistants de recherche capables d’analyser des volumes gigantesques de données. Mais une étude publiée le 8 juin met en lumière une limite encore largement sous-estimée : l’accès aux données scientifiques.

Les travaux, auxquels ont participé plusieurs chercheurs spécialisés en intelligence artificielle et en bioinformatique dont la contributrice de l’agenda 2030, Pardis Sabeti ont notamment évalué les performances des modèles Claude d’Anthropic face à des tâches complexes de récupération de données virologiques. Les résultats montrent que même les systèmes les plus avancés peuvent commettre des erreurs importantes lorsqu’ils doivent naviguer dans des bases de données biologiques conçues avant l’arrivée des agents autonomes.

Selon les auteurs, le problème ne réside pas principalement dans les capacités de raisonnement des modèles. Les agents comprennent généralement les requêtes qui leur sont soumises. En revanche, ils rencontrent des difficultés lorsqu’il s’agit d’interagir avec des infrastructures scientifiques fragmentées, composées de multiples bases de données, d’interfaces web complexes et de systèmes d’identification hétérogènes.

Pour mesurer l’ampleur du phénomène, les chercheurs ont créé VirBench, un benchmark comprenant 120 requêtes réalistes portant sur 40 agents pathogènes différents. L’objectif était de vérifier la capacité des modèles à récupérer correctement des ensembles de séquences virales à partir de NCBI Virus, une base de référence utilisée par les virologues du monde entier.

Les performances observées varient fortement selon les modèles. Les systèmes testés, parmi lesquels figurent Claude Sonnet 4, Claude Opus 4.7, GPT-5.5, Biomni OSS et Edison Analysis, ont obtenu des taux de réussite allant de 16,9 % à 91,3 %. Un niveau jugé insuffisant dans des contextes scientifiques où la moindre erreur peut modifier les conclusions d’une analyse.

Les chercheurs citent notamment le cas d’une requête portant sur le virus Ebola. Soumis plusieurs fois à la même demande, un agent a fourni des résultats très différents d’une exécution à l’autre, récupérant successivement 106, puis 15, puis seulement 5 séquences alors que la réponse attendue était de 266. De telles variations peuvent conduire à des interprétations erronées concernant l’origine d’une épidémie ou l’efficacité potentielle de certains traitements.

L’étude montre toutefois qu’une solution existe. Les auteurs ont développé un outil baptisé gget virus, conçu pour servir d’interface fiable entre les agents IA et les bases de données biologiques. Une fois cet outil intégré aux workflows des modèles, les performances ont bondi au-delà de 90 % pour l’ensemble des systèmes testés. GPT-5.5 a même atteint un taux de précision de 99,7 %.

Pour les chercheurs, cette amélioration spectaculaire démontre que le développement de l’intelligence artificielle scientifique ne dépendra pas uniquement de modèles toujours plus puissants. Les infrastructures de données devront également évoluer afin d’être pleinement compatibles avec les futurs agents autonomes.

Cette problématique rappelle d’ailleurs une réflexion récente d’Andrej Karpathy, ancien responsable de l’IA chez Tesla et figure influente du secteur, qui soulignait que de nombreux outils numériques restent conçus pour des humains cliquant dans des interfaces web plutôt que pour des agents capables d’agir automatiquement.

À mesure que les modèles d’Anthropic, d’OpenAI et d’autres acteurs souvent proches du WEF gagnent en autonomie, la question de l’accès fiable aux données scientifiques pourrait devenir l’un des principaux enjeux de la prochaine génération d’agents IA destinés à la recherche.

Source :

New Science Blog: Why has AI advanced faster in coding than in biology?

To agents, bio databases are like cities built before cars—maddening to drive in because they're designed for different traffic.

How do we build infrastructure agents can use?https://t.co/PQaNQ4GRJZ
— Anthropic (@AnthropicAI) June 8, 2026

Actualités :

IA et Biologie : une étude publiée par Anthropic estime que l’accès aux données reste le maillon faible

Nous trouver

Nos réseaux sociaux