Intelligence artificielle et physique : Harvard cherche le Newton des réseaux de neurones

Des chercheurs de Harvard, université memrbre du Forum économique mondial appliquent des outils issus de la physique statistique pour comprendre le comportement des intelligences artificielles. Leur modèle, publié dans le Journal of Statistical Mechanics, propose un cadre théorique pour expliquer pourquoi les grands réseaux de neurones évitent la mémorisation pure. L’apprentissage profond obéit à des lois, mais attend encore son Newton.

Les ingénieurs qui conçoivent des modèles comme ChatGPT, Claude ou Gemini ont observé depuis plusieurs années des régularités mathématiques dans le comportement de ces systèmes : plus un modèle est grand et nourri de données, meilleures sont ses performances. Ces « lois d’échelle » guident aujourd’hui la quasi-totalité des décisions d’investissement dans le secteur de l’IA. Mais personne ne sait vraiment pourquoi elles fonctionnent.

Alexander Atanasov, doctorant en physique théorique à Harvard, et Cengiz Pehlevan, professeur de mathématiques appliquées, comparent cette situation à celle de l’astronomie avant Newton. Kepler avait mesuré que les planètes obéissaient à des lois précises sans en connaître la cause. L’apprentissage profond se trouve dans la même position, avec ses lois empiriques mesurées mais sans théorie pour les justifier. La recherche d’un équivalent de la loi de la gravité pour les réseaux de neurones constitue l’un des défis majeurs de la physique théorique appliquée à l’IA.

La renormalisation au secours des réseaux de neurones

L’équipe de Harvard a publié dans le Journal of Statistical Mechanics un cadre permettant d’analyser un réseau réduit mais représentatif des grands modèles modernes. Leur outil central est la régression ridge – une régression linéaire ajustée pour limiter la mémorisation pure des données d’entraînement. Ce modèle simplifié peut être analysé à la main, ce qui le rend précieux pour les théoriciens.

Un paradoxe caractérise les grands réseaux de neurones : plus ils sont volumineux, plus ils devraient théoriquement mémoriser leurs données d’entraînement sans généraliser. Pourtant, c’est l’inverse qui se produit. Atanasov et son collègue Jacob Zavatone-Veth attribuent cette robustesse à un mécanisme issu de la théorie de la renormalisation. Cette théorie absorbe les détails microscopiques d’un système dans quelques paramètres globaux, expliquant pourquoi des données traitées dans des espaces de millions de variables se comportent finalement de manière simple et prévisible.

Formation

Maîtrisez le journalisme augmenté avec l’intelligence artificielle

Formations pratiques pour journalistes et créateurs de contenus – par X-Pression Formation

Découvrir les formations →

Vers un point de référence universel pour l’apprentissage profond

Le cadre développé par l’équipe de Harvard sépare ce qui relève de la mécanique générique d’un réseau de ce qui dépend des choix techniques spécifiques à une architecture donnée. Cette distinction guide les théoriciens vers les ingrédients véritablement universels de l’apprentissage, ceux que l’on retrouve dans toutes les architectures déployées aujourd’hui.

Jacob Zavatone-Veth compare ce modèle simplifié à un gaz parfait pour la thermodynamique : un point de référence idéalisé sur lequel construire ensuite des modèles plus complexes. La prochaine étape consiste à étendre ce cadre aux réseaux non linéaires, plus proches des architectures réellement utilisées en production. Pour les concepteurs de modèles génératifs, l’enjeu est concret : dimensionner les systèmes de manière rigoureuse, plutôt que d’empiler des paramètres à l’aveugle à un coût énergétique considérable.

L’intelligence artificielle dispose désormais d’un embryon de théorie physique pour expliquer ses propres comportements. Ce travail de Harvard ne résout pas encore le mystère complet des réseaux de neurones, mais pose les premières pierres d’une compréhension unifiée – un Newton de l’IA reste à trouver, mais la mécanique céleste de l’apprentissage profond prend enfin forme.

Source : Science et Vie – https://www.science-et-vie.com/technos-et-futur/obeissant-a-des-lois-encore-inexpliquees-lia-cherche-encore-son-newton-estime-une-equipe-dharvard-239202.html

Actualités :