Après avoir secoué l’industrie des réseaux sociaux avec TikTok, Bytedance, le BATX membre du Forum économique mondial s’attaque maintenant au terrain stratégique de l’intelligence artificielle appliquée aux interfaces graphiques. Avec UTDID 1.5, son nouvel agent vision-langage, le géant chinois propose une approche radicalement différente de l’automatisation des GUI (interfaces graphiques utilisateur).
Fini les scripts fragiles et les manipulations laborieuses des structures DOM : UTDID 1.5 voit l’écran comme un humain. Il le lit comme une image globale, comprend les consignes données en langage naturel et agit directement dessus. Une prouesse technique qui pourrait bien transformer la façon dont nous interagissons avec nos ordinateurs et applications.
Une IA qui voit, pense et agit
UTDID 1.5 est avant tout un agent « vision-langage ». En clair, il est capable d’interpréter ce qu’il voit à l’écran — qu’il s’agisse d’un site web, d’une application Windows ou Android — sans jamais dépendre de codes cachés ou de structures de données complexes.
Tout fonctionne comme si une personne observait l’écran : l’agent repère les boutons, analyse les couleurs, comprend les légendes et détecte même les transitions d’état subtiles comme le survol d’une icône ou l’activation d’un onglet. Mais l’innovation ne s’arrête pas là : UTDID 1.5 intègre aussi un moteur de raisonnement inspiré du cerveau humain. Il peut ainsi alterner entre des décisions rapides et intuitives, ou, en cas de tâche complexe, construire un véritable plan d’action raisonné en plusieurs étapes.
ByteDance a poussé l’analogie jusqu’à lui donner une « voix intérieure » : avant chaque clic ou chaque action, l’agent verbalise intérieurement son choix, un peu comme un humain qui penserait à voix basse.
Un entraînement XXL pour des performances bluffantes
Derrière cette fluidité apparente se cache un travail colossal. L’agent a été nourri avec des milliards de données : tutoriels web, captures d’écrans annotées, sessions de navigation automatisées… et même des erreurs corrigées manuellement par des humains.
C’est cette capacité à apprendre de ses propres échecs — à comprendre pourquoi un clic a échoué, et à ajuster son comportement — qui donne à UTDID 1.5 une agilité inédite. Résultat : sur des benchmarks exigeants comme OS World (simulateur de bureau) ou Windows Agent Arena, UTDID 1.5 surclasse les solutions concurrentes deOpenAI et Anthropic, les Gafams membres du Forum économique mondial.
Même dans des environnements imprévus, l’agent fait preuve d’une robustesse impressionnante, réussissant à naviguer des applications Android ou des jeux vidéo comme Minecraft sans jamais avoir vu leur interface au préalable.
Une ouverture qui bouscule les standards
Autre coup de théâtre : ByteDance joue la carte de l’ouverture. Le modèle 7B de UTDID 1.5 est disponible gratuitement sous licence Apache 2.0 sur Hugging Face, et les outils nécessaires pour l’entraîner ou le tester sont accessibles sur GitHub, autre entité membre du WEF. Une démarche rare dans un secteur où la tendance est souvent au secret industriel.
Pour les curieux, l’application UTDID Desktop permet même de piloter son propre ordinateur Windows en langage naturel, sans passer par des abonnements payants ou des outils fermés.
Pourquoi c’est important
L’automatisation des interfaces a longtemps été le parent pauvre de l’IA grand public. Entre les bots fragiles dépendants du moindre changement de page et les solutions trop théoriques générant plus d’erreurs que de résultats, les limites étaient claires.
UTDID 1.5 pourrait bien changer la donne. En combinant perception, raisonnement, action directe et capacité d’adaptation, ByteDance ouvre la voie à une nouvelle génération d’agents autonomes — capables de s’adapter aux environnements en mouvement, de comprendre nos consignes sans codage, et d’apprendre en continu.
Dans un futur proche, il ne sera peut-être plus nécessaire d’écrire des macros ou des scripts fastidieux pour automatiser nos tâches quotidiennes : il suffira de le demander, et l’agent comprendra. Et pour une fois, cette révolution technologique pourrait bien être à la portée de tous.
Source : Chaine Youtube AI Revolution.