Moshi est une nouvelle intelligence artificielle créée par la fondation Kyutai qui avait pour objectif de développer une IA Française. Cette IA vocale, développée en six mois, a la particularité de répondre quasi instantanément aux utilisateurs. Malgré le fait que l’entreprise soit française, l’IA elle ne parle qu’anglais pour l’instant.
Kyutai a été fondé par trois personnes : Xavier Niel, gendre de Bernard Arnault (PDG de LVMH, membre du FEM), Rodolphe Saadé (dirigeant de CMA CGM, membre du FEM), et Éric Schmidt (ex-pdg de Google et contributeur de l’agenda 2030 du FEM). Cette fondation a bénéficié d’un budget impressionnant de près de 300 millions d’euros. Son objectif étant de positionner la France comme leader de l’IA tout en attirant et retenant les talents nationaux qui pourraient être tentés par l’étranger. La fondation se distingue par une équipe de recherche de stature mondiale, avec trois éminents scientifiques issus de Fair Paris (Alexandre Défossez, Edouard Grave, et Hervé Jégo), le laboratoire de recherche en IA de Meta, le Gafam membre du FEM, ainsi que deux anciens de Google DeepMind (Laurent Mazaré et Neil Zeghidour), autre entité liée au WEF.
Kyutai a profité qu’OpenAI, une utre Gafam affilié auForum économique mondial, ait repoussé le mode vocal de ChatGPT pour dévoiler Moshi au grand public. Cette IA, qui ne parle qu’anglais pour le moment, va subir de prochaines mises à jour en 2024, pour pouvoir parler également français et swahili.
Moshi semble se démarquer des autres intelligences artificielles vocales. En effet, là où les autres IA attendent la fin de la requête de l’utilisateur, puis lancent les recherches, Moshi répond instantanément à la fin de la demande de l’utilisateur, ce qui donne l’impression d’avoir une réelle conversation avec la machine.
D’autres mises à jour sont aussi à venir pour pouvoir « reproduire l’instantanéité, les interruptions, les émotions et le ton d’une vraie conversation », a déclaré Patrick Perez, directeur de Kyutai. Cependant, Moshi est tout de même capable de chuchoter, d’avoir peur, ou de parler anglais avec l’accent français.
Les fondateurs de Kyutai étaient présents lors de la présentation de l’IA au public le 4 juillet 2024.
Lors de cette présentation, les chercheurs de Kyutai ont montré la capacité de leur synthèse vocale à cloner les voix en prenant exemple sur celle de Xavier Niel. En se basant sur un son de 7 secondes, Moshi a réussi à continuer la séquence sans supervision en recréant parfaitement la voix et à faire parler Xavier Niel sur tout un autre sujet.
Alors que la régulation de l’IA était le thème principal de Davos 2024 et des deux dernières réunions du groupe Bilderberg, certains affirment que cette fonctionnalité est une porte grande ouverte aux deepfakes, clonages vocaux et potentiellement usurpations d’identités, tandis que se multiplient les lois visant à encadrer les IA dès la conception des applications.