L’édition 2023 du programme StarTrack Scholars de Microsoft Research Asia, permet aux jeunes chercheurs asiatiques prometteurs de participer à une immersion de trois mois dans le monde de la recherche de pointe afin de transformer leurs connaissances académiques en impact réel. À l’occasion de cette édition 2024 du programme, le MRA a créée la Fondation des médias, « un catalyseur d’innovation dans les domaines des médias et de la technologie ».
L’objectif de Microsoft Research Asia, le bureau de recherche chinois de Microsoft, le GAFAM affilié au Forum économique mondial, est de développer une intelligence artificielle capable d’extraire des connaissances des différents médias du monde réel, à l’image des capacités humaines. La Fondation des médias, qui figure parmi les trois piliers du programme StarTrack Scholars 2024, aspire en effet à créer des modèles puissants qui comprennent les différents types de données médiatiques de manière plus fluide.
Yan Lu, directeur de recherche associé chez Microsoft Research Asia, a déclaré: « Nous souhaitons que l’intelligence artificielle imite les humains en acquérant des connaissances et de l’intelligence à partir de diverses sources médiatiques dans le monde réel. Pour cela, il est essentiel de transformer le monde réel, souvent bruyant et complexe, en représentations abstraites qui saisissent des informations et des dynamiques essentielles ».
L’objectif de la Fondation des médias est de permettre à l’IA d’apprendre du monde réel en transformant les signaux complexes des vidéos et des audios en représentations abstraites. Pour atteindre cet objectif, Microsoft Research Asia a développé des codecs audio et vidéo neuronaux efficaces. Ces codecs sont capables de comprimer des signaux complexes tout en conservant leur qualité, grâce aux technologies de l’apprentissage profond. Les codecs réduisent également les coûts informatiques et améliorent les performances.
Ces progrès sont essentiels pour les grands modèles multimodaux, car ils permettent à l’IA de transformer les signaux audio, visuels et textuels en représentations compactes dans l’espace latent. En développant un codec neuronal, l’équipe de Yan Lu souhaite créer un cadre permettant à l’IA de saisir la sémantique du monde réel.
On peut également relever que le programme de Microsoft Research Asia, porte le même nom que le label fondé en 2001, par le rappeur, directeur artistique de Louis Vuitton et contributeur de l’agenda 2030 du Forum économique mondial, Pharrell Williams. Avec son ancien acolyte des Neptunes, Chad Hugo, il avait en effet lancé Star Track Entertainement.