Images, vidéo, code : Meta prépare une nouvelle génération d’IA pour défier OpenAI et Google

Illustration


Meta a communiqué en interne sur l’avancée de ses travaux en intelligence artificielle et sur ses orientations technologiques à moyen terme. L'objectif affiché est de gagner en compétitivité sur un marché de plus en plus disputé, en misant sur des modèles d’IA capables de rivaliser avec les solutions les plus avancées du secteur.

Selon le Wall Street Journal, le groupe développe notamment un nouveau modèle baptisé « Mango », spécialisé dans la génération d’images et de vidéos. Son lancement est prévu pour le premier semestre de l’année prochaine.

« Avocado », un LLM axé sur le texte et le codage

En parallèle, Meta travaille sur un nouveau modèle de langage à grande échelle nommé « Avocado ». Orienté vers le traitement du texte, ce programme vise en particulier à renforcer les capacités de codage, un domaine devenu stratégique pour les acteurs de l’IA générative.

Ces projets ont été présentés lors d’une séance de questions-réponses interne, au cours de laquelle Meta a également évoqué ses priorités en matière de restructuration organisationnelle et d’investissements technologiques.

Vers une IA capable de comprendre le monde réel

Au-delà des usages créatifs, Meta explore aussi la conception d’un « modèle qui s'appuie sur le monde ». Cette approche consisterait à permettre à l’IA d’apprendre et de comprendre son environnement à partir d’informations visuelles, telles que des images et des vidéos.

Une ambition qui marque la volonté du groupe d’aller au-delà de la simple génération de contenus, pour développer une intelligence artificielle à usage plus général, capable d’interagir avec le monde réel.

Une concurrence féroce sur l’image et la vidéo

La course à la génération d’images et de vidéos s’intensifie entre les géants de la tech. En septembre dernier, Meta s’est associé à la start-up Midjourney pour lancer son générateur vidéo IA « Vibes ». OpenAI a, de son côté, frappé fort avec « Sora », tandis que Google a élargi rapidement la base d’utilisateurs de Gemini grâce à son outil de génération d’images « Nano Banana ».

« Notre modèle de texte de nouvelle génération vise à améliorer fondamentalement les performances de codage », a déclaré Alexander Wang, directeur de l’IA chez Meta. « Nous explorons également des moyens pour que l’IA apprenne de son environnement grâce à de nouveaux modèles capables de comprendre les images et les vidéos. »



Source : Lire l'article original

Read more