Meta présente son nouvel outil d’intelligence artificielle révolutionnaire
Meta vient de dévoiler son dernier modèle d’intelligence artificielle V-JEPA 2, capable de comprendre et d’anticiper les actions dans le monde physique. Cette avancée devrait permettre aux robots d’accomplir des tâches dans de nouveaux environnements et même de créer des technologies d’assistance.
La plupart des modèles d’intelligence artificielle actuels ont une lacune majeure en ce qui concerne la compréhension du monde physique et de ses lois. Cette lacune est particulièrement visible dans les générateurs de vidéos, tels que Sora d’OpenAI ou Veo 3 de Google. Malgré les améliorations constantes, les mouvements générés par ces modèles sont souvent peu naturels, trahissant la nature de la vidéo.
Meta, sous la direction de Yann LeCun, a récemment publié son nouveau modèle nommé V-JEPA 2 pour résoudre ce problème. Il s’agit d’un « world model » ou modèle de monde, capable non seulement de comprendre visuellement une scène, mais aussi de prédire les événements à venir. Par exemple, il peut anticiper le rebond d’une balle qui heurte un obstacle, plutôt que de continuer sa trajectoire.
Des robots et des assistants intelligents qui comprennent le monde physique
Comme tout modèle d’intelligence artificielle, V-JEPA 2 nécessite une énorme quantité de données pour son pré-entraînement, comprenant plus d’un million d’heures de vidéo et un million d’images. Cela lui fournit les bases nécessaires. Ensuite, seulement 62 heures de données provenant de robots sont nécessaires pour lui permettre d’anticiper de nouvelles situations, incluant des vidéos enregistrées lors de l’exécution de tâches et des informations sur les commandes utilisées.
Le résultat est un modèle permettant à un robot d’accomplir des tâches dans un environnement inconnu, en comprenant son environnement et en anticipant les événements à venir. Ce type de modèle sera essentiel pour permettre aux robots humanoïdes, par exemple, d’effectuer des tâches ménagères. Intégré dans des accessoires, il pourrait également servir d’assistant pour prévenir les cyclistes des dangers sur la route ou aider les personnes malvoyantes dans des environnements inconnus. V-JEPA 2 est distribué sous licence libre (MIT) et peut être téléchargé depuis GitHub et Hugging Face.