À l’occasion de sa keynote annuelle “Google I/O” la firme de Mountain View a partagé les dernières mises à jour de DeepMind, sa division IA. Les professionnels de la vidéo ont été particulièrement attentifs à VEO, présenté comme le modèle de génération de vidéo le plus avancé de Google.
Images, musique et vidéo, Google injecte de l’IA partout. Objectif : “Rendre l’IA utile pour tout le monde.” Un message clair envoyé à ses concurrents, et plus particulièrement Open AI, qui vient de dévoiler GPT-40, son dernier modèle d’IA générative.
Avec Veo Google compte bien rivaliser avec Sora d'Open AI
L’algorithme de Veo est capable de générer, à partir de textes, d'images et d'invites vidéo, des films de haute qualité à une résolution de 1080p qui peuvent dépasser une minute, dans une grande variété de styles cinématographiques et visuels. “Notre modèle de génération vidéo contribuera à créer des outils qui rendront la production vidéo accessible à tous. Que vous soyez un cinéaste chevronné, un créateur en herbe ou un éducateur cherchant à partager ses connaissances, Veo ouvre de nouvelles possibilités en matière de narration, d'éducation et bien plus encore. “ indique Google DeepMind.
Pour un rendu plus précis, l’outil de création vidéo de Google dispose d’une compréhension profonde du vocabulaire technique cinématographique. “Grâce à une compréhension avancée du langage naturel et de la sémantique visuelle, il peut générer des vidéos qui représentent fidèlement la vision créative de l'utilisateur, en captant avec précision le ton d'une invite et en restituant les détails dans les invites plus longues. Le modèle comprend également les termes cinématographiques tels que "timelapse" ou "plans aériens d'un paysage", offrant un niveau de contrôle créatif sans précédent. Et il crée des séquences cohérentes et homogènes, de sorte que les personnes, les animaux et les objets se déplacent de manière réaliste tout au long des plans.” peut on lire sur le blog de Google.
Sur son blog, Google a indiqué qu’elle prévoyait déjà de porter certaines des fonctionnalités de Veo « à YouTube Shorts et à d’autres produits ».
Comment fonctionne Veo ?
Veo s'appuie sur les travaux préliminaires de Google en matière de génération vidéo tels que Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet et Lumière, ainsi que de l'architecture Transformer et Gemini, propriété de Google.
Une technologie qui lui permet de générer des séquences « cohérentes et homogènes, de sorte que les personnes, les animaux et les objets se déplacent de manière réaliste tout au long des plans ».Autant d’éléments qui rendent l’outil particulièrement compétitif par rapport aux principaux modèles de génération vidéo actuels - non seulement Sora, mais aussi les modèles de startups comme Pika , Runway ou encore Irreverent. Laboratoires .
Afin de faciliter l’identification et limiter les risques de détournement, les vidéos générées par Veo seront traçables grâce à la technologie de filigrane SynthID. Un watermark numérique développé par Deepmind.
Le modèle de génération vidéo sera mis à disposition via VideoFX avant fin 2024. Certains cinéastes et créateurs peuvent d’ores et déjà tester l’outil en avant première. Pour tester les capacités de Veo, Google a collaboré avec le cinéaste Donald Glover et son studio de création, Gilga. Ils ont utilisé Veo pour explorer diverses techniques créatives, notamment les plans de suivi dynamiques, qui nécessitent des mouvements précis et un cadrage cohérent. En résulte une vidéo prometteuse qui dévoile la puissance de l’outil.
Où accéder à Veo ?
Dans les semaines à venir, Google devrait proposer certaines des fonctionnalités de Veo à des créateurs sélectionnés par le biais de VideoFX, un nouvel outil disponible sur labs.google. Cette initiative permet un accès anticipé aux capacités avancées de génération de vidéos de Veo, donnant aux créateurs la possibilité d'expérimenter ses fonctions innovantes. La liste d'attente pour Veo est actuellement ouverte. Cette technologie n’est toutefois pas encore accessible en France.
“Google I/O” 2024 : l’intelligence artificielle est partout
En dehors de Veo, DeepMind a présenté plusieurs mises à jour en matière d'IA générative. Douglas Eck, directeur de recherche chez Google a présenté Imagen 3, le modèle texte-image le plus avancé de la firme américaine à ce jour. Selon Douglas Eck “Imagen 3 excelle dans la création d'images photoréalistes et réalistes. Grâce à sa compréhension profondément des invites en langage naturel, l’outil est en capacité de capturer des détails complexes tout en minimisant les artefacts visuels.” Les visuels générés par imagen3 seront également identifiables grâce à l'intégration de SynthID. Il est d'ores et déjà possible de soumettre quelques prompts à Imagen 3 sur le Google Labs.
Côté musique DeepMind en partenariat avec YouTube a dévoilé Music AI Sandbox une suite d'outils d'IA musicale qui permet de créer des pistes de musique à partir d'une description textuelle, ou de modifier le style d'une mélodie en quelques secondes.