Google Veo : l'IA au service de la production vidéo

Annoncé à la conférence I/O 2024, Google VEO est le dernier-né de la firme de Mountain View : un outil de génération de vidéo par l’IA aux qualités susceptibles de concurrencer Sora, lancée par le rival OpenAI en février dernier. Découvrons ensemble les atouts de cette belle innovation et de ses futurs usages.

Google VEO, la star de la conférence Google I/O 2024

Lors de la conférence d’ouverture de la Google I/O 2024, le terme d’« IA » a été prononcé 120 fois ! Nul ne pouvait alors douter que l’Intelligence Artificielle était bien au cœur des innovations de la firme, à l’image de Google VEO, capable de fabriquer des vidéos à partir de textes et d’images.

Le 15 février 2024, OpenAI lançait Sora, un modèle text-to-vidéo aux résultats tellement bluffants qu’il a fait immédiatement sensation. Dès lors, Google devait réagir et riposter au plus vite, avec un outil de génération de vidéos par l’IA encore plus abouti. Le 14 mai aux États-Unis, Demis Hassabis, un des créateurs de DeepMind, filiale de Google spécialisée dans l’IA, présentait tous les atouts de Google VEO…

Un modèle de génération de vidéo par l’IA ultra-performant

Google VEO est un modèle de génération de vidéos par l’IA à partir de « prompt », à savoir une instruction écrite de l’internaute. Grâce à sa compréhension avancée du langage naturel et de la sémantique visuelle, il génère des vidéos représentant fidèlement la vision créative de l’utilisateur.

Bien sûr, si la requête écrite est complétée par des images et des vidéos, la vidéo finale devient encore meilleure et réaliste – notamment lors des déplacements de personnes, d’animaux ou d’objets.

Google VEO est également en mesure de comprendre les termes cinématographiques comme « plans aériens d’un paysage » ou « timelapse » – ce qui permet de créer des séquences cohérentes et homogènes.

Ce modèle de génération de vidéos par l’IA bénéficie aussi des années de travail en vidéos génératives, autour des lois de mise à l’échelle, de l’architecture et autres techniques innovantes issues des modèles précédents (Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet et Lumiere).

Google VEO, des vidéos de qualité HD de plus d’une minute

Avec Google VEO, la vidéo de sortie est d’une belle qualité HD (Haute Définition) de 1080px. Et, contrairement à son rival Sora, elle peut dépasser la minute ! Sans compter que ce modèle de génération de vidéo par l’IA devrait rapidement pouvoir prolonger cette durée : une précision annoncée par Demis Hassabis lors du Google I/O, même si les détails restent flous…

Notez que toutes les vidéos générées par Google VEO seront marquées pour bien signifier à l’internaute que les images visualisées ne sont pas réelles. L’identification se fait grâce à un système de watermarking, développé par la filiale Deepmind qui, selon elle, est absolument impossible à retirer.

Le déploiement de ce modèle de génération de vidéo par l’IA

Dans un premier temps, Google VEO sera uniquement accessible à quelques cinéastes et créateurs qui devront s’inscrire sur une liste dans VideoFX, section « AI Test Kitchen ». Au-delà de cette avant-première privée, l’outil devrait s’ouvrir à tous les studios de cinéma…

Mais le communiqué de presse sur ce modèle de génération de vidéo par l’IA laisse entrevoir les contours d’un autre usage, qui le rend encore différent de son concurrent Sora : « à l’avenir, nous intégrerons également certaines des fonctionnalités de VEO à YouTube Shorts et à d’autres produits ». Une phrase qui suggère que les créateurs de contenu utilisant des avatars virtuels ou des vidéastes désireux d’illustrer leurs Shorts pourraient y recourir et automatiser leur processus créatif…

S’il reste des défis techniques pour cet usage, afin de le rendre suffisamment performant, Google VEO entre-ouvre ici une porte, jusqu’ici demeurée fermée…