Lors de sa conférence I/O 2025, Google a dévoilé Veo 3, une intelligence artificielle capable de générer automatiquement des vidéos réalistes avec une bande-son intégrée. Cette innovation marque une rupture majeure dans le domaine de la création audiovisuelle assistée, en combinant qualité d’image, son synchronisé et contrôle créatif.
Sommaire
Un bond technologique
Fin janvier 2024, via sa firme Google Research, le géant Google présentait « Lumiere » (en français, en référence aux frères Lumière) son IA générant des vidéos depuis une simple requête textuelle. Ce prototype permettait de transformer du texte en clips vidéo très courts, mais sans son et souvent incohérents.
Mais avec Veo 3, l’IA de Google va plus loin : elle produit à la fois l’image et l’audio (dialogues, ambiances, musiques), en synchronisant parfaitement la voix avec les mouvements des lèvres. Une première à cette échelle. Il est même possible de faire parler des animaux de manière réaliste.
Ce que fait Veo 3 (et que d’autres ne font pas)
Contrairement aux modèles concurrents, comme Sora d’OpenAI, qui à l’heure actuelle génèrent des vidéos sans son, Veo 3 intègre le son nativement. À partir d’un simple texte, il peut générer une scène entière – image, bruitage, dialogue, musique – avec un niveau de cohérence rarement atteint par une IA.
https://twitter.com/medhini_n/status/1924915630656168159
Exemple : tapez “Un renard traverse une forêt enneigée pendant une tempête de neige, style documentaire BBC”, et Veo 3 crée une scène en travelling arrière, avec le bruit des pattes sur la neige, le renard, une lumière rasante… et même une narration type documentaire.
Google s’appuie pour cela sur ses modèles Lyria (audio) et Chirp (voix) et un système de synchronisation labiale pour accorder image et dialogue.
https://twitter.com/jerrod_lew/status/1924934440486371589
Cette avancée marque la fin du « cinéma muet » de l’IA et rapproche la génération automatisée de la production audiovisuelle professionnelle.
Les vidéos produites par Veo 3 sont si réalistes qu’il devient difficile de les distinguer de véritables tournages, comme on a pu le voir avec des vidéos diffusées ces derniers jours. Les internautes et professionnels témoignent de la fluidité des mouvements, de la fidélité à la physique réelle, de la gestion des lumières et de la cohérence des personnages – jusque dans les détails comme des mains à … cinq doigts, traditionnellement problématiques pour les IA.
Voici des exemples de vidéos créées avec l’aide de Veo 3 :
Des fonctions pensées pour les créateurs
Veo 3 ne se contente pas d’automatiser la vidéo. Il permet aux utilisateurs de facilement manipuler l’outil.


Ainsi, il est possible d’indiquer dans le prompt des « commandes cinématographiques » comme le choix de la focale, ou encore le mouvement de camera. L’outil de création proposé par Google permet également de créer des mouvements de caméra.
Pour coller le plus fidèlement au script et à l’ambiance, il est possible de créer des « ingrédients » qui seront utilisés dans la vidéo. Par exemple, un certain type de véhicule, une photo d’un personnage, un détail stylistique, etc.
L’outil permet de créer chaque plan de manière individuelle, mais aussi de concevoir des transitions rapides. Et pour démarrer plus rapidement, il est possible de donner des images à l’outil comme références de plans.
Ces fonctionnalités sont accessibles via deux interfaces chez Google : Flow, une application simplifiée pour les créateurs de contenu ou éducateurs ; ou Vertex AI, pour les professionnels de l’image.


Conscient des risques de deepfakes et de désinformation, Google indique avoir intégré des garde-fous à sa solution, avec un filigrane numérique SynthID pour authentifier chaque vidéo générée ainsi que des filtres pour empêcher la création de contenus illicites ou violant les droits d’auteur.


Prix et disponibilité de Veo 3
Pour l’instant, Veo 3 est disponible en accès limité aux abonnés au forfait Google One AI Premium (199 $ / mois) uniquement aux Etats-Unis.
https://twitter.com/TheoMediaAI/status/1925210469133877286
Pour en savoir plus, rendez-vous sur le site de Google.
Une nouvelle étape franchie
Veo 3 marque une avancée majeure dans la génération vidéo par IA. En associant image et son natif, Google propose un outil qui redéfinit la création audiovisuelle. Ses applications potentielles sont nombreuses : éducation, publicité, prototypage… Mais surtout, la qualité professionnelle des courts extraits générés laisse entrevoir une révolution sans précédent dans l’univers de la vidéo.
Comme pour les images générées par IA, cette technologie risque de bouleverser notre rapport à la réalité. La frontière entre vrai et faux devient de plus en plus floue, rendant la distinction toujours plus difficile à faire.
On peut supposer que Google a largement utilisé les millions de vidéos disponibles sur YouTube pour entraîner son IA, posant une fois de plus la question sensible des droits d’auteur. Un précédent potentiellement inquiétant, même si la plupart des créateurs ont probablement consenti à cet usage en acceptant, souvent sans les lire, les conditions d’utilisation de la plateforme.