Google vient d'annoncer plusieurs innovations majeures dans le domaine de la génération de contenu visuel par IA, avec le lancement de Veo 2 et d'Imagen 3 et l'introduction de l'outil Whisk. Ces nouveautés démontrent la volonté de Google de repousser les limites de l'intelligence artificielle et de rivaliser avec les avancées d'OpenAI.

Veo 2 : la génération vidéo 4K par IA

Veo 2, le nouveau modèle de génération vidéo de Google, constitue une avancée significative par rapport à son prédécesseur et aux modèles concurrents comme Sora d'OpenAI. Veo 2 est capable de produire des vidéos en résolution 4K sur plusieurs minutes, alors que Sora se limite à des clips de 20 secondes en 1080p.

Les caractéristiques clés de Veo 2

La compréhension des lois physiques du monde réel : Veo 2 excelle dans la reproduction des mouvements et expressions humaines.
La personnalisation des prompts : les utilisateurs peuvent spécifier des éléments tels que le genre cinématographique, l'objectif utilisé, les effets de mise en scène, et des angles spécifiques comme les plans rapprochés ou les travellings en contre-plongée.
La réduction des anomalies visuelles : Veo 2 est conçu pour minimiser les erreurs visuelles, telles que l'apparition de doigts supplémentaires ou d'objets inattendus.
Le filigrane SynthID : les contenus générés par Veo 2 sont marqués d'un filigrane invisible pour garantir leur authenticité.

Veo 2 est actuellement disponible via VideoFX dans Google Labs et sera prochainement intégré dans YouTube Shorts et d'autres produits de Google en 2025.

Imagen 3 : la nouvelle version du générateur d'images

Parallèlement au lancement de Veo 2, Google a présenté Imagen 3, une version améliorée de son modèle de génération d'images.

Imagen 3 offre plusieurs avancées notables :

Des images plus lumineuses et mieux composées : les images générées par Imagen 3 présentent une meilleure luminosité, une composition améliorée et des détails plus riches.
Une variété de styles artistiques : Imagen 3 prend en charge une grande variété de styles, incluant l'abstrait, l'animé, le photoréalisme et l'impressionnisme, avec une précision accrue.
Un déploiement mondial : Imagen 3 est déjà largement déployé via ImageFX dans plus de 100 pays, bien que son accès en France nécessite l'utilisation d'un VPN.

Whisk : la fusion d'images par IA

Whisk, la nouvelle expérience de Google Labs, permet aux utilisateurs de combiner plusieurs images pour créer des visuels uniques.

Voici comment Whisk fonctionne :

La combinaison de sujets, scènes et styles : les utilisateurs peuvent soumettre des images représentant le sujet, la scène et le style, et les remixer pour créer quelque chose de nouveau. Par exemple, ils pourraient combiner une image d'un paysage montagneux, une image d'un personnage fantastique, et un style artistique spécifique pour créer une scène unique et cohérente.
L'utilisation d'Imagen 3 et de Gemini : Whisk combine les capacités d'Imagen 3 avec la compréhension visuelle de Gemini. Le modèle Gemini génère des légendes détaillées des images, qui sont ensuite utilisées par Imagen 3 pour créer des images fusionnées.

Whisk est actuellement disponible aux États-Unis via Google Labs.

L'impact sur l'industrie créative

Les lancements de Veo 2, Imagen 3 et Whisk marquent une avancée significative dans le domaine de la création de contenu visuel. Ces outils offrent une flexibilité et un potentiel créatif sans précédent, pouvant transformer la manière dont les créateurs travaillent et imaginent leurs projets.

Diverses applications : ces technologies peuvent être utilisées dans divers secteurs, de la publicité au cinéma, en passant par le design graphique et les médias sociaux.
Entre sécurité et authenticité : Google met l'accent sur la sécurité et le marquage des contenus générés, garantissant leur authenticité et réduisant les risques d'utilisation abusive.

En conclusion, les innovations de Google avec Veo 2, Imagen 3 et Whisk démontrent une volonté claire de repousser les limites de l'IA et de fournir aux utilisateurs des outils puissants et flexibles pour exprimer leur créativité. Ces avancées promettent de transformer profondément l'industrie créative dans les années à venir.

Image générée par IA.