Sora, VEO, et maintenant Kling : les modèles Text-to-Video se multiplient et ouvrent de nouvelles perspectives dans la génération de vidéos réalistes. Alors que OpenAI et Google ont déjà fait parler d’eux avec Sora et VEO, l’entreprise chinoise Kuaishou se lance dans la course avec Kling, un modèle capable de produire des vidéos jusqu’à 2 minutes de manière ultra-réaliste.
Kuaishou, connu pour sa plateforme de partage de vidéos courtes, élargit son champ d’action en investissant dans l’IA générative. Kling, en phase d’essai, se distingue par sa capacité à convertir du texte en vidéos haute résolution à 30 images par seconde. Grâce à son infrastructure d’entraînement efficace et ses capacités de modélisation avancées, Kling peut simuler avec précision les propriétés du monde physique.
Ce modèle adopte une architecture de transformer et intègre un mécanisme d’attention 3D pour modéliser des mouvements complexes. La technologie de reconstruction 3D du visage et du corps humain, développée en interne, permet une expression réaliste à partir d’une seule image. Kuaishou a publié des vidéos de démonstration qui témoignent de la performance de Kling.
Avec le potentiel de transformer l’industrie du cinéma, des cinéastes ont déjà fait appel à Sora pour créer des courts métrages novateurs dans le cadre du Tribeca Film Festival. Les modèles Text-to-Video comme Kling ouvrent de nouvelles perspectives créatives et promettent de révolutionner la production audiovisuelle.