Un nouveau modèle de génération de vidéos, Kling, développé par l’entreprise chinoise Kuaishou Technology, vient concurrencer les modèles Sora d’OpenAI et VEO de Google. Ces modèles de Text-to-Video sont capables de générer des vidéos réalistes jusqu’à une durée de 2 minutes, ce qui représente une avancée significative par rapport aux versions précédentes limitées à quelques secondes.

Kuaishou, célèbre pour sa plateforme de partage de vidéos courtes, a lancé Kling après avoir présenté sa famille de LLM KwaiYii en 2023 et son modèle texte-image Kolors. Kling utilise une architecture de transformer et une stratégie d’entraînement à résolution variable pour prendre en charge divers formats d’image, simulant avec précision les propriétés du monde physique grâce à une architecture auto-développée en interne.

Ce modèle intègre un mécanisme d’attention conjointe spatio-temporelle 3D pour modéliser des mouvements complexes, ainsi qu’une technologie de reconstruction 3D du visage et du corps humain pour améliorer l’expression à partir d’une seule image. Kuaishou a publié des vidéos de démonstration de Kling sur son site, montrant les capacités impressionnantes de ce nouvel outil.

Des modèles comme Kling pourraient révolutionner l’industrie du cinéma, comme en témoignent les “Sora Shorts” projetés prochainement au Tribeca Film Festival, réalisés par des cinéastes ayant utilisé le modèle Sora d’OpenAI. Cette avancée technologique ouvre de nouvelles perspectives dans le domaine de la création vidéo et promet de nouvelles expériences visuelles pour les spectateurs du monde entier.