OpenAI et Google ont récemment dévoilé des avancées significatives dans le domaine de la génération vidéo grâce à leurs modèles Text-to-Video, Sora et VEO. Cependant, un nouvel acteur vient perturber cet équilibre avec Kling, développé par Kuaishou Technology, une entreprise chinoise réputée pour sa plateforme de partage de vidéos courtes, Kwai.
Kling se démarque par sa capacité à créer des vidéos allant jusqu’à 2 minutes, surpassant ainsi la concurrence avec une résolution de 1080p et une fréquence de 30 images par seconde. Grâce à une architecture de transformateur et une compréhension profonde de la sémantique texte-vidéo, Kling peut simuler de manière précise les propriétés du monde physique, grâce à une technologie de modélisation inspirée des lois de mise à l’échelle physique du monde réel.
Le modèle bénéficie également d’un mécanisme d’attention conjointe spatio-temporelle 3D, lui permettant de modéliser efficacement des mouvements complexes. De plus, la technologie de reconstruction 3D du visage et du corps humain développée en interne améliore l’expression des personnages à partir d’une seule image.
Kuaishou a déjà publié des vidéos de démonstration mettant en avant les capacités impressionnantes de Kling, démontrant son potentiel à révolutionner l’industrie du cinéma. En effet, les “Sora Shorts”, une série de courts métrages créés avec l’aide de Sora, seront projetés lors du prochain Tribeca Film Festival par cinq cinéastes ayant eu un accès anticipé au modèle d’OpenAI.
Avec Kling, Kuaishou souhaite se positionner comme un acteur majeur dans le domaine de la génération vidéo, offrant aux utilisateurs une expérience immersive et réaliste. Ce nouveau modèle promet de redéfinir les normes de la création et de la diffusion de contenu vidéo, ouvrant de nouvelles perspectives dans le monde de l’art numérique et de la narration visuelle.