Les avancées récentes dans le domaine de l’intelligence artificielle ont permis le développement de modèles révolutionnaires capables de générer des vidéos ultra-réalistes à partir de simples textes. Après Sora d’OpenAI et VEO de Google, c’est au tour de Kling, créé par Kuaishou Technology, de venir concurrencer ces géants.
Kuaishou, connu pour sa plateforme de partage de vidéos courtes, s’est lancé dans le développement de modèles d’IA ces dernières années. Kling, actuellement en phase d’essai, a la particularité de pouvoir transformer du texte en vidéos d’une durée maximale de 2 minutes, avec une résolution de 1080p et une fréquence de 30 images par seconde.
Grâce à une architecture de transformer et à une compréhension avancée de la sémantique texte-vidéo, Kling est capable de simuler avec précision les propriétés du monde physique. Son mécanisme d’attention conjointe spatio-temporelle 3D lui permet de modéliser des mouvements complexes, tandis que sa technologie de reconstruction 3D du visage et du corps humain améliore l’expression des personnages.
Des vidéos de démonstration publiées par Kuaishou montrent le potentiel de Kling dans divers scénarios, allant du paysage aux présentations plus élaborées. Ces modèles pourraient bien révolutionner l’industrie du cinéma, comme en témoigne la projection prochaine des “Sora Shorts”, créés avec l’aide de Sora par des cinéastes lors du Tribeca Film Festival.