Kuaishou Technology, entreprise chinoise derrière la populaire application de partage de vidéos, Kwai, fait son entrée dans le domaine de la génération de vidéos grâce à son dernier modèle, Kling. Ce nouveau concurrent se veut plus performant que Sora d’OpenAI et VEO de Google, en produisant des clips vidéo réalistes d’une durée maximale de 2 minutes, avec une résolution de 1080p et une fréquence de 30 images par seconde.
Kling, actuellement en phase d’essai, se distingue par son architecture de transformer, sa compréhension approfondie de la sémantique texte-vidéo, et sa capacité à modéliser des mouvements spatio-temporels complexes. Le modèle intègre notamment un mécanisme d’attention conjointe spatio-temporelle 3D et une technologie de reconstruction 3D du visage et du corps humain, qui améliorent la qualité et l’expressivité des vidéos générées.
Kuaishou a publié des démonstrations de Kling sur son site, mettant en avant ses performances impressionnantes dans la simulation des propriétés du monde physique. Ces avancées technologiques pourraient potentiellement révolutionner l’industrie du cinéma, comme en témoigne la projection prochaine des “Sora Shorts” au Tribeca Film Festival, des courts métrages créés avec l’aide de Sora d’OpenAI. Les possibilités offertes par ces nouveaux modèles ouvrent de nouvelles perspectives créatives et artistiques pour les cinéastes et les créateurs de contenu vidéo.