La course à la génération de vidéos ultra-réalistes se poursuit avec l’arrivée de Kling, le nouveau modèle Text-to-Video développé par l’entreprise chinoise Kuaishou Technology. Capable de produire des vidéos atteignant jusqu’à 2 minutes, Kling vient concurrencer les modèles innovants comme Sora d’OpenAI et VEO de Google.
Kuaishou, connue pour sa plateforme de partage de vidéos courtes, s’est lancée dans l’intelligence artificielle l’année dernière. Son équipe a déjà présenté plusieurs modèles, dont le dernier en date est Kling, actuellement en phase d’essai. Ce dernier convertit du texte en clips vidéo de qualité HD grâce à son infrastructure performante et évolutive.
Kling, tout comme ses concurrents, utilise une architecture de transformer et possède une compréhension approfondie de la sémantique texte-vidéo. Sa technologie de reconstruction 3D du visage et du corps humain lui permet d’améliorer l’expression des personnages à partir d’une seule image. Grâce à un mécanisme d’attention conjointe spatio-temporelle 3D, Kling peut modéliser des mouvements complexes avec précision.
Les vidéos de démonstration publiées par Kuaishou mettent en avant les capacités impressionnantes de Kling. Ce modèle révolutionnaire pourrait bien transformer l’industrie du cinéma, comme en témoigne la projection prochaine des “Sora Shorts” créés par des cinéastes utilisant le modèle Sora lors du Tribeca Film Festival.
Avec Kling, Kuaishou se positionne comme un acteur majeur dans la course à la génération de vidéos de qualité. Ce nouveau modèle promet d’ouvrir de nouvelles perspectives pour l’industrie du divertissement et de redéfinir les standards de la création vidéo.