Kuaishou Technology, entreprise chinoise connue pour sa plateforme de partage de vidéos courtes, vient de dévoiler son modèle Kling, un concurrent sérieux pour les modèles Text-to-Video déjà existants sur le marché. Capable de générer des vidéos allant jusqu’à 2 minutes avec une résolution de 1080p et une fréquence de 30 images par seconde, Kling utilise une architecture de transformer et une compréhension approfondie de la sémantique texte-vidéo.

Grâce à une technologie de reconstruction 3D du visage et du corps humain (3D VAE), Kling peut améliorer l’expression des visages et du corps à partir d’une seule image. La publication de démonstrations sur le site de Kuaishou montre la capacité de Kling à simuler précisément les propriétés du monde physique, grâce à une architecture interne et des capacités de modélisation inspirées de la loi de mise à l’échelle physique du monde réel.

Ce modèle de génération de vidéos révolutionnaire pourrait transformer l’industrie du cinéma, comme en témoigne la projection des “Sora Shorts” au Tribeca Film Festival par cinq cinéastes ayant eu un accès anticipé au modèle d’OpenAI. Avec Kling sur le marché, la concurrence dans le domaine de la génération vidéo automatique s’intensifie, offrant des possibilités innovantes pour la création de contenu visuel de haute qualité.