La course à la génération de vidéos ultra-réalistes continue de plus belle avec l’arrivée sur le marché de Kling, le dernier né de l’entreprise chinoise Kuaishou Technology. Après OpenAI et Google, c’est au tour de Kuaishou de proposer un modèle Text-to-Video révolutionnaire capable de produire des vidéos allant jusqu’à 2 minutes, surpassant ainsi ses concurrents directs.
Kuaishou, connu pour sa plateforme de partage de vidéos courtes, a présenté Kling, un modèle qui permet de transformer du texte en clips vidéo de qualité exceptionnelle en seulement quelques minutes. Grâce à une infrastructure d’entraînement efficace et une architecture de transformer, Kling peut créer des vidéos réalistes avec une résolution de 1080p et une fréquence de 30 images par seconde.
Grâce à une compréhension approfondie de la sémantique texte-vidéo et à une architecture auto-développée en interne, Kling est capable de simuler avec précision les propriétés du monde physique, offrant ainsi une expérience visuelle immersive aux spectateurs. De plus, la technologie de reconstruction 3D du visage et du corps humain améliore la qualité des expressions faciales et des mouvements du corps, à partir d’une simple image.
Grâce à des modèles comme Kling, l’industrie du cinéma est en train de changer radicalement. En témoigne la projection prochaine des “Sora Shorts”, une série de courts métrages créés avec l’aide de Sora, lors du Tribeca Film Festival par cinq cinéastes ayant eu un accès anticipé au modèle d’OpenAI. La technologie Text-to-Video promet donc d’ouvrir de nouvelles perspectives pour la création de contenu vidéo hautement réaliste et immersif.