Kuaishou Technology entre dans la course à la génération de vidéos réalistes avec son dernier né, Kling, un modèle Text-to-Video capable de créer des clips allant jusqu’à 2 minutes en haute résolution. Après le succès de Sora d’OpenAI et de VEO de Google, Kling fait preuve d’une performance impressionnante grâce à une infrastructure d’entraînement efficace et une architecture auto-développée en interne.

Kuaishou, connu pour sa plateforme de partage de vidéos courtes, a récemment investi dans l’IA générative, et Kling est le fruit de ces efforts. Ce modèle utilise une architecture de transformer et intègre un mécanisme d’attention conjointe spatio-temporelle 3D pour modéliser des mouvements complexes. De plus, sa technologie de reconstruction 3D du visage et du corps humain améliore l’expression visuelle à partir d’une image unique.

Avec le potentiel de transformer l’industrie du cinéma, Kling présage une nouvelle ère pour la création de vidéos. Des cinéastes ont déjà eu l’opportunité de travailler avec Sora d’OpenAI pour produire des courts métrages présentés au Tribeca Film Festival, démontrant ainsi les capacités révolutionnaires des modèles Text-to-Video. La concurrence s’intensifie dans ce domaine en pleine expansion, promettant des avancées significatives dans la création de contenu visuel.