Kuaishou Technology, une entreprise chinoise bien connue pour sa plateforme de partage de vidéos courtes, a récemment dévoilé un modèle nommé Kling, capable de générer des vidéos de jusqu’à 2 minutes à partir de texte. Ce nouvel outil entre en concurrence avec des modèles similaires comme Sora d’OpenAI et VEO de Google, en offrant une résolution de 1080p à 30 images par seconde.
Kling, actuellement en phase d’essai, utilise une architecture de transformer et intègre une compréhension approfondie de la sémantique texte-vidéo. Grâce à des mécanismes sophistiqués d’attention et de modélisation inspirés des lois physiques du monde réel, il peut générer des vidéos très réalistes et complexes. De plus, une technologie de reconstruction 3D du visage et du corps humain permet d’améliorer l’expression des personnages à partir d’une seule image.
À l’heure actuelle, Kuaishou a publié une série de vidéos de démonstration mettant en valeur les capacités de Kling, qui pourraient révolutionner l’industrie cinématographique. Des projets comme les “Sora Shorts”, créés avec l’aide de Sora par des cinéastes lors du Tribeca Film Festival, illustrent le potentiel des modèles Text-to-Video pour transformer la manière dont les contenus visuels sont créés et consommés.