OpenAI, Google et la société chinoise Kuaishou Technology ont révolutionné le paysage de la génération de vidéos grâce à leurs modèles Text-to-Video de pointe. En février dernier, OpenAI a lancé Sora, qui produisait des vidéos réalistes d’une minute, surpassant ainsi ses prédécesseurs. Google a ensuite présenté VEO à la conférence Google I/O 2024, étendant la durée des vidéos générées à plus d’une minute. L’entreprise chinoise Kuaishou Technology vient maintenant défier ces modèles avec Kling, capable de générer des vidéos de deux minutes en résolution 1080p à 30 images par seconde.
Kuaishou est déjà bien connu pour sa plateforme de partage de vidéos courtes, devenue populaire en Chine et à l’international. L’entreprise a récemment investi dans l’IA générative, présentant sa famille de modèles KwaiYii et son dernier né, Kling. Ce dernier utilise une architecture transformer et une compréhension fine de la sémantique texte-vidéo pour simuler des mouvements complexes et des propriétés physiques avec précision.
Grâce à une technologie de reconstruction 3D du visage et du corps humain, Kling peut produire des vidéos de haute qualité à partir d’une simple image. Des vidéos de démonstration ont été publiées, montrant la qualité et la variété des contenus que le modèle est capable de produire. Ces avancées pourraient potentiellement transformer l’industrie cinématographique, comme en témoigne la présentation prochaine des “Sora Shorts” au Tribeca Film Festival.