Un mois après la présentation de VEO par Google lors de la conférence Google I/O 2024, l’entreprise chinoise Kuaishou Technology entre dans la course avec son dernier modèle Text-to-Video nommé Kling. Avec la capacité de générer des vidéos de jusqu’à 2 minutes en haute résolution, Kling rivalise avec les modèles précédents tels que Sora d’OpenAI.
Kuaishou est surtout connu pour sa plateforme de partage de vidéos courtes, similaire à TikTok, mais a récemment développé une stratégie d’intelligence artificielle, se concentrant sur l’IA générative. Kling, actuellement en phase d’essai, peut convertir du texte en vidéos réalistes grâce à une architecture de transformer et à des capacités de modélisation avancées.
En améliorant la modélisation des mouvements spatio-temporels complexes et en intégrant une technologie de reconstruction 3D du visage et du corps humain, Kling promet des résultats authentiques et précis. Des vidéos de démonstration sont disponibles sur le site de Kuaishou, montrant la diversité des contenus possibles avec ce modèle révolutionnaire.
Avec des modèles tels que Kling et Sora qui transforment l’industrie cinématographique, il est clair que la technologie Text-to-Video ouvre de nouvelles perspectives créatives. En effet, la projection des “Sora Shorts” au Tribeca Film Festival démontre l’impact et le potentiel de ces innovations sur le monde du cinéma.