Les avancées technologiques dans le domaine de la génération automatique de vidéos ne cessent d’évoluer. Après la récente annonce de Google sur son modèle VEO permettant de produire des vidéos d’une durée supérieure à une minute, c’est au tour de Kling, développé par l’entreprise chinoise Kuaishou Technology, de faire parler de lui.

Kuaishou, connu pour sa plateforme de partage de vidéos courtes, s’est lancé dans le développement de l’IA générative. En août 2023, son équipe présentait la famille de LLM KwaiYii et récemment le modèle texte-image Kolors. Aujourd’hui, Kling, en phase d’essai, se démarque en générant des vidéos pouvant atteindre 2 minutes, avec une qualité de 1080p et 30 images par seconde.

Grâce à une architecture de transformer, Kling dispose d’une compréhension avancée de la sémantique texte-vidéo et peut simuler avec précision les propriétés du monde physique. Son mécanisme d’attention conjointe spatio-temporelle 3D lui permet de modéliser des mouvements complexes, tandis que la technologie de reconstruction 3D du visage et du corps humain améliore l’expression des personnages.

Kuaishou a publié des vidéos de démonstration montrant les capacités impressionnantes de Kling. Ces avancées ouvrent de nouvelles perspectives dans l’industrie du cinéma, avec la présentation prochaine des “Sora Shorts” au Tribeca Film Festival, créés en collaboration avec le modèle d’OpenAI. Les modèles comme Kling pourraient révolutionner la création audiovisuelle et ouvrir de nouveaux horizons créatifs.