Le domaine de la génération vidéo par des modèles d’IA connaît des avancées majeures avec l’apparition de nouveaux acteurs sur le marché. Après Sora d’OpenAI et VEO de Google, c’est au tour de Kling, développé par Kuaishou Technology, de faire parler de lui. Ce modèle Text-to-Video est capable de créer des vidéos réalistes d’une durée pouvant aller jusqu’à 2 minutes, surpassant ainsi ses concurrents.

Kuaishou est une entreprise chinoise connue pour sa plateforme de partage de vidéos courtes, actuellement le deuxième réseau social le plus populaire en Chine après TikTok. Fort de son expérience dans le domaine des contenus vidéo, Kuaishou s’est lancé dans le développement de l’IA et a récemment présenté Kling, un modèle innovant et performant.

Kling utilise une architecture de transformer et une stratégie d’entraînement à résolution variable pour produire des vidéos de haute qualité en texte-vidéo. Il intègre un mécanisme d’attention conjointe spatio-temporelle 3D et une technologie de reconstruction 3D du visage et du corps humain, lui permettant de modéliser des mouvements complexes avec précision.

L’entreprise a déjà publié des démonstrations de la performance de Kling, suscitant un grand intérêt dans l’industrie cinématographique. Des cinéastes ont même eu accès à Sora d’OpenAI pour créer une série de courts métrages projetés lors du prochain Tribeca Film Festival. Ces modèles d’IA révolutionnaires pourraient bien bouleverser l’industrie du cinéma dans les années à venir.