Un vent de renouveau souffle sur l’industrie de la génération de vidéos grâce aux avancées technologiques récentes. En février dernier, OpenAI présentait Sora, un modèle Text-to-Video capable de produire des vidéos réalistes allant jusqu’à une minute. Par la suite, Google a dévoilé VEO, une version améliorée permettant des vidéos dépassant cette durée. Cependant, l’entreprise chinoise Kuaishou Technology entre dans la course avec Kling, un modèle capable de générer des vidéos allant jusqu’à 2 minutes.

Kuaishou est bien connue pour sa plateforme de vidéos courtes, devenant le deuxième réseau social le plus populaire en Chine. L’entreprise a récemment investi dans l’IA générative, présentant des modèles novateurs tels que Kling. Ce dernier, encore en phase d’essai, promet des vidéos de haute qualité en 1080p à 30 images par seconde, grâce à une infrastructure d’entraînement efficace et une compréhension profonde de la sémantique texte-vidéo.

Kling utilise une architecture transformer et une stratégie d’entraînement à résolution variable pour garantir une simulation précise du monde physique. Un mécanisme d’attention spatio-temporelle 3D lui permet de capturer des mouvements complexes, tandis qu’une technologie de reconstruction 3D améliore l’expression des visages et des corps à partir d’une seule image.

Les vidéos de démonstration publiées par Kuaishou soulignent les capacités impressionnantes de Kling, ouvrant de nouvelles perspectives pour l’industrie cinématographique. Le développement de modèles comme Kling a le potentiel de révolutionner la façon dont les contenus vidéo sont produits et consommés, ouvrant de nouvelles opportunités pour les créateurs et les spectateurs du monde entier.