Un nouveau concurrent de taille vient s’ajouter à la bataille des modèles Text-to-Video : Kling, développé par l’entreprise chinoise Kuaishou Technology. Ce modèle révolutionnaire est capable de générer des vidéos ultra-réalistes d’une durée allant jusqu’à 2 minutes, dépassant ainsi les performances de Sora et de VEO, dévoilé par Google lors de la conférence Google I/O 2024.

Kuaishou est déjà bien connu pour sa plateforme de partage de vidéos courtes, rivalisant avec TikTok en Chine et à l’international sous le nom de Kwai. L’entreprise a récemment investi dans l’intelligence artificielle, notamment dans le domaine de l’IA générative, avec des modèles comme KwaiYii et Kolors.

Kling se distingue par son infrastructure d’entraînement efficace et son architecture transformateur. Grâce à une compréhension approfondie de la sémantique texte-vidéo, il peut simuler avec précision les propriétés du monde physique et modéliser des mouvements spatio-temporels complexes. De plus, sa technologie de reconstruction 3D du visage et du corps humain le rend encore plus réaliste.

La démonstration de Kling sur le site de Kuaishou ainsi que la diffusion des “Sora Shorts” au Tribeca Film Festival montrent que ces modèles ont un fort potentiel pour révolutionner l’industrie du cinéma. Reste à voir comment ces avancées technologiques seront utilisées et quel impact elles auront sur notre manière de créer et de consommer des contenus vidéo à l’avenir.