OpenAI, Google et maintenant Kuaishou Technology : la course à la génération de vidéos ultra-réalistes s’intensifie. Après Sora et VEO, c’est au tour de Kling de se distinguer, en proposant des clips vidéo allant jusqu’à deux minutes de durée.

Kuaishou Technology, connu pour sa plateforme de partage de vidéos courtes, a récemment lancé Kling, un modèle Text-to-Video révolutionnaire. Cette entreprise chinoise, qui a gagné en popularité grâce à son application Kwai, a fait son entrée dans le monde de l’IA générative avec sa famille de LLM KwaiYii et son modèle texte-image Kolors.

Kling, actuellement en phase d’essai, se distingue par sa capacité à transformer du texte en vidéos de haute qualité, avec une résolution de 1080p et une fréquence de 30 images par seconde. Grâce à une infrastructure d’entraînement efficace et des capacités de modélisation avancées, Kling peut simuler avec précision les mouvements spatio-temporels complexes.

Ce modèle utilise une architecture Transformer et un mécanisme d’attention conjointe spatio-temporelle 3D, offrant ainsi une meilleure compréhension de la sémantique texte-vidéo. De plus, la technologie de reconstruction 3D du visage et du corps humain développée en interne permet des expressions faciales et corporelles réalistes à partir d’une seule image.

Kuaishou a publié des vidéos de démonstration mettant en avant les capacités impressionnantes de Kling sur son site, soulignant son potentiel de transformation de l’industrie cinématographique. En effet, les “Sora Shorts”, une série de courts métrages créés avec l’aide de Sora d’OpenAI, seront projetés lors du prochain Tribeca Film Festival, démontrant ainsi l’impact de ces modèles sur la création cinématographique.