Kuaishou Technology, une entreprise chinoise, a fait sensation en lançant son nouveau modèle Text-to-Video appelé Kling. Ce concurrent direct de Sora d’OpenAI et de VEO de Google peut générer des vidéos allant jusqu’à 2 minutes, dépassant ainsi les capacités de ses prédécesseurs. Kuaishou est déjà connu pour sa plateforme de partage de vidéos courtes et a récemment investi dans l’IA générative avec des modèles comme KwaiYii et Kolors.
Kling utilise une architecture transformer et possède une compréhension avancée de la sémantique texte-vidéo. Grâce à une stratégie d’entraînement innovante, il peut prendre en charge une variété de formats d’image, simulant avec précision les propriétés du monde physique. Son mécanisme d’attention conjointe spatio-temporelle 3D lui permet de modéliser des mouvements complexes, et sa technologie de reconstruction 3D du visage et du corps humain améliore l’expression des personnages.
Ce modèle révolutionnaire pourrait changer la donne dans l’industrie du cinéma, comme en témoigne la projection prochaine des “Sora Shorts” au Tribeca Film Festival, une série de courts métrages créés avec l’aide de Sora. Les vidéos de démonstration publiées par Kuaishou montrent le potentiel incroyable de Kling dans la production de contenus vidéo de haute qualité.