OpenAI, Google et maintenant Kuaishou Technology : la compétition entre les géants de l’intelligence artificielle pour créer des modèles de génération vidéo toujours plus avancés est plus intense que jamais. Après avoir été éclipsé par le modèle Text-to-Video de Google, baptisé VEO, l’entreprise chinoise Kuaishou Technology a répliqué avec Kling, un modèle capable de générer des vidéos allant jusqu’à 2 minutes.
Kuaishou est déjà un acteur majeur dans le domaine des vidéos courtes, avec sa plateforme de partage de vidéos populaire en Chine et à l’international sous le nom de Kwai. En parallèle, l’entreprise a renforcé sa présence dans le domaine de l’intelligence artificielle, en développant une famille de modèles innovants tels que KwaiYii et Kolors.
Kling, le dernier-né de Kuaishou, se distingue par sa capacité à convertir du texte en clips vidéo de haute qualité, avec une résolution de 1080p et une fréquence de 30 images par seconde. Grâce à une architecture de transformer et à une technologie d’attention conjointe spatio-temporelle 3D, Kling est capable de modéliser des mouvements complexes et de reconstruire avec précision les visages et les corps à partir d’une seule image.
Ce modèle révolutionnaire ouvre de nouvelles perspectives dans l’industrie du cinéma, comme le prouve la projection prochaine des “Sora Shorts” au Tribeca Film Festival, créés avec l’aide de Sora d’OpenAI. Avec des capacités toujours plus avancées, les modèles de génération vidéo comme Kling ont le potentiel de redéfinir l’art de la création cinématographique.