En février dernier, OpenAI dévoilait Sora, un modèle Text-to-Video révolutionnaire capable de générer des vidéos très réalistes jusqu’à une minute de durée, dépassant ainsi les modèles précédents ne produisant que quelques secondes. Lors de la conférence Google I/O 2024, Google a présenté VEO étendant les capacités de génération vidéo de Sora à plus d’une minute. Un nouveau concurrent sérieux vient désormais défier ces modèles : Kling, développé par l’entreprise chinoise Kuaishou Technology, qui crée des vidéos jusqu’à 2 minutes.

Kuaishou, célèbre pour sa plateforme de partage de vidéos courtes, est devenu le deuxième réseau social le plus populaire en Chine. L’entreprise a récemment investi dans l’intelligence artificielle, présentant KwaiYii et Kolors, ses modèles d’IA générative. Kling, son dernier modèle actuellement en phase d’essai, transforme du texte en vidéos de 2 minutes en résolution 1080p et 30 images par seconde grâce à une infrastructure avancée.

Kling et Sora ont des similitudes : ils utilisent une architecture de transformer, comprennent la sémantique texte-vidéo et supportent divers formats d’image. Kling se distingue par son mécanisme d’attention 3D et sa technologie de reconstruction 3D VAE, améliorant l’expression des visages et du corps à partir d’une seule image.

Kuaishou a partagé des démonstrations impressionnantes du potentiel de Kling en ligne. Ce modèle révolutionnaire pourrait bien transformer l’industrie cinématographique, comme en témoigne la projection prochaine des “Sora Shorts” au Tribeca Film Festival, créés par des cinéastes ayant eu accès à Sora d’OpenAI.