Kling : le nouveau concurrent de Sora et VEO dans la génération de vidéos

En février dernier, OpenAI a révélé Sora, un modèle Text-to-Video révolutionnaire capable de produire des vidéos réalistes d’une minute, surpassant les modèles existants. Google a ensuite présenté VEO lors de la conférence Google I/O 2024, étendant ces capacités à plus d’une minute. Aujourd’hui, un nouveau venu, Kling de l’entreprise chinoise Kuaishou Technology, fait son entrée sur le marché avec des vidéos allant jusqu’à 2 minutes.

Kuaishou, connu pour sa plateforme de partage de vidéos courtes, a étendu ses activités à l’IA l’an dernier, en développant des modèles textuels et d’images. Kling, actuellement en phase d’essai, offre une résolution de 1080p et une fréquence de 30 images par seconde pour des vidéos générées à partir de texte. Grâce à une infrastructure d’entraînement efficace, Kling promet des vidéos de haute qualité.

Le modèle s’appuie sur une architecture de transformer et comprend parfaitement la sémantique texte-vidéo. Il intègre une architecture auto-développée pour simuler avec précision les propriétés du monde physique. Avec une attention spatio-temporelle 3D et une technologie de reconstruction 3D du visage et du corps, Kling reproduit les mouvements de manière réaliste à partir d’une seule image.

Kuaishou a publié des démonstrations vidéo sur son site, montrant la puissance de Kling dans la génération de contenus visuels de qualité. Les modèles comme Kling ont le potentiel de révolutionner l’industrie du cinéma, comme en témoigne la projection prochaine des “Sora Shorts” , des courts métrages créés avec l’aide de Sora par des cinéastes lors du Tribeca Film Festival.