Kuaishou Technology vient de faire sensation en annonçant la sortie de Kling, un modèle Text-to-Video révolutionnaire capable de générer des vidéos de haute qualité d’une durée maximale de 2 minutes. Cette prouesse technologique place Kling en compétition directe avec des modèles tels que Sora d’OpenAI et VEO de Google, en étendant la durée des vidéos générées.

Fondée en 2011, Kuaishou est reconnue pour sa plateforme de partage de vidéos courtes, qui est devenue l’une des plus populaires en Chine et à l’international. En parallèle, l’entreprise a renforcé ses investissements dans l’intelligence artificielle, notamment avec le développement de Kling, basé sur une architecture de transformer et doté d’une compréhension avancée de la sémantique texte-vidéo.

Kling se distingue par sa capacité à convertir du texte en vidéos de qualité, avec une résolution de 1080p et une fréquence de 30 images par seconde. Ce modèle utilise une stratégie d’entraînement à résolution variable et intègre un mécanisme d’attention conjointe spatio-temporelle 3D, lui permettant de modéliser des mouvements complexes de manière précise. De plus, la technologie de reconstruction 3D du visage et du corps humain améliore l’expression des sujets à partir d’une seule image.

Kuaishou a publié des vidéos de démonstration mettant en avant les capacités impressionnantes de Kling, laissant entrevoir son potentiel à transformer l’industrie cinématographique. L’annonce de la projection des “Sora Shorts” au Tribeca Film Festival démontre l’impact significatif de ces modèles sur la création de contenu et ouvre de nouvelles perspectives pour l’avenir de la vidéo générative.