L’évolution des modèles Text-to-Video représente une avancée majeure dans le domaine de l’IA générale. En effet, après Sora d’OpenAI et VEO de Google, Kling, de Kuaishou Technology, fait son entrée sur le marché avec des capacités impressionnantes. Ce modèle est capable de générer des vidéos jusqu’à 2 minutes, surpassant ainsi ses concurrents.

Kuaishou, connu pour sa plateforme de partage de vidéos courtes, a récemment intégré une stratégie d’IA, notamment dans le domaine de l’IA générative. L’équipe dédiée a développé Kling, un modèle capable de convertir du texte en clips vidéo haute résolution avec une fréquence de 30 images par seconde. Grâce à une architecture de transformer et une compréhension profonde de la sémantique texte-vidéo, Kling peut modéliser des mouvements spatio-temporels complexes avec précision.

En plus de sa technologie de reconstruction 3D du visage et du corps humain, Kling dispose d’une architecture auto-développée en interne, inspirée de la loi de mise à l’échelle physique du monde réel. Les vidéos de démonstration de Kuaishou montrent l’étendue des capacités de Kling, ouvrant ainsi de nouvelles perspectives dans l’industrie du cinéma.

Avec l’annonce prochaine des “Sora Shorts”, une série de courts métrages créés avec l’aide de Sora, au Tribeca Film Festival, les modèles Text-to-Video commencent à trouver leur place dans le monde de la création cinématographique, laissant entrevoir un avenir innovant et prometteur pour l’industrie du divertissement.