L’ère de la création – L’IA générative créée en utilisant la recherche Midjourney Tirias
L’arrivée de l’IA générative ou GenAI est un point d’inflexion de l’industrie de haute technologie comme peu d’autres. Non seulement cela changera la manière dont tout le monde utilise la technologie, mais GenAI changera la société. En termes d’impact, c’est similaire aux changements perturbateurs induits par l’adoption du PC, de l’Internet, de la connectivité cellulaire et du smartphone, peut-être même plus. Chacune de ces technologies a changé la manière dont nous apprenons, travaillons et jouons, changeant essentiellement notre mode de vie. Alors que spéculer sur les utilisations potentielles d’une nouvelle technologie est passionnant, comprendre comment l’industrie doit s’adapter est impératif si nous voulons transformer cette excitation en réalité. À travers une analyse des inflexions technologiques passées, des projections des avancées technologiques et des modèles de prévisions détaillés pour les applications potentielles et les utilisateurs, Tirias Research a développé des estimations pour la feuille de route de l’inflexion de GenAI, le coût d’implémentation de cette feuille de route et ce que cela signifie pour l’industrie technologique.
Ceci n’est que le début
Pour comprendre l’impact, il est utile de comprendre d’abord où en est l’industrie actuellement dans l’ère de l’IA générative. Une analogie applicable est l’évolution du smartphone. La technologie sans fil de deuxième génération (2G), telle que définie par le 3GPP, a été développée autour de l’utilisation du téléphone comme un appareil de communication vocale ou SMS avec quelques applications de productivité de base que l’on pourrait trouver sur un Palm Pilot, qui était un planificateur de jour numérique plus lecteur de musique et console de jeu portative. Les smartphones 2G avaient des capacités de traitement limitées et manquaient d’une caméra haute résolution et de connectivité large bande. De plus, des applications comme les réseaux sociaux n’existaient pas. Lorsque les smartphones de troisième génération (3G) sont arrivés, non seulement ils ont apporté des appareils plus performants et une connectivité large bande, mais ils étaient également accompagnés d’applications comme les réseaux sociaux et la création de contenus mobiles qui ont entraîné de nouveaux modèles d’utilisation, le besoin de plus de ressources de traitement local et sur le cloud, et une croissance exponentielle de l’utilisation des données cellulaires et des données générées par l’utilisateur qui est encore en vigueur aujourd’hui.
À bien des égards, nous sommes dans la phase 2G de GenAI. GenAI est actuellement utilisée par des segments limités de la population et pour des applications de base comme les réponses texte à texte, les assistants numériques de texte à voix et la création de contenu image à texte en raison de ses capacités limitées et des questions éthiques non résolues autour de sa formation et son utilisation. De plus, GenAI est principalement une solution centrée sur le cloud en raison des ressources de traitement nécessaires pour gérer la formation et le traitement d’inférence des grands modèles de langage (LLM). Cependant, contrairement à l’industrie cellulaire, il ne faudra pas plus de 10 ans à l’industrie pour atteindre la prochaine transition.
En termes de semi-conducteurs et de systèmes, la transition a déjà commencé avec de nombreux processeurs embarqués, de smartphones, de PC et de serveurs intégrant des accélérateurs spécifiques à l’IA ainsi que des architectures de mémoire en évolution pour prendre en charge le traitement GenAI. Au cours des cinq prochaines années, chacun gagnera en performance et en efficacité grâce aux nœuds de processus semi-conducteurs avancés, aux améliorations de la conception de l’architecture, à une capacité et une bande passante mémoire plus élevées, et à l’optimisation des modèles de réseau neuronal pour mieux correspondre aux exigences d’application avec les ressources de traitement disponibles.
En termes d’applications, la transition vers de nouvelles applications GenAI haute performance, comme la vidéo, avec les avancées rapides dans la formation, l’optimisation et l’adaptation des modèles d’IA générative pour de nouvelles applications GenAI haute performance, en particulier la vidéo. Alors que les applications vidéo ne sont essentiellement que la génération de centaines, de milliers ou de millions d’images en succession, elles nécessitent beaucoup plus de ressources matérielles et logicielles pour être générées en temps réel et permettent l’inclusion de nombreuses autres technologies, telles que les avatars et les arrière-plans en temps réel pour les visioconférences, les personnages non joueurs interactifs dans les jeux et les interactions uniques et personnalisées dans la réalité spatiale (anciennement connue sous le nom de métavers).
Selon Simon Solotko, analyste principal chez Tirias Research, «la prévision de la demande de l’IA générative de Tirias Research commence par une prévision de la demande par plusieurs types distincts d’utilisateurs, y compris les consommateurs, les pro-consommateurs, les utilisateurs d’entreprise et les utilisateurs automatisés, essentiellement les machines utilisant des modèles d’IA générative. Cette demande est convertie en ressources matérielles, environnementales et humaines nécessaires pour répondre à cette demande en utilisant la technologie disponible à chaque segment dans le temps. » Selon les prévisions de demande de Tirias Research, l’utilisation basée sur le texte de grands modèles de langage GenAI comme GPT-4, Llama 2 et PaLM 2 augmentera de 3 fois en 2024, mais connaîtra une augmentation de 151 fois d’ici 2028. De même, les images et les vidéos, qui nécessitent beaucoup plus de données et de ressources de traitement, augmenteront de 4 fois en 2024 et de 167 fois d’ici 2028. Lorsque l’on considère le coût des serveurs, de la puissance et du travail humain pour effectuer tout cela avec un traitement centré sur le cloud sur site, dans un centre de données privé ou mutualisé, ou dans un centre de données cloud, les coûts totaux d’exploitation (TCO) augmentent de manière exponentielle également, passant d’une augmentation de plus de 1,7 milliard de dollars en 2024 à plus de 84 milliards de dollars en 2028, un chiffre qui peut ne pas être pratique ou économiquement viable. Notez que cela inclut le coût de l’exploitation des services en direct, de l’inférence d’IA, et non le coût de la formation des modèles. Aujourd’hui, la formation est estimée être la plus grande contributrice à l’infrastructure naissante, mais elle est susceptible d’être rapidement surpassée par l’inférence à mesure que l’utilisation des services croît, tel que projeté par les prévisions.
Le compromis
Selon M. Solotko, le modèle suppose une augmentation continue de la taille des modèles partiellement atténuée par des techniques de plus en plus sophistiquées pour améliorer les performances des modèles. Comme dans l’exemple du GPT de OpenAI, les tailles des modèles ont augmenté d’environ 10 fois d’une génération à l’autre en raison de la croissance de l’ensemble de données utilisé pour chaque génération, qui a environ deux ans. Certains pourraient soutenir que cette croissance ne peut pas continuer à ce rythme, et comme l’histoire de l’industrie technologique le laisse entendre, c’est correct. Cependant, «avec des ensembles de données et des modèles plus grands vient une plus grande connaissance et précision. Et l’IA générative étant encore à ses balbutiements comme le montrent ses limitations actuelles, il y a encore de la place pour grandir», selon M. Solotko. Un sentiment également exprimé récemment par Sam Altman de OpenAI lors de l’événement Intel Direct Connect. Même avec des efforts pour réduire la taille des modèles de formation pour les utiliser dans le traitement d’inférence par des optimisations, telles que la quantification et l’élagage, une plus grande précision nécessitera toujours des modèles plus grands et/ou la division des modèles généraux en modèles spécifiques à un domaine.
De plus, il y aura une croissance exponentielle du nombre de modèles à mesure qu’il deviendra plus facile d’accéder aux ensembles de données et aux ressources cloud pour créer de nouveaux modèles. Selon M. Solotko, «il s’agit d’une révolution de l’innovation qui continuera de repousser les limites de la technologie au cours de la prochaine décennie.»
Équilibrage à la périphérie
Le battage médiatique récent dans l’industrie technologique concerne le potentiel de faire de l’IA, ou plus précisément de l’IA générative, en périphérie. Le terme «périphérie» lui-même est très nébuleux. Pour certains, cela signifie les parties extérieures d’un réseau, comme une station de base, un routeur ou un serveur distant. Pour d’autres, cela signifie le point où les données sont créées et consommées, comme les PC, les smartphones, les automobiles et d’autres appareils grand public et machines industrielles. Peu importe où se situe la limite, faire plus de traitement en périphérie sera nécessaire pour plusieurs raisons.
La première raison est de réduire la demande sur le centre de données, ainsi que sur les infrastructures de puissance et de communication qui le soutiennent. Tirias Research prévoit que le coût d’exploitation des centres de données pour répondre à l’ensemble de la demande GenAI sera de 84 milliards de dollars, plus le coût de construction du centre de données et de l’infrastructure de soutien. Cela mettra à rude épreuve la capacité de l’industrie à construire et à exploiter les centres de données dans le délai nécessaire.
La deuxième raison est la nécessité de performances. De nombreuses applications d’IA peuvent et nécessiteront un traitement en temps réel ou quasi réel et la capacité à effectuer des fonctions n’importe où, même lorsque les réseaux de communication sans fil ne sont pas disponibles, comme des fonctions automobiles.
La troisième raison, et la plus importante pour laquelle l’IA générative en périphérie sera nécessaire, est la personnalisation. Utiliser des fonctions AI généralisées peut être utile, mais pour que l’IA générative atteigne son potentiel, elle doit être personnalisée à l’application, à l’utilisateur et/ou aux conditions environnementales. En d’autres termes, elle doit être consciente du contexte en utilisant des informations locales. Un véritable assistant numérique doit non seulement comprendre une demande de l’utilisateur, mais aussi les préférences, l’emplacement et les limitations d’un utilisateur. De même, une machine doit comprendre non seulement les limites de ses fonctions, mais aussi les limites par rapport à l’environnement d’exploitation. Une grande partie de ces données peut être considérée comme privée ou sécurisée, nécessitant une gestion du traitement local.
En conséquence, toute l’industrie cherche des moyens de faire plus de traitement AI en périphérie pour améliorer les performances en réduisant la latence, fournir une sécurité accrue pour les données locales, et fournir une expérience plus personnalisée basée sur des modèles prenant en compte des données uniques locales, environnementales et/ou personnelles. Tirias Research estime que l’IA en périphérie est nécessaire pour créer une infrastructure AI complète qui peut équilibrer les coûts et les exigences en ressources de GenAI avec le besoin de fournir une expérience personnalisée. Si l’industrie réussit à apporter l’IA en périphérie, Tirias Research prévoit une réduction potentielle de 20% du traitement GenAI dans le cloud pour des économies de 16 milliards de dollars ou plus dans les coûts d’exploitation de centre de données d’ici 2028, et ce chiffre augmentera en pourcentage du traitement GenAI total à l’avenir. Bien que cela ne résoudra pas la demande de formation et de traitement d’inférence GenAI dans le cloud, cela permettra un taux de croissance future plus viable et durable pour les futurs centres de données GenAI.
La valeur du déplacement des charges de travail d’IA générative sur les plates-formes en périphérie
La vue holistique
L’IA générative entraîne une nouvelle vague d’innovation et d’utilisation de la technologie. En conséquence, elle nécessitera une topologie d’infrastructure hybride supérieure à ce qui était nécessaire auparavant. Une infrastructure hybride permet l’utilisation de toutes les ressources disponibles sur l’appareil ou dans le cloud, ainsi que l’ensemble des communications et de l’infrastructure de puissance en place pour les soutenir. Tirias Research estime qu’il y aura un équilibre entre le traitement en périphérie et en cloud pour GenAI. Dans de nombreux cas, cela peut impliquer l’utilisation de ressources dans le cloud, sur l’appareil, ou les deux, comme le propose Microsoft avec les futures générations de Copilot. GenAI, ce n’est pas seulement construire de nouveaux centres de données avec les derniers et les meilleurs accélérateurs discrets, c’est aussi créer une architecture hybride pour répondre aux besoins variés de ses différents charges de travail et, finalement, de ses différents clients.
Dernières réflexions
L’IA générative est sur le point de changer la société plus que toute autre technologie avant elle. Cependant, pour réaliser tout son potentiel, elle aura également un impact tout aussi important sur l’industrie technologique qui innove rapidement pour la rendre possible. Le matériel, les logiciels et les modèles économiques qui soutiennent GenAI sont en pleine évolution alors que la demande s’accélère. Le traitement AI en cloud et en périphérie seront nécessaires. Répondre à cette demande sera un défi, mais jusqu’à présent, l’industrie relève ce défi et en bénéficie considérablement dans le processus.