La hype autour de l’IA générative est à son paroxysme, mais la plupart des exemples sont souvent peu convaincants, peu fiables, voire pire. Cependant, il est rafraîchissant de voir une entreprise utiliser des algorithmes génératifs pour quelque chose de réellement utile.

DataCebo utilise l’IA générative pour modéliser les données d’entreprise et générer des ensembles de données synthétiques avec des qualités similaires à celles de la production. Récemment, l’entreprise a reçu un financement de démarrage de 8,5 millions de dollars pour concrétiser sa vision.

“Une fois que les clients ont construit un modèle génératif à partir de leurs données, ils peuvent générer autant de données d’échantillon qu’ils le souhaitent. Il s’agit de données synthétiques qui ne sont pas vraiment liées aux données réelles, mais qui possèdent toutes les mêmes propriétés, y compris le format et les propriétés statistiques”, a déclaré Kalyan Veeramachaneni, PDG et co-fondateur de DataCebo.

Ce type de données synthétiques est parfait pour les tests, notamment dans des situations où il est difficile de le faire sans accès aux données réelles. Nous voulons tous maintenir la sécurité des données de production au sein des systèmes de production, mais il y a des moments où l’accès à ces données est important.

La méthode traditionnelle de test avec des données similaires à la production consiste à prendre des données de production en direct et les traiter pour supprimer les champs sensibles ou les masquer de différentes manières. Les numéros de carte de crédit, les numéros de sécurité sociale, les identifiants fiscaux et de santé sont tous extrêmement sensibles. Différentes juridictions ont des règles strictes sur la manière dont de telles données peuvent être traitées. Pourtant, leur suppression totale empêche de tester si un système utilise correctement ces champs. Le masquage, comme remplacer la plupart des chiffres d’une carte de crédit par des XXXX, peut perturber les calculs qui reposent sur la validité des données. Les fausses données ne peuvent pas être trop fausses.

L’approche de DataCebo promet des données qui ne sont pas réelles, mais qui ressemblent à la réalité. Très réelles, et réelles de diverses manières importantes. Assez réelles pour tester même des logiques complexes liant différents champs entre eux, comme pour la détection de fraude. Ce numéro de téléphone a-t-il l’indicatif régional d’un client avec une adresse à Manhattan ? L’historique d’achat synthétique ressemble-t-il suffisamment à l’historique d’achat réel d’un client pour tester que nos algorithmes ne déclencheront pas de faux positifs ? Nos nouvelles fonctionnalités fonctionneront-elles réellement lors de leur lancement ?

Bien qu’il soit possible de construire des générateurs de données de test ayant ces capacités, cela reste complexe et chronophage. De tels systèmes tendent également à être fortement liés au système qu’ils modélisent. Les concepteurs doivent comprendre la liaison entre les champs de données pour modéliser avec précision ces relations. Si la production change, tout traitement de données en aval devra également changer. Cela peut ralentir les déploiements ou compromettre de nouvelles fonctionnalités qui nécessiteront trop de restructurations coûteuses.

“D’autres approches ne sont pas facilement généralisables. Avec ce système, vous pouvez simplement pointer vers n’importe quelle base de données, ou plusieurs tables, et nous trouverons les connexions avec notre produit,” explique Veeramachaneni. “Et une fois que c’est connecté, vous pouvez construire un modèle génératif automatiquement. Il n’y a donc pas beaucoup d’implication humaine. Il n’y a pas beaucoup de personnalisation requise lorsque vous passez d’un système à un autre.”

DataCebo ne vise pas à remplacer le travail humain, mais à permettre l’utilisation plus fréquente de ces techniques plus avancées. Les data scientists qualifiés nécessaires aux approches traditionnelles sont rares et coûteux. Les tâches fastidieuses et répétitives ne sont pas ce que les personnes hautement qualifiées veulent passer leurs journées à faire, surtout avec de nombreuses autres options disponibles. En automatisant le travail fastidieux que personne ne veut faire, des systèmes comme DataCebo signifient que davantage de tests seront effectués, et de façon plus efficace.

Actuellement, beaucoup trop d’organisations ne font pas un bon travail de désinfection des données de production copiées pour les tests. Cela expose les clients à un plus grand risque de violation de données, qui est déjà un problème inacceptable et croissant. Pourtant, les organisations ne testent pas suffisamment de choses, créant ainsi un conflit d’incitations où tout le monde perd. DataCebo suggère qu’il y a une solution, renforçant à la fois la sécurité et la robustesse tout en réduisant les coûts.

Il s’agit également d’un exemple trop rare où l’IA générative est déployée de manière véritablement utile. Créer des mensonges extrêmement plausibles est ce que fait l’IA générative. C’est fondamental pour le fonctionnement de la technologie. Il se trouve simplement que les données de test similaires à celles de la production sont un mensonge hautement plausible que nous voulons réellement voir plus souvent.

Le test est l’un de ces aspects ennuyeux mais importants de la technologie d’entreprise. C’est ce qui transforme le hacking amateur en développement de logiciels professionnel. Faire plus de tests de meilleure qualité est une bonne chose évidente qui devrait être encouragée.