La technologie de l’IA générative suscite un engouement sans précédent, mais la plupart des exemples présentés jusqu’à présent ne sont que des jouets, voire même non fonctionnels. Il est rafraîchissant de constater qu’une entreprise utilise les algorithmes génératifs pour accomplir quelque chose de réellement utile.

DataCebo exploite l’IA générative pour modéliser les données d’entreprise, puis utilise ces modèles pour générer des ensembles de données synthétiques présentant des qualités similaires à celles des données de production. Récemment, l’entreprise a levé 8,5 millions de dollars en financement initial pour concrétiser sa vision.

“Une fois que les clients ont construit un modèle génératif à partir de leurs données, ils peuvent générer autant de données d’échantillon qu’ils le souhaitent. Il s’agit de données synthétiques qui ne sont pas réellement connectées aux données réelles, mais qui présentent toutes les mêmes propriétés, y compris le format et les propriétés statistiques,” a déclaré Kalyan Veeramachaneni, PDG et co-fondateur de DataCebo.

Les données synthétiques ainsi créées sont parfaites pour les tests, notamment dans des situations où il est difficile de tester sans accès aux données de production réelles. Nous voulons tous maintenir la sécurité des données de production au sein de nos systèmes de production, mais il y a des moments où l’accès à ces données est important.

L’approche traditionnelle pour tester avec des données de nature production consiste à prendre des données de production en direct, à les traiter pour supprimer les champs sensibles ou les masquer de différentes manières. Les numéros de carte de crédit, les numéros de sécurité sociale, les identifiants fiscaux et médicaux sont tous extrêmement sensibles. Diverses juridictions ont des règles strictes sur la façon dont de telles données peuvent être traitées. Cependant, la suppression totale empêche le test de savoir si un système utilise correctement ces champs. Le masquage, tel que remplacer la plupart des chiffres d’une carte de crédit par XXXX, peut perturber les calculs qui reposent sur des données valides. Les fausses données ne peuvent pas être trop fausses.

L’approche de DataCebo promet des données qui ne sont pas réelles mais qui paraissent réelles. Très réelles, et réelles de différentes manières importantes. Assez réelles pour tester des logiques assez complexes liant différents champs les uns aux autres, comme pour la détection de fraude. Ce numéro de téléphone a-t-il un indicatif régional d’un client avec une adresse à Manhattan ? L’historique d’achat synthétique ressemble-t-il suffisamment à l’historique d’achat réel d’un client pour tester nos algorithmes et éviter les faux positifs ? Nos nouvelles fonctionnalités fonctionneront-elles réellement lorsque nous les lancerons ?

Bien qu’il soit possible de créer des générateurs de données de test avec ces capacités, cela est complexe et chronophage. De tels systèmes ont tendance à être étroitement liés au système qu’ils modélisent. Les concepteurs doivent comprendre le lien entre les champs de données pour modéliser avec précision ces relations. Si la production change, tout traitement ultérieur des données doit également changer. Cela peut ralentir les mises à jour ou mettre fin à de nouvelles fonctionnalités nécessitant trop de travaux coûteux.

“D’autres approches ne sont pas facilement généralisables. Avec ce système, vous pouvez simplement pointer vers n’importe quelle base de données, ou plusieurs tables, et nous trouverons les connexions avec notre produit,” explique Veeramachaneni. “Et une fois qu’il est connecté, vous pouvez construire un modèle de manière automatique. Il n’y a pas beaucoup d’intervention humaine. Il n’y a pas beaucoup de personnalisation requise lorsque vous passez d’un système à un autre.”

DataCebo ne vise pas à remplacer le travail humain mais à permettre à ces techniques plus avancées d’être utilisées plus fréquemment. Les data scientists compétents nécessaires aux approches traditionnelles sont rares et coûteux. Le travail fastidieux et répétitif n’est pas ce que les personnes hautement qualifiées veulent faire de leur journée, surtout lorsqu’il y a plein d’autres options. En automatisant le travail fastidieux que personne ne veut faire, des systèmes comme DataCebo signifient que plus de choses seront testées, et testées de manière plus efficace.

Actuellement, trop d’organisations font un travail médiocre pour désinfecter les données de production copiées pour les tests. Cela expose les clients à un risque accru de violation des données, qui est déjà un problème trop important et croissant. Pourtant, les organisations ne testent pas assez les choses, créant un conflit d’incitations où tout le monde perd. DataCebo suggère qu’il y a un moyen d’améliorer à la fois la sécurité et la robustesse tout en réduisant les coûts.

Il s’agit également d’un exemple rare où l’IA générative est déployée de manière véritablement utile. Créer des mensonges extrêmement plausibles est ce que fait l’IA générative. C’est fondamental pour le fonctionnement de la technologie. Il se trouve simplement que les données de test de nature production sont un mensonge hautement plausible que nous voulons réellement avoir davantage.

Le test est l’un de ces aspects ennuyeux mais importants de la technologie d’entreprise. C’est ce qui transforme le piratage amateur en développement de logiciels professionnel. Faire plus de tests et de meilleurs tests est évidemment une bonne chose qui devrait être encouragée.