Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Comment Pinterest a implémenté la détection d'anomalies

Pinterest évoque la mise en oeuvre de sa plate-forme de détection d'anomalies face au spam et à la dérive des modèles de machine learning.

Publié par La rédaction le 18 juil. 2023 - mis à jour à 11:49

Lecture
2 min

Imprimer

Automatiser l'analyse des causes premières ? Il y a les modèles GPT pour ça. La fintech française Younited a en tout cas fait ce choix. Nous nous en étions fait l'écho la semaine passée.

Chez Pinterest, pas de GPT pour l'analyse des causes premières - tout du moins officiellement. L'entreprise projette, en revanche, d'aborder ce cas d'usage avec sa plate-forme Warden.

Cette dernière constitue son socle pour la détection d'anomalies. Elle est modulaire, au sens où des briques fonctionnelles distinctes gèrent respectivement l'ingestion de données, leur analyse et le traitement des résultats.

Pinterest utiliser PSI pour repérer les dérives du machine learning...

Warden sert notamment à détecter les dérives des modèles d'apprentissage automatique. Pinterest s'appuie pour le moment sur l'algorithme PSI (Population Stability Index) avec, comme base de comparaison, des données historiques.

L'algorithme divise cette data en compartiments et donne à chacun un score en fonction du pourcentage de données qu'il contient. La somme de ces scores donne un « score PSI ». Plus il est élevé, plus la dérive est importante.

Pinterest a opté pour une fenêtre temporelle de trois heures, avec un recalcul des scores toutes les trois à cinq minutes. Il compte intégrer, à l'avenir, d'autres algos, dont KLD/JSD (Kullback-Leibler Divergence/Jensen-Shannon Divergence). Ainsi que d'autres méthodes de comparaison, notamment entre environnements (staging vs prod, par exemple).

... et EGADS pour détecter le spam

Warden sert aussi à la détection de spam. Dans le contexte de Pinterest, il s'agit des épingles contenant des liens indésirables.

On a décidé de s'appuyer sur EGADS (Extensible Generic Anomaly Detection System). Ce framework made in Yahoo prédit des données futures à partir de données historiques. Il compare cette prédiction aux données réelles et détecte ainsi les écarts.

La première version du système récupère, en quasi-temps réel dans un cluster Apache Druid, des données horodatées. Un connecteur Presto a été ajouté pour de futurs projets. En bout de chaîne, un outil de visualisation permet d'affiner l'analyse. Les alertes partent sur Slack et par mail, entre autres.

Photo d'illustration © Sergey - Adobe Stock

Publié par :
La rédaction

Tags associés :

Bases de données cloud : ce qui se dessine après l'ère lakehouse

Par Clément Bohic le 2 janv. 2025

11 min.

{ Tribune Expert } - Trois choses à savoir sur les applications IA

Par Lori MacVittie * le 18 déc. 2024

Multimodale, locale, agentique... quelle IA en 2025 ?

Par Clément Bohic le 18 déc. 2024

EuroHPC prend le virage des AI Factories : les 7 premiers [...]

Par Clément Bohic le 17 déc. 2024

OpenAI : 5 français influents de la startup star de l'IA

Par La rédaction le 16 déc. 2024

Livres Blancs #workspace

HP Z et Nvidia

Les stations de travail dédiées à votre métier

Pour garantir des performances maximales sur vos projets les plus complexes, nous avons travaillé en étroite [...]

Télécharger

Getronics

Future of Work – Transformer le support et [...]

À mesure que l’environnement de travail devient véritablement digital, les employés communiquent et [...]

Télécharger

Forrester

Focus sur les puces Apple : la puce M1 d’Apple change [...]

Selon l’étude Forrester, l’amélioration de l’expérience des employés grâce à une meilleure technologie et de [...]

Télécharger

ServiceNow

Comment prospérer dans un contexte imprévisible?

Découvrez cinq parcours pour développer l’agilité de votre entreprise grâce aux workflows digitaux.

Télécharger

Voir tous les livres blancs

Vos prochains événements

Voir tous les événements

5 juin 2025

Le grand dîner de Gala de la Communauté

Organisé par silicon.fr

Inscrivez-vous

3 juillet 2025

La Matinale Silicon - Zéro Trust

Organisé par silicon.fr

Inscrivez-vous

7 novembre 2024

La MasterClass Silicon - NIS2

Organisé par silicon.fr

REVIVRE EN IMAGES

Voir tous les événements

Inscrivez-vous à la Newsletter pour recevoir les dernières actualités

Abonnez-vous au magazine Silicon et profitez de contenus exclusifs !

Boostez votre expertise professionnelle en accédant aux informations clés de votre domaine.