Comment Dailymotion utilise l'IA générative pour alimenter son feed
Pour la recommandation de vidéos sur son app mobile, Dailymotion utilise PaLM et Whisper... entre autres technologies.
« Change ton feed ». Tel fut le mot d'ordre chez Dailymotion au printemps dernier.
L'application mobile changeait effectivement de visage. On nous promettait notamment de « sortir les utilisateurs de leur bulle ». En particulier grâce à un algorithme « capable d'analyser le score de sentiment d'une vidéo pour [en recommander une autre] qui présenterait un point de vue complémentaire ou contradictoire ».
L'équipe tech est récemment revenue sur cet algorithme - et plus globalement, sur le système de recommandation au sein duquel il s'insère.
Lire aussi : Uniper choisit la technologie d'Electric Hydrogen pour son projet Green Wilhelmshaven de 200 mégawatts
Ce système avait fait l'objet d'une première présentation à l'automne 2022. Dailymotion y exposait les différents filtres menant à la sélection finale des vidéos affichées sur la page d'accueil.
L'application mobile nécessitant de se connecter, Dailymotion dispose de profils d'utilisateurs. Ces derniers sont invités, au premier lancement, à communiquer leurs centres d'intérêt.
Un filtrage initial se fait sur cette base. Interviennent ensuite trois systèmes de classement.
Le principal prend en compte la récence des vidéos, leur format (préférence pour le carré et le vertical) et leur performance (ratio de vues de 10 secondes ou plus ; temps de visionnage par rapport à la durée totale). Celui dit « exploration » intervient dans un deuxième temps. Il sélectionne aléatoirement des vidéos parmi le top 100 des résultats du premier filtre. Là encore, dans la logique de « sortir les utilisateurs de leur bulle ».
En fonction des centres d'intérêt, le volume de vidéos disponibles sur Dailymotion varie. Pour éviter un déséquilibre dans la sélection finale, le système de recommandation catégorise les vidéos. Il en sélectionne ensuite un nombre à peu près équivalent dans chaque catégorie (échantillonnage stratifié). Les vidéos sont en outre réordonnées pour alterner les sujets. On leur attribue, pour cela, des scores de similarité, par paires, et on alterne en conséquence leur placement sur le feed.
MUSE, Whisper, PaLM et Qdrant dans la boîte à outils de Dailymotion
Sur ce socle, Dailymotion a bâti son fameux algorithme présentant des points de vue complémentaires ou contradictoires. Celui-ci vient s'ajouter à ceux analysant la performance des vidéos et les préférences des utilisateurs (abonnements et historique de visionnage compris).
Passé le premier filtrage à base de règles, Dailymotion vectorise les vidéos. Ou, plus précisément, leurs métadonnées (titre, description, tags). Il utilise, pour cela, MUSE (Multilingual Universal Sentence Encoder), un modèle ouvert made in Google. À ces informations s'ajoute la transcription, effectuée avec Whisper, autre modèle ouvert qu'on doit à OpenAI.
Pour la base de données vectorielle, Dailymotion a choisi un autre produit open source, origine Allemagne : Qdrant. Elle permet de rechercher les contenus similaires à toute vidéo likée par un utilisateur.
Arrive ensuite la phase d'analyse de sentiment. Les transcriptions sont envoyées à l'API PaLM. Celle-ci retourne un score de -1 à 1, reflétant le point de vue sur le sujet traité. Plus ce score est haut, plus l'opinion est marquée.
Illustration principale
Sur le même thème
Voir tous les articles Data & IA