Twitter a publié son algorithme : premiers constats
Twitter vient d'ouvrir son algorithme de recommandation. Comment classe-t-il les utilisateurs et leurs tweets ?
Entre les RT, les likes et les réponses, qu'est-ce qui donne le plus de poids à un tweet ? On a des éléments de réponse désormais que Twitter a publié son algorithme de recommandation.
Cet algo influe sur le contenu présenté autant dans le search que sur la page d'accueil (« Pour vous ») et l'onglet Explorer. Il implique de multiples services* qui vont du scoring de réputation à la prédiction d'interactions en passant par l'évaluation des affinités communautaires.
Comment l'algorithme voit les twitteurs...
L'explication que donne Twitter se concentre sur le cas de la page d'accueil. Elle élude certains aspects... dont le score de réputation. En parcourant le code (ici et là), on découvre l'outil sous-jacent, nommé Tweepcred. Il se fonde sur l'algorithme Pagerank (celui-là même qui porte Google Search), implémenté avec MapReduce.
Parmi les éléments que Tweepcred prend en compte, il y a le ratio abonnements/abonnés. Plus celui-ci est grand (beaucoup d'abonnements, peu d'abonnés), plus le score de réputation en pâtit. Pour éviter ce déséquilibre, on pourra utiliser les listes.
Le nombre de masquages, de blocages et de signalements joue aussi sur le score de réputation. Ainsi que le nombre de désabonnements, mais moins lourdement, et sur une période limitée aux 50 derniers jours.
Le « score Tweepcred » peut aller de 0 à 100. S'il est supérieur à 65, l'algorithme prend en compte tous les tweets de l'utilisateur. Sinon, il se limite à trois tweets - ce qui est pénalisant en particulier si on publie des threads.
A lot of people are rushing to unfollow mass amounts of people based on this thread.
Follower/following ratio does matter, but if you unfollow a lot of people quickly, you will get shadowbanned
Mass unfollowing is considered a bot action by the algo and will deprioritize you
- NFT God (@NFT_GOD) April 2, 2023
Lire aussi : Slack coupe le cordon avec l'API Twitter
... et comment il voit leurs tweets
De manière générale, la demi-vie d'un tweet est de six heures.
Indépendamment de Tweepcred, les abonnés à Twitter Blue ont droit à un petit boost pour leurs tweets (4.0 auprès des twitteurs qui font partie de leur réseau ; 2.0 auprès des autres).
Intégrer une image ou une vidéo rapporte un bonus comparable (2.0). Sans atteindre le poids des likes (20.0) et des retweets (30.0).
À l'inverse, tweeter des liens est généralement pénalisant, sauf s'ils appartiennent à des catégories bien précises (actualités, contenus multimédias) et qu'ils génèrent un minimum d'engagement.
Aborder certains sujets - parmi lesquels... la crise ukrainienne - a aussi un impact négatif sur le ranking des tweets.
How to optimize for the algorithm:
Likes, then retweets, then replies
You are clustered - posting outside it hurts
Links hurt. Mutes & unfollows hurt
Misinformation is down-ranked
Images & videos help
Blue extends reach
Making up words or misspelling hurts- Aakash Gupta 🚀 Product Growth Guy (@aakashg0) April 1, 2023
Au-delà de ce scoring « objectif », l'ultime stade de sélection des tweets implique un algorithme « Heavy Ranker » qui prédit dans quelle mesure ils généreront de l'engagement. Parmi les probabilités calculées :
- Like (poids : 0.5)
- Retweet (1.0)
- Clic sur le tweet et like, réponse ou impression pendant plus de 2 minutes (11)
- Ouverture du profil et like ou réponse sur un tweet (12)
- Réponse au tweet (27)
- Réponse au tweet... à laquelle on répond ensuite (75)
Twitter a déjà modifié l'algorithme
L'algorithme a déjà évolué depuis sa publication ce 31 mars 2023. Twitter a par exemple supprimé quatre « groupes d'utilisateurs » qu'il avait définis afin de comparer les impressions sur leurs tweets : power users, démocrates, républicains... et Elon Musk.
Certains éléments ne font pas consensus, comme la différence de traitement entre likes et favoris (favCountParams). Ou les pénalités appliquées à qui répond à des utilisateurs qui ne sont pas dans son réseau (outOfNetworkReplyPenalty).
More from the ML repo on github
Bookmarked and Favorited are 2 different variables
Hope this settles that debate. Favorited is Likes pic.twitter.com/ODHNQJg5Si
- xero 🎮 (@xerocooleth) April 2, 2023
Dans tous les cas, une fois les tweets classés par pertinence (et écartés s'ils violent les règles de Twitter), l'algorithme applique un ultime filtrage. Il s'agit d'équilibrer les résultats (diversité des auteurs et du contenu).
* SimClusters, par exemple, regroupe les tweets et les utilisateurs par groupes d'affinité (illustration ci-dessous).
Illustration principale ©Buffik - Adobe Stock
Sur le même thème
Voir tous les articles Open source