jeudi 28 février 2008

Long tail

J’ai choisi comme sujet aujourd’hui un phénomène que je trouve particulièrement intéressant puisqu’on le retrouve un peu partout, dès qu’il s’agit de popularité. Je vais donc parler du phénomène de longue traîne (long tail pour les anglophones). J’en ai entendu parler pour la première fois sur le blog de Louis Naugès (passionnant à suivre si vous êtes dans le monde IT). Puis j’en ai à nouveau entendu parler ça et là, comme une sorte de mode, puis j’ai été embauché pour travailler sur un projet qui exploite pleinement ce phénomène.

La longue traîne, qu'est ce que c'est ?

C’est la partie jaune de la courbe suivante, qui représente une population d’éléments, classés par ordre décroissants de popularité. Cela peut par exemple correspondre au classement des occurrences d’un mot dans une langue. On peut parier que les mots “le”, “et”, “est”, ... reviendront bien plus fréquemment que “bafouille”, “bévue” ou “billevesée”. Mais au final, la somme des occurrences des mots les moins fréquents sera plus importante que celle des mots le plus utilisés, ou, pour le formuler de manière plus visuelle, l’aire de la surface jaune sera plus importante que celle de la surface verte.

La courbe suit une loi de Zipf :

C’est bien joli me direz-vous, mais en quoi est-ce intéressant ? Cette courbe est parfaite pour représenter une demande de consommateur. On pourrait prendre également comme exemple la demande en vidéos, en livres, en articles spécialisé, etc. L’important ici est que le nombre total de demandes pour les produits les moins populaires, par effet d’accumulation, peut se retrouver largement supérieur à celui des produits les plus populaires.

Un peu de math

La loi de Zipf nous donne donc cette formule :

n est le n-ième “objet” le plus populaire
K est une constante, elle est égale à la valeur représentant la popularité de l’objet le plus populaire (et dépend donc uniquement de la métrique utilisée pour calculer cette popularité, e.g. nombre de téléchargements, ...)
s est le paramètre de Zipf qui, en gros, joue sur le nombre d’objets les plus populaires, c’est en quelque sorte la clé de la formule.


Un modèle c’est bien, mais dans la réalité ?

Petit exemple, iTunes (le service de vente de musique en ligne d’Apple) par exemple vend chaque mois 98% de son catalogue ! La boutique en ligne profite du fait que le coût de stockage et de distribution de ses titres est totalement marginal. Alors qu’avec des magasins classiques (des disquaires, pour rester dans le monde de la musique) le stockage est limité à la taille du magasin l’offre est nécessairement réduite, le vendeur se tournera alors naturellement vers les titres qui lui rapporteront le plus, la dématérialisation du support permet une offre potentiellement illimitée.
Pour continuer dans les exemples amazon profite également des conséquences de la longue traîne.

J’ai constaté récemment que ma consommation de musique suivait ce même schéma. C’est en regardant mon historique des écoutes sur last.fm que je m’en suis aperçu. Je pense qu’il en serait de même avec ma vidéothèque en regardant la fréquence d’apparition des acteurs, par exemple. Et c’est logique, dans un sens : on a tous des chanteurs, des acteurs préférés, et parmi leur production des morceaux ou des films préférés. Et au final seulement une petite partie d’un album, par exemple, est vraiment bien (ou en tout cas vraiment appréciée - sauf cas particulier, bien entendu).

On constate donc que cette loi de répartition de popularité se retrouve à de nombreuses échelles et sûrement à d’autres cas non évoqués dans cet article.



À lire également sur le sujet :

Aucun commentaire: