Internet : le canal de l’hyper-mesure

1 sept 2009

Du fait de sa nature technologique, Internet est le canal du tout mesurable. Bien plus que tout autre canal de diffusion d’informations, Internet offre des possibilités de mesures multiples. C’est dans la façon même dont le réseau a été pensé d’un point de vu technique qu’il faut chercher les raisons de cette hypermesure. Toutes les technologies qui structurent Internet permettent des mesures qui ne sont pas possibles sur d’autres canaux de diffusion.

Adresse IP et mesure du nombre d’ordinateurs connectés

Chaque ordinateur qui se connecte au réseau est identifié par une adresse unique, la fameuse adresse IP. D’ailleurs, le dénombrement du nombre d’ordinateurs connectés en comptant le nombre d’adresses IP a constitué le tout premier type de mesure sur Internet et a longtemps permis de mesurer l’adoption et l’usage du réseau.

Logs et mesure des hits

Les protocoles Internet, en tête desquels le protocole http, ont constitué une autre technologie qui a permis de mettre en place la mesure sur Internet. En effet, sur Internet, la connexion à un serveur distant via un protocole de connexion comme le http génère des logs, c’est-à-dire un historique d’évènements. Autrement dit chaque connexion à un serveur web génère une nouvelle ligne d’historique dans un fichier (le journal ou logfile).

L’analyse de ces logs a constitué le second type de mesure sur Internet. Comme chaque requête sur le serveur distant est enregistrée dans le logfile, il suffit alors de lire ce fichier pour compter le nombre de lignes et ainsi en déduire la popularité d’un site. On parle alors de hit qui est l’indicateur utilisé pour compter le nombre de requêtes faites sur le serveur web. Deux autres mesures se sont développées grâce à l’analyse des logs. Tout d’abord le nombre de page vues (PV) qui est le nombre de requêtes faites au serveur web pour visionner une page (et pas un autre élément comme une image). Le second indicateur est la visite qui se défini comme une séquence de requêtes faite par un client unique sur le serveur et qui expire après une certaine période d’inactivité (généralement 30 minutes).

La méthode de mesure par analyse des logs a été utilisée au début des années 1990 sans poser de réels problèmes. La méthode était fiable puisque à cette époque chaque page web était constituée d’un seul fichier html qui contenait principalement du texte. Cependant, les pages ont rapidement commencé à s’enrichir avec notamment l’apparition d’images ou le chargement de plusieurs fichiers pour afficher une même page web. Ainsi, au final, les hits mesuraient de plus en plus  la complexité d’une page web (nombre d’éléments appelé par cette page) que la réelle popularité de cette page. Les notions de visites et de pages vues sont restées plus fiables. Cependant, l’apparition de robots (comme ceux des moteurs de recherche), des proxys web ou l’attribution d’adresses IP dynamiques aux fournisseurs d’accès Internet ont rendu l’identification des visiteurs uniques bien plus difficile. De plus les techniques de mise en cache des contenus (qui permettent de stocker du contenu sur la machine de l’utilisateur afin d’accélérer la navigation sur des sites visités régulièrement en affichant ce contenu stocké plutôt que le contenu distant) ont faussé les logs. Avec les méthodes de cache, le contenu distant n’est pas appelé et il n’y a donc pas d’inscription dans les logs. La mesure des pages vues s’est donc à son tour trouvée faussée.

La mesure par analyse des logs a donc peu à peu décliné. Elle reste aujourd’hui principalement utilisée par les administrateurs système pour mesurer l’utilisation des serveurs, mais n’est plus une méthode utilisée pour la mesure marketing (ou alors de façon hybride avec la méthode de marquage que nous maintenant détailler).

Marquage des pages et mesures avancés

La dernière technologie structurante d’Internet qui intrinsèquement explique la richesse de la mesure sur Internet est le navigateur et l’interaction de celui-ci avec les pages visitées par l’Internaute. Si on s’intéresse aux technologies de diffusion d’informations, on constate que bien souvent l’objet technologique qui permet la diffusion est en quelque sorte inerte dans le sens où il reçoit seulement de l’information et qu’il n’est ni en interaction avec la source de diffusion, ni avec l’environnement de diffusion (poste de télévision analogique, poste de radio, journal papier, etc…). C’est tout le contraire avec le navigateur web. En plus de recevoir de l’information et d’interpréter des informations, le navigateur renvoi des informations et interagi avec la source de diffusion (la page web ou plus généralement le serveur hébergeant cette page). De même le navigateur est en interaction permanente avec son environnement c’est-à-dire le système d’exploitation dans lequel il s’exécute. Cette double interactivité a permis de développer une méthode de mesure à la base des Web Analytics : la mesure par marqueurs ou tags.

La méthode par marquage des pages fait appel au langage de programmation JavaScript. En effet, un marqueur est en fait un code JavaScript (script) intégré directement au sein de la page Web et qui est exécuté par le client à travers le navigateur. Ce code est capable de collecté de nombreuses données sur le poste client (type de navigateur, adresse IP, système d’exploitation, résolution de l’écran, etc…) mais aussi sur la source de diffusion et en particulier le fameux referer (information indiquant l’URL de la page où se situe le lien qu’un internaute a suivi pour arriver sur la page qu’il visite actuellement). La collecte de l’adresse IP est intéressante car celles-ci étant attribuées géographiquement elles permettent une géolocalisation relativement fiable du poste client et donc de l’internaute. Le code JavaScript est également capable de manipuler les cookies, ces fameux petits fichiers textes stockés par le navigateur sur l’ordinateur de l’internaute. Le cookie permet ainsi d’enregistrer des informations sur le visiteur ou encore son parcours sur le site. L’avantage du marqueur JavaScript par rapport à la méthode de mesure par les logs, c’est que le code est exécuté à chaque chargement d’une page par l’internaute et que toutes les données collectées à chaque chargement de page sont envoyé sur un serveur tiers en charge de les agréger et de les analyser afin de produire des rapports avec des indicateurs pertinents.

La mesure par marqueur a en effet permet l’apparition de nombreux indicateurs qui sont à la base des Web Analytics.

  • Pages Vues : nombre de fois que le marqueur a été exécuté
  • Visite : série d’exécution du marqueur par un même client sans période d’inactivité (généralement un maximum de 30 minutes entre deux pages vues)
  • Visiteur unique : dédoublonnement des visites pour isoler les exécutions du marqueur par un client unique au cours d’une période de temps (jour, semaine, mois…). Cette mesure ce base souvent sur un cookie et est donc associé à un navigateur par à une personne (par exemple une personne visitant le même site dans la journée depuis le travail et le domicile, donc avec deux navigateurs différents, sera comptabilisé comme deux visiteurs uniques).
  • Visiteur connu/Nouveau Visiteur (repeat/new visitor) : un visiteur qui a déjà fait une visite au cours de la période de temps considéré / visiteur qui n’a pas fait de visite précédemment
  • Taux de rebond : taux mesurant le nombre de visite à une page (combien de personnes sont arrivées sur le site et n’ont pas visités d’autres pages).
  • Etc…

Il est ensuite possible d’appliquer une segmentation à l’ensemble de ces indicateurs à travers les données recueillis par le marqueur :

  • Données du navigateur (type de navigateur, système d’exploitation, résolution d’écran, support du flash, etc…)
  • Données de géolocalisation
  • Données de navigation (referer, page d’entrée, page de sortie, etc…)
  • Données personnalisées : il est en effet possible de transmettre des paramètres personnalisées au marqueur afin d’affiner la segmentation

Formulaire de commentaire

Moket.fr Késako ?

Moket.fr est un blog qui traite de Marketing et d'Internet. Plus précisément vous trouverez ici des réflexions, des analyses et des informations sur les tendances web et leur impact sur le e-marketing.
Bonne lecture !

Renaud

Plus d'infos sur l'auteur et le blog.
Suivez-moi aussi sur Twitter.

over-blog.com