BEA : premier tutorial SEO avec ProM


banniere data seo labs

Suite à mon article en anglais sur l’utilisation du BEA ( Bots Events Analyis : https://data-seo.com/2016/12/14/bot-event-analysis-bea/ ),  j’ai préparé un tutorial qui vous explique comment créer votre première analyse SEO avec proM.

Par contre, ProM charge seulement des fichiers CSV donc la difficulté était de créer un programme en ligne qui vous permette de tester directement à partir de logs Apache.

J’ai créé un programme en R qui va transformer vos logs Apache en fichier CSV en donnant à chaque fois une numéro de « session » au Bot en fonction de sa première lecture du fichier robots.txt.
( Merci Sylvain Deauré pour l’astuce et merci à John Mueller qui m’a indiqué que le GoogleBot mobile partage l’analyse du fichier « robots.txt » avec le GoogleBot Desktop )

Vous pouvez tester gratuitement ce programme sur cette adresse, attention j’utilise une version de Shiny gratuite donc limité à 20h par mois, cela part très vite donc premier arrivé, premier servi.
https://data-seo.shinyapps.io/LogToCSV/

Utiliser mon convertiseur

Pour tester mon convertisseur BEA, vous devez suivre ces trois étapes :
1. Choix du ou des fichiers à charger en .log ou .gz. Une fois chargé,  les 1000 premières lignes apparaissent à droite avec les différentes colonnes : V1, V2, V3, …
2. Ensuite, indiquez quelle colonne correspond à l’IP, quelles colonnes à la date ( ici V4 et V5 ), quelle colonne correspond à l’URL et enfin quelle colonne correspond à l’User-Agent puis cliquez sur « Prepare Data » pour tester
3. Si le résultat vous convient, cliquez sur « Download CSV » pour obtenir le fichier CSV correspondant.

bea-load-apache-logs

Résultat :

bea-caseid

Configurer ProM

  1. Télécharger ProM : http://www.promtools.org/doku.php
    1. Je vous conseille la dernière version 6.6 ( au moment de l’écritue de cette article )
  2. Après, lancez ProM
  3. Puis, cliquez sur le bouton « Import » ( bouton vert à droite )
  4. Chargez le fichier CSV que vous venez de générer.
    step1-import-csv
  5. Cliquez sur le bouton « Use ressource » à droite
    step3
  6. Puis, cliquez sur « Convert CSV to XES » puis Start
    step4
  7. A l’écran « Configure CSV Parser Settings », cliquez sur Next
    step5
  8. Enfin à l’écran « Configure Conversion from CSV to XES »
    1. pour le « case colums » : choisir caseid
    2. pour le « event » : chosir url
    3. indiquez un « starttime » en choisissant le champ date et indiquez le pattern : dd/MM/yyyy HH:mm:ss
    4. retirez le « completion time »
    5. cliquez sur « Next »
    6. A l’écran suivant, cliquez sur Finish
      step7

Si tout a correctement fonctionné, vous devez arriver sur cet écran avec un sélecteur qui permet de choisir parmi 10 visualisations.

proM-bea-ok

Utiliser ProM

Désormais, vous avez plus de 10 visualisations mais pour le moment, j’en utilise que 7 au quotidien.

Log visualizer
Voici la vue qui vous donne un tableau de bord qui indique des informations statistiques.

Explore Event Log
Liste des parcours les plus fréquents

Log Visualizer (context-aware)
Très pratique pour analyser la fréquence d’analyse du GoogleBot et comparer avec le Googlebot Mobile.
Je vous conseille pour tester de mettre « concept:name » pour x-axis et « IP » pour Y-Axis.

Dotted chart
Il y a une configuration à tester.
X-axis : E-timestamp
Y-axis : E:conceptname
Color Attribute: E:conceptname

Time Base Log
Cette visualisation permet d’extraire les cas d’usages les plus fréquents ou les moins fréquents en fonction du temps passé par le Bot.

Inductive Visual Miner
Il s’agit de la vue la plus intéressante car vous pouvez visualiser le parcours du Bot dans le moindre détail.
Je vous conseille de jongler avec les curseurs de droite : activities et paths.

  • Identifier le chemin le plus fréquent et les goulots d’étranglements ( activities 100%, paths 100% )
  • Détecter les pages les plus crawlés ( activities 10%, paths 10% )
  • Trouver le premier groupe de pages actives où il faut revoir le maillage interne ( activities 40%, paths 100% )
  • Traiter les groupes de pages actives où il faut revoir le maillage interne ( activities 80%, paths 100% )

L’avantage de ce Visual Miner est qu’il faut juste un fichier de logs pour identifier rapidement les soucis et il est très facile de comparer avec un autre fichier de logs.

Conclusion

Je pense que le BEA (process mining) peut beaucoup apporter en SEO. Il existe de très nombreux filtres que je vais détailler dans un prochain chapitre.

Là je me suis concentré à créer un outil qui analyse à la fois le comportement du Googlebot Desktop et Mobile et vous donne un éventail des visualisations.

Bien sur, il est possible d’ajouter de très nombreuses dimensions comme le PR interne, le nombre de liens entrants, le score sémantique et ainsi vérifier qu’un maillage interne est efficace ou pas.
Il est même possible de détecter un changement de comportement du Google Bot et ainsi détecter une mise en production qui a altéré ou amélioré le parcours du Bot sur le site.

Dans un prochain article, je vais vous montrer comment utiliser le fuzzy miner pour gagner en efficacité dans l’analyse SEO et le traitement des erreurs.

N’hésitez pas à laisser des commentaires si vous avez testé ou si vous avez des questions.

4 Comments

  • Bonjour
    J’ai testé la première partie pour générer un fichier CSV mais j’ai eu une erreur.
    Pouvez-vous mettre à disposition le script R pour pouvoir retoucher éventuellement les colonnes.

  • Bien sur, il est possible d’ajouter de très nombreuses dimensions comme le PR interne, le nombre de liens entrants, le score sémantique et ainsi vérifier qu’un maillage interne est efficace ou pas.
    Il est même possible de détecter un changement de comportement du Google Bot et ainsi détecter une mise en production qui a altéré ou amélioré le parcours du Bot sur le site.

  • Bonjour Vincent,
    On ne se connait pas mais c’est la deuxième année que je suis ta conférence au SEO Campus et toujours avec la même satisfaction. Merci à toi.

    J’ai un retour d’experience sur lequel j’aimerais avoir ton avis. Cela concerne le crawl de Google que j’ai pu analyser sur un gros sites. Je me suis aperçu que Google crawlait nos urls « techniques » générées via le moteur de recherche interne, sachant que nous ne faisons pas de maillage sur ces urls. De mon point de vue, cela prouve qu’il utilise la navigation des internautes pour découvrir des pages pour lesquelles il n’a pas d’accès dans la structure. Compte tenu du fait que le crawl concernait des millions de pages, quid d’une analyse du parcours des bots cia les logs ? Ce que je veux dire par là, c’est qu’il y a de fortes chances que sont comportement soit différent d’un parcours classique. Je dois dire que je n’ai pas encore fait l’analyse de ce parcours. Aurais-tu un retour d’expérience sur ce sujet ?
    En te remerciant par avance.

    PS : j’adore ce blog et il m’a redonné de la motivation.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *