BEA : premier tutorial SEO avec ProM


Suite à mon article en anglais sur l’utilisation du BEA ( Bots Events Analyis : https://data-seo.com/2016/12/14/bot-event-analysis-bea/ ),  j’ai préparé un tutorial qui vous explique comment créer votre première analyse SEO avec proM.

Par contre, ProM charge seulement des fichiers CSV donc la difficulté était de créer un programme en ligne qui vous permette de tester directement à partir de logs Apache.

J’ai créé un programme en R qui va transformer vos logs Apache en fichier CSV en donnant à chaque fois une numéro de « session » au Bot en fonction de sa première lecture du fichier robots.txt.
( Merci Sylvain Deauré pour l’astuce et merci à John Mueller qui m’a indiqué que le GoogleBot mobile partage l’analyse du fichier « robots.txt » avec le GoogleBot Desktop )

Vous pouvez tester gratuitement ce programme sur cette adresse, attention j’utilise une version de Shiny gratuite donc limité à 20h par mois, cela part très vite donc premier arrivé, premier servi.
https://data-seo.shinyapps.io/LogToCSV/

Utiliser mon convertiseur

Pour tester mon convertisseur BEA, vous devez suivre ces trois étapes :
1. Choix du ou des fichiers à charger en .log ou .gz. Une fois chargé,  les 1000 premières lignes apparaissent à droite avec les différentes colonnes : V1, V2, V3, …
2. Ensuite, indiquez quelle colonne correspond à l’IP, quelles colonnes à la date ( ici V4 et V5 ), quelle colonne correspond à l’URL et enfin quelle colonne correspond à l’User-Agent puis cliquez sur « Prepare Data » pour tester
3. Si le résultat vous convient, cliquez sur « Download CSV » pour obtenir le fichier CSV correspondant.

bea-load-apache-logs

Résultat :

bea-caseid

Configurer ProM

  1. Télécharger ProM : http://www.promtools.org/doku.php
    1. Je vous conseille la dernière version 6.6 ( au moment de l’écritue de cette article )
  2. Après, lancez ProM
  3. Puis, cliquez sur le bouton « Import » ( bouton vert à droite )
  4. Chargez le fichier CSV que vous venez de générer.
    step1-import-csv
  5. Cliquez sur le bouton « Use ressource » à droite
    step3
  6. Puis, cliquez sur « Convert CSV to XES » puis Start
    step4
  7. A l’écran « Configure CSV Parser Settings », cliquez sur Next
    step5
  8. Enfin à l’écran « Configure Conversion from CSV to XES »
    1. pour le « case colums » : choisir caseid
    2. pour le « event » : chosir url
    3. indiquez un « starttime » en choisissant le champ date et indiquez le pattern : dd/MM/yyyy HH:mm:ss
    4. retirez le « completion time »
    5. cliquez sur « Next »
    6. A l’écran suivant, cliquez sur Finish
      step7

Si tout a correctement fonctionné, vous devez arriver sur cet écran avec un sélecteur qui permet de choisir parmi 10 visualisations.

proM-bea-ok

Utiliser ProM

Désormais, vous avez plus de 10 visualisations mais pour le moment, j’en utilise que 7 au quotidien.

Log visualizer
Voici la vue qui vous donne un tableau de bord qui indique des informations statistiques.

Explore Event Log
Liste des parcours les plus fréquents

Log Visualizer (context-aware)
Très pratique pour analyser la fréquence d’analyse du GoogleBot et comparer avec le Googlebot Mobile.
Je vous conseille pour tester de mettre « concept:name » pour x-axis et « IP » pour Y-Axis.

Dotted chart
Il y a une configuration à tester.
X-axis : E-timestamp
Y-axis : E:conceptname
Color Attribute: E:conceptname

Time Base Log
Cette visualisation permet d’extraire les cas d’usages les plus fréquents ou les moins fréquents en fonction du temps passé par le Bot.

Inductive Visual Miner
Il s’agit de la vue la plus intéressante car vous pouvez visualiser le parcours du Bot dans le moindre détail.
Je vous conseille de jongler avec les curseurs de droite : activities et paths.

  • Identifier le chemin le plus fréquent et les goulots d’étranglements ( activities 100%, paths 100% )
  • Détecter les pages les plus crawlés ( activities 10%, paths 10% )
  • Trouver le premier groupe de pages actives où il faut revoir le maillage interne ( activities 40%, paths 100% )
  • Traiter les groupes de pages actives où il faut revoir le maillage interne ( activities 80%, paths 100% )

L’avantage de ce Visual Miner est qu’il faut juste un fichier de logs pour identifier rapidement les soucis et il est très facile de comparer avec un autre fichier de logs.

Conclusion

Je pense que le BEA (process mining) peut beaucoup apporter en SEO. Il existe de très nombreux filtres que je vais détailler dans un prochain chapitre.

Là je me suis concentré à créer un outil qui analyse à la fois le comportement du Googlebot Desktop et Mobile et vous donne un éventail des visualisations.

Bien sur, il est possible d’ajouter de très nombreuses dimensions comme le PR interne, le nombre de liens entrants, le score sémantique et ainsi vérifier qu’un maillage interne est efficace ou pas.
Il est même possible de détecter un changement de comportement du Google Bot et ainsi détecter une mise en production qui a altéré ou amélioré le parcours du Bot sur le site.

Dans un prochain article, je vais vous montrer comment utiliser le fuzzy miner pour gagner en efficacité dans l’analyse SEO et le traitement des erreurs.

N’hésitez pas à laisser des commentaires si vous avez testé ou si vous avez des questions.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *