Clusteriser vos urls avec Open Refine


Cette semaine, je vous donne une astuce pour « clusteriser » vos urls sans utiliser R.
Je vais donc vous dévoiler comment le faire avec Open Refine, un outil Open Source

Open Refine
OpenRefine (anciennement Google Refine) est un outil très pratique pour travailler avec des données brutes:
– nettoyer les données inutiles
– transformer d’un format à un autre
– utiliser des services Web

1/ Vous devez télécharger Open Refine sur le site officiel :
http://openrefine.org/download.html

2/ Décompressez les fichiers et cliquez sur l’exécutable « google-refine.exe »

3/ Le navigateur se lance sur : http://127.0.0.1:3333/

4/ Cliquez sur : « Create Project »

5/ Importez le fichier de votre choix puis faites « Next »

6/ Ensuite, pour regrouper les urls similaires, vous cliquez sur la colonne qui contient les urls et vous sélectionnez :  Edit Cells > Cluster et Edit

cluster-edit

7/ Je vous conseille de conserver la méthode « Key Collision » et de mettre le Keying Function sur « cologne phonetic ». J’ai testé les différents algorithmes  et c’est le plus rapide.

Vous obtenez en quelques secondes pour 16 107 urls ce type de fichier.

url-cluster

8/ Cliquez sur « Select All » puis « Merge Selected & Close »

9/ Vous obtenez un fichier où chaque url a été regroupé par cluster le plus proche.

10/ Vous pouvez l’exporter dans le format de votre choix.

Conclusion
Open Refine est un excellent outil pour faire des manipulations complexes sur un fichier ou une base de donnée.

  • Interroger les API semrush, similarweb à partir d’une colonne Keyword
  • Calculer le pageRank Interne ou la proximité sémantique
  • Identifier les pages avec un contenu de faible qualité
  • Faire du regroupement sémantique
  • Détecter le contenu dupliqué

Note : J’ai gagné mon pari d’écrire un article sans R et pour un prochain article, je vais utiliser RapidMiner pour les adeptes de l’interface graphique.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *