#SEO Créer votre maillage interne sémantique avec @visiblis- Tutorial sur #Starwars – Partie 1


banniere data seo labs

Le SEO évolue de jour en jour et le Machine Learning prend une grande place donnant lieu à des outils sémantiques de plus en plus évolués mais aussi à des moteurs de recherche de plus en plus intelligents. Ce billet est mon cadeau de Noel où je vous apprends comment créer votre propre maillage interne sémantique autour de la thématique Star Wars.

Comme la saga, j’ai découpé ce billet en 3 parties que je vais diffuser du 9 Décembre au 25 Décembre 2015.

logo star wars

Avant de commencer, voici un listing, des outils qui permettent d’améliorer son corpus sémantique. C’est en croisant un grand nombre d’outils qu’on limite le bruit et qu’on arrive à de très bons résultats.

Les outils
Bien sûr, il y a les outils Google :

  • Google Keyword Planner est associé un outil associé à AdWords, qui est utilisé pour préparer des campagnes de publicité mais aussi pour réaliser une étude de mots-clés. Ainsi vous pouvez générer de nouvelles idées de mots-clés, obtenir des statistiques relatives au volume de recherche.
    trend planner star wars
  • Google Trends est un outil gratuit qui permet de visualiser les tendances de recherches sur Google et de découvrir les requêtes et les thèmes les plus populaires d’une période définigoogle trend star wars
  • Google Correlate va analyser un mot clé sur son comportement à travers le temps. En analysant ce comportement, il va trouver des comportements similaires d’autres mots clés liés à d’autres thématiques.google correlate for star wars query

Ensuite, il y a des outils dédiés à l’analyse sémantique.

  • Université de Leipzig met à disposition une base de données intitulée « Le Corpus Français » composée de près de 37 millions de phrases, soit environ 700 millions de mots.
    http://wortschatz.uni-leipzig.de/ws_fra/
  • Visiblis est un suite de logiciels sémantiques qui permet de mieux écrire ses contenus et ses titres tout en optimisant son maillage et page rank sémantique. Je trouve qu’il s’agit du meilleur outil SEO sémantique du moment pour ceux qui débutent ou qui n’ont pas de besoins trop complexes ( site avec plus de 100 000 urls à analyser, contenus trop long, encodage spécial , pages en anglais, sites en javascript… ) .
    Un grand bravo à Jérôme Rossignal qui donne un outil très pratique à la communauté SEO à un prix abordable.
    http://www.visiblis.com

Enfin, il existe un grand nombre d’API dédié au Data Mining que je vais pas lister car il en existe au moins 12 à ma connaissance.
Pour mon article, je vais utiliser l’API Aylien qui donnent 1000 requêtes par jour pour vous montrer son potentiel et vous permettre de créer votre propre maillage interne sémantique. L’API Aylien reste à un tarif raisonnable ( $199 par mois ) pour 180 000 analyses.

  • Aylien est une API qui permet l’analyse de texte, la recherche d’information et l’extraction de données ( microformat, tags ) en utilisant le Machine Learning pour extraire le sens et l’efficience du contenu textuel et visuel
    http://aylien.com/

Episode 1  : Choix des pages supports
Il faut un grand nombre de pages supports pour pouvoir booster une page objectif.
Evitez les erreurs classiques sur les choix des pages supports et écoutez les conseils du Maitre Yoda :

  • La page avec une fin de publication, tu éviteras
  • La page non explorée par Google, tu refuseras
  • La page avec une profondeur trop forte, tu élimineras
  • La page sans rapport, tu exclureras

SCiFI-Universe a un découpage astucieux : une fiche oeuvre, qui se découpe ensuite en cycles (trilogie originale, prélogie, nouvelle trilo) puis en fiches médias (les films, les livres les jeux)  puis en éditions (le DVD, l’édition spéciale d’un jeu, le roman en version poche…)

Je vais vous donner plusieurs outils pour extraire les pages supports :

Query Explorer
Cet outil vous permet d’extraire toutes les données de votre compte Google Analytics
Il est simple d’utilisation, suivez les étapes suivantes pour extraire les urls qui génèrent du trafic SEO

1 / Configurez votre compte GA
api explorer

2 / Spécifiez les paramètres suivants :
query explorer param

3/ Cliquez sur « Run query » et vous obtenez votre premier listing.

Package R
Avec R, c’est encore plus simple car j’ai créé une fonction dédiée.
Vous avez juste à fournir en paramètre la date de début, la date de fin et id qui correspond au paramètre p de l’url dans Google Analytics.
Ainsi vous obtenez un dataframe prêt à être utiliser.

analyticsGetOrganicLandingPage <- function(id,startdate,enddate) {
 
 DF <- google_analytics(id = id, 
 start=startdate, end=enddate, 
 metrics = "ga:sessions", 
 dimensions = "ga:landingPagePath",
 sort = "-ga:sessions",
 filters = "ga:medium=@organic,ga:source=@google",
 samplingLevel = "WALK") 
 
 DF <- summaryBy(sessions~landingPagePath, data=DF, FUN=sum) 

 colnames(DF) <- c('Address','Sessions')

 DF <- arrange(DF,-Sessions)
 
 return(DF)
}

Crawler avec Xenu
Lancez un crawl sur votre site pour obtenir des informations précieuses :

  • l’url ( qui va servir d’identifiant )
  • la profondeur de la page ( Level )
  • le rescode ( Status.Code )
  • le nombre de liens entrants ( Links.In)
  • le nombre de liens sortants ( Links.Out)

N’oubliez pas de limiter la profondeur de crawl de votre crawler :

xenu profondeur

Xenu reste très simple à utiliser, vous avez juste à indiquer votre url de départ.

Une fois que le site est complètement crawlé, vous pouvez exporter un fichier texte qui contient tous les liens.

Export to TAB separated file…

xenu

Avec R, je fusionne les résultats de la liste des pages crawlées avec la liste des pages qui ont du trafic SEO et j’applique les conseils du Maitre Yoda.

site <- "http://www.scifi-universe.com"
# cette variable se trouve après le paramètre d'une url google analytics
idAnalytics <- "144342"
# prenez au moins les deux derniers mois
DF_analytic <- analyticsGetOrganicLandingPage(idAnalytics, "2015-09-01","2015-11-30")

# spécifiez bien le chemin vers votre fichier texte Xenu
DF_crawler <- read.csv("./projects/scifi-universe.com/xenu_links.txt", header=TRUE, sep="t" )

# on conserve que certaines données
DF_crawler <- filter(DF_crawler, grepl("html",Type) ) %>% select( Level
 ,Links.Out,Links.In
 ,Address
 ,Status.Code
 ,Size
 #,Title
 )

# on remplace url du site par une chaine vide car Google Analytics ne précise pas le nom de domaine
DF_crawler <- as.data.frame(sapply(DF_crawler,gsub,pattern=site,replacement=""))

# on combine les deux tableaux
DF_merged <- merge(x = DF_analytic, y = DF_crawler, by = "Address", all.x = TRUE) %>%
# on retire les urls où le niveau de profondeur n'a pas été trouvé 
 filter(!is.na(Level)) %>%
# on retire les profondeurs supérieur ou égal à 8 
 filter(as.integer(Level)<8) %>%
# on trie par session 
 arrange(-Sessions )

write.table(DF_crawler, file = "./projects/scifi-universe.com/page-support.csv", sep = ";", col.names = FALSE )

Crawler avec Screaming Frog
Screaming Frog est plus complet que Xenu et permet d’obtenir plus d’informations moyennant une licence de 99 livres par an :

  • l’url ( qui va servir d’identifiant )
  • la profondeur de la page ( Level )
  • le rescode ( Status.Code )
  • la méta Robots ( Meta.Robots.1)
  • la balise H1 ( H1.1 )
  • la canonical ( Canonical.Link.Element.1 )
  • le nombre de liens entrants ( Inlinks )
  • le nombre de liens sortants ( Outlinks )

Il peut vous faire gagner beaucoup de temps si vous ne maîtrisez pas R car il peut croiser vos données durant le crawl avec les informations de Google Analytics.

J’ai écrit un article sur ce sujet : http://data-seo.com/2015/07/09/tutoriel-screamingfrog-v4-decouvrez/

Conclusion
C’est la fin de l’épisode 1 et normalement, vous devez avoir votre liste de page support prête à être exploitée.

Un maillage interne sémantique peut être mis en place en travaillant avec des outils comme R, Xenu, Google Analytics.

J’ai travaillé avec R mon langage de prédilection mais utilisez la technologie avec laquelle vous êtes le plus à l’aise.

J’ai utilisé un crawler pour identifier les pages supports mais le nec plus ultra est de faire le même travail avec un analyseur de logs.

Ce type de maillage va non seulement aider vos internautes à découvrir des articles en rapport avec leur recherche mais aussi aider les bots à découvrir des pages de qualité.

Dans le prochain épisode, vous allez découvrir comment choisir les pages objectifs et les optimiser avec Visiblis.

logo star wars

Que la force soit avec vous ! La suite au prochain épisode

Crédits photo : Starwars

 

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *