Sobriété numérique

Sobriété numérique : Bing fait le premier pas


Peu de personnes connaissent cette notion de sobriété numérique.
Pourtant l’expression a été créé il y a plus 11 ans (Source Green IT : Mai 2008).
Elle fut immédiatement perçue négativement, la décroissance n’a jamais été à l’ordre du jour des discussions.

Je vous invite à lire mon article qui va vous dévoiler l’impact environnemental du numérique mais surtout mettre en avants des solutions concrètes.

Pourquoi consommer moins d’énergie ?

A l’heure actuelle, il existe plus d’une vingtaine de raisons de lutter contre le gaspillage, la pollution et le réchauffement climatique. La NASA les recense très bien sur cette page : https://climate.nasa.gov/

  • Les températures vont continuer d’augmenter jusqu’à atteindre un phénomène de serre
  • Les vagues de sécheresse et de chaleur vont exploser
  • Les ouragans deviendront de plus en plus forts et plus fréquents.
  • Le niveau de la mer augmentera de 1 à 4 pieds ( de 30 cm à 1m20 ) d’ici 2100
  • Il n’y aura plus de glace en Arctique

Bref, cela ne présage rien de très bon pour les générations à venir….

Ces dernières années, les initiatives se sont multipliées pour contrer le réchauffement climatique et la pollution.

« The shift project » a déjà recensé toutes les actions que chacun peut faire à son niveau mais dans les faits, la majorité des citoyens se contrefiche des répercussions de la surconsommation : http://decarbonizeurope.org


L’Obsolescence programmée, vue par Martin Vidberg pour le Cniid – © Cniid

Internet est même atteint d’un mal incurable que j’ai nommé la Syllogomanie Virtuelle.

C’est grave, docteur ?

Oui c’est très grave, la syllogomanie est le fait d’accumuler de manière excessive des objets. Avec Internet, c’est encore plus fort car chacun ( humain ou bot ) peut tout conserver et tout dupliquer à loisirs…

Lavoisier avait tellement raison : rien ne se perd, tout se transforme et avec Internet, nous battons tous les records du monde.

Allez quelques exemples :

  • Les performances des sites sont conservées : https://httparchive.org/
  • Les clics, les actions des utilisateurs sont conservés et historisés par les outils analytiques ( Google Analytics, ATinternet, … )
  • Toutes les modifications sont historisées pour des raisons de sauvegarde et sécurité.
  • Les modifications des sites sont conservées : https://web.archive.org/
  • L’indexation des moteurs de recherche est conservée au jour le jour pour comprendre les sites qui montent et descendent dans les classements ( SEMrush, Ahrefs, …)
  • Toutes les actions financières sont conservées quelques soient les montants
  • Tous les classements sont conservés….

Ensuite, tous les contenus peuvent être clonés à l’infini, si on devait faire un top 3:

  • les catalogues produit
  • les articles Wikipedia ou autre site de news
  • les copies de site complets ( spam, contrefaçon, phishing,… )

Quelques chiffres pour le Digital

La consommation d’énergie du numérique est aujourd’hui en hausse de 9 % par an. Il est possible de la ramener à 1,5 % par an en adoptant la « Sobriété numérique » comme principe d’action. Source : The Shift Project

Toutes les études arrivent à une même conclusion: vers 2020, le digital qui regroupe les centres de stockage, l’univers internet, les terminaux, les réseaux, les cryptomonnaies et la technologie blockchain pèseront pour 20% dans la consommation électrique de la planète. Pour vous donner un ordre d’idée, les États-Unis en 2016 consommait 18% de l’électricité mondiale en 2016. ( Source : IEA – Key word Energy statistics – 2018 )

Dans le digital, il y a des outils qui pèsent très lourd, ce sont les moteurs de recherche, ces outils où vous indiquez votre intention de recherche et ils vous retournent des résultats pertinents et qualitatifs.

Pourquoi les moteurs de recherche sont concernés ?

Pour découvrir le nouveau contenu, les moteurs de recherche sont obligés de déclencher des requêtes HTTP via des bots et là les chiffres vont vous faire peur.

  • Plus de 100 milliards d’URLs sont découverts chaque jour ! Là, vous voyez l’intérêt de passer par des experts en SEO pour sortir du lot !
  • Les moteurs stockent donc des trillions d’URLs normalisées ( ils ne conservent que la forme de l’URL sans paramètres ).
  • Selon une étude de la société Imperva, spécialiste en cybersécurité, parue début 2017, plus de 50% du trafic Internet est généré par des bots.

De quoi faire le point sur le rôle indispensable joué par les bots dans l’écosystème du web mais aussi sur les menaces que posent les fake bots.

Comment distingue-t-on un bot d’un fake bot ?

C’est l’usage qui va faire la différence. Parmi les bots autorisés, nous avons les outils permettant de s’assurer qu’un site web est toujours en ligne, et nous avons aussi les bots des moteurs de recherche qui parcourent les différentes pages du web et les classent par ordre d’intérêt.

Source : https://www.dianomi.com/cms/wp-content/uploads/2018/06/RobotTrafficReport-US_14June2018_V5-draft.pdf

A l’heure d’aujourd’hui, les projections indiquent que c’est toujours 48% pour les humains mais 23% pour Google Bot et autres moteurs et 29% par des fakes bots ( des bots illégitimes qui récupèrent illégalement du contenu )

Les fake bots sont un véritable fléau et se font passer pour des navigateurs web contrôlés par de vraies personnes. L’objectif peut être de récupérer les données librement accessibles par la concurrence ou inonder de requêtes un service pour le perturber.

Solution de Bing

La solution proposé par Bing depuis le 31 Janvier 2019 est un changement de paradigme où les moteurs vont permettre aux webmasters d’indexer leurs nouvelles URLs via une API.
Source : https://blogs.bing.com/webmaster/january-2019/bingbot-Series-Get-your-content-indexed-fast-by-now-submitting-up-to-10,000-URLs-per-day-to-Bing

Cela va réduire considérablement les crawls pour trouver des informations sur les différents sites. Des annonces majeures seront annoncées dans ce sens par Bing dans les prochaines semaines.

Concernant les fake bots, il est très important de bloquer tous les bots non légitimes en n’autorisant les crawls massifs que pour des IPs trustés.

Euh une API, c’est quoi ?

Comme nous l’expliquons dans la formation DATA SEO LABS Niveau 1 (https://dataseolabs.com/fr/formations/niveau-1/), la meilleure métaphore pour comprendre le fonctionnement d’une API est le serveur dans un restaurant. C’est un programme qui prend votre commande et vous délivre un produit

Une API a juste besoin d’une commande (des données en entrée) pour vous fournir votre repas (un livrable). Attention le livrable peut être de la data ( données CSV,JSON,XML ) mais aussi la réalisation d’une action avec par exemple la création d’un nom de domaine ou l’indexation de votre page en temps réel pour reprendre notre exemple concret.

Ok mais là , c’est que pour les développeurs votre truc ? Pas forcément et nous pouvons accélérer le mouvement.

Accélérons avec les API Indexing

Effectivement, la question est de savoir que faire si vous n’avez pas de développeurs pour vous connecter aux APIs des moteurs de recherche.

Tout d’abord, j’invite tous les développeurs à jouer le jeu si vous savez le faire ainsi ça poussera les moteurs de recherche à travailler ensemble sur une API commune.

Je propose aussi quelques idées complétement réalisables avec la communauté open source pour aider toutes les non-développeurs à les utiliser sans compétences techniques.

Les API d’indexation temps réel des moteurs de recherche peuvent être intégrées:

  • dans chaque CMS ( Content Management System : WordPress, Drupal, Prestashop, … ). Ainsi à chaque ajout de contenu, vous pouvez décider d’indexer en temps réel vos pages sur Bing ou Google.
  • dans chaque TMS ( Translation Management System : Memsource ). Ainsi à chaque nouvelle traduction, vous pouvez indiquer que votre page a changé.
  • si vous utilisez une solution maison avec des frameworks connus ( Symfony, Java, .Net … ) ou pas, on peut imaginer que vous branchez directement cette API sur votre CIP ( Jenkys, CDS, … ) ou PIC en français ( Plateforme d’Intégration Continue ). Ainsi à chaque création ou modification, vous pouvez envoyer en temps réel le nouveau contenu vers les moteurs de recherche.
  • enfin, on peut aussi imaginer que les crawlers SEO ( OnCrawl ) qui vérifient chaque jour le bon fonctionnement de vos sites soumettent chaque nouvelle URL détectée. Avec ce type d’approche, vous n’avez rien à changer sur votre site.

Concernant le spam, Google et Bing sont relativement bien armés contre ces techniques et il sera très difficile d’indexer du contenu illégitime en temps réel sur des sites spammers. De plus, Bing par exemple peut travailler avec des soumissions via des IP trustés pour garantir la source des indexations en temps réél.

J’espère que mon article pourra faire bouger un peu les choses, en tout cas tous mes futurs projets vont intégrer les API Indexing car elles permettent d’indexer les pages en temps réel et s’inscrivent dans une démarche de sobriété numérique.

Un grand merci à Fabrice Canel, Principal Program Manager de Bing qui m’a inspiré sur cet article suite à de nombreuses discussions. Un grand merci aussi à Rémi et Sandra pour la relecture, si cela trouve son public, je vais le traduire et ajouter des faits encore plus croustillants, merci pour vos commentaires.

Envie d’économiser 1, 2, 3 ou 4 centrales nucléaires, vous savez ce qu’il vous reste à faire.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *