Accessibility Tools

- Le blog participatif de bioinformatique francophone depuis 2012 -

Retour d'expérience : bonnes pratiques à appliquer en cas de déréférencement Google (et autres)

Aver­tis­se­ment : cet article déroge excep­tion­nel­le­ment à la ligne édi­to­riale que nous nous sommes impo­sées depuis le début de l'aventure. Nous n'allons pas par­ler de bio­in­for­ma­tique de près ou de loin dans cet article. Quoique les plus enthou­siastes d'entre vous pour­raient dire que cela peut arri­ver à une appli­ca­tion web bioin­fo 🙂

Mise en bouche

Nous avons mal­heu­reu­se­ment, et à notre grande sur­prise, vécu récem­ment un déré­fé­ren­ce­ment inat­ten­du de tous les plus gros moteurs de recherche connus et recon­nus : Google, Duck­duck­go, Yahoo, Bing, Lycos, … Tous sans excep­tion nous ont d'un coup d'un seul effa­cé du réseau. Net, propre, sans bavure. Nous n'existions plus pour eux. Cal­mez-vous, cal­mez-vous ! Repre­nez votre res­pi­ra­tion, nous ne sommes pas du genre à tout lâcher sous pré­texte que notre tête ne revient plus à quelques robots d'indexation. D'ailleurs pas de panique (et spoi­ler), à l'heure où ces lignes sont écrites, le pro­blème est réso­lu.
Mais les 5 ans de clics et de par­tages d'articles que vous aviez réa­li­sés jusqu'alors semblent encore bien éloi­gnés par rap­port au score total, appe­lé aus­si "ran­king", que nos chers moteurs de recherche nous attri­buent main­te­nant. Pour un rap­port chif­fré (nos amis sta­tis­ti­ciens appré­cie­ront), d'après Alexa, nous aurions per­du pas moins d'environ d'un mil­lion de places, rien que ça. Même pas mal.

Impres­sion d'écran du site Alexa​.com

La découverte du problème

Pour rap­pel, nous sommes actuel­le­ment 4 admi­nis­tra­teurs à se relayer sur bioin­fo-fr. Chaque semaine un admi­nis­tra­teur est de garde et un autre est dési­gné pour le sup­pléer en cas de pro­blème ou l'aider en cas de sur­charge de tra­vail sou­dain. Ce début d'année 2017 char­gé pour nous 4 pour­ra sans doute expli­quer le manque de réac­ti­vi­té de notre part par rap­port au pro­blème. Mi-jan­vier 2017 nous avions en effet enta­mé un fil de dis­cus­sion entre-nous concer­nant une perte de place dans les recherches Google. Après plu­sieurs échanges, nous pen­sions que la nou­velle poli­tique des géants du web en matière de full HTTPS pour tout le monde était la rai­son pre­mière de cette perte de score. Nous déci­dions donc d'entamer une migra­tion d'HTTP à HTTPS pour l'ensemble du blog. Celle-ci a com­men­cé en février 2017 et devait se dérou­ler en plu­sieurs étapes, éta­lées dans le temps sui­vant nos dis­po­ni­bi­li­tés.

Puis un jour, avant qu'on finisse notre migra­tion, plus rien. Black-out. Nous n'étions plus trou­vables… Qu'avions-nous fait ? Était-ce le fruit d'une mau­vaise manip dans nos étapes de migra­tion ? Notre cer­ti­fi­cat affi­chait un war­ning, peut-être que nous n'avions pas eu de chance et que les robots indexeurs étaient pas­sés par là au mau­vais moment… Que faire ? Nous n'avions jamais fais face à un pro­blème de la sorte pour aucun d'entre-nous. L'enquête était ouverte.

Mes­sage de war­ning appa­rais­sant lorsque le déré­fé­ren­ce­ment est arri­vé

L'enquête

Nous par­tions donc de zéro, il fal­lait tout envi­sa­ger. Tout d'abord il fal­lait essayer de com­prendre. Si nous réus­sis­sions à savoir quand cela avait com­men­cé, peut-être que nous pour­rions cor­ré­ler une date à une action pré­cise faite sur le blog (migra­tion, nou­veau plu­gin, nou­veaux réglages, …). Cela pou­vait être tout et n'importe quoi. Un petit tour sur notre compte Google Ana­ly­tics allait sur­ement nous aider.

Ok… Donc pour résu­mer voi­là ce que cela nous a appris : depuis début jan­vier 2017 nous sommes pas­sés de pics de fré­quen­ta­tion à 750/​800 visites par jour lors d'une publi­ca­tion d'article à "seule­ment" 100/​150. Nous étions donc dans le juste, il y avait bien quelque chose de louche. (note au lec­teur qui se dit à cet ins­tant "mais il leur à fal­lu 3 mois pour avoir l'idée de véri­fier leurs stats ?!", eh bien… on vous l'a dit : on était assez occu­pés, pre­mière faille iden­ti­fiée et mau­vais point pour nous, on vous le concède).

Nous avions donc une four­chette de dates, autour du 9 jan­vier.
Avec le temps, nous avons appris à nous orga­ni­ser et à noter TOUTES les actions que nous entre­pre­nons sur le blog lors de nos semaines d'admin de garde. Ce fichier de log éplu­ché, aucune action ne fut recen­sée dans cette plage de dates. Dom­mage, ç'eût été trop simple.

Nous avan­cions quand même : on pou­vait dire que ce n'était pas une action impu­table à l'administration du blog, ni au début de la migra­tion en HTTPS (qui avait com­men­cé quelques semaines plus tard).

Nous voi­là repar­tis dans les méandres des mys­tères de l'indexation, du ran­king, des algo­rithmes des moteurs de recherches, …

Nos recherches nous ont alors ame­nées à un éven­tuel can­di­dat pou­vant nous appor­ter une expli­ca­tion à nos sou­cis : sitemap.xml (je passe sous silence ici une modi­fi­ca­tion minime du robots.txt, mais ça aurait pu aus­si être de sa faute).

Notre ami le fichier sitemap.xml

Les bilingues l'auront com­pris, il s'agit d'un fichier char­gé de décrire le plan du site. Ce fichier est l'une des pre­mières choses qu'un robot indexeur va cher­cher en arri­vant sur une page. Chez nous, c'était bien simple il n'y en avait pas. Du coup, on se docu­mente, on regarde com­ment c'est struc­tu­ré (il y a une conven­tion à res­pec­ter, comme pour un bon vieux SBML) et on voit qu'il est pos­sible de le géné­rer faci­le­ment via plu­sieurs plu­gins qui pro­posent en plus de cela tout une ribam­belle d'options cen­sées aider à l'indexation d'un site. Super, ça nous fera gagner du temps et de la visi­bi­li­té. On se met d'accord sur celui qu'on sent le mieux, on l'installe et on lance la géné­ra­tion du sitemap.xml tout beau, tout propre, tout comme il faut.

Pour info, voi­ci notre bô sitemap.xml :

Ni plus, ni moins que des infor­ma­tions sur des che­mins menant à d'autres fichiers XML. Ceux-ci per­met­tront d'aller plus loin dans l'arborescence et la des­crip­tion du site. En prime, des horo­da­tages cor­res­pon­dants aux der­niers chan­ge­ments recen­sés sur ces pages.

Du coup, main­te­nant qu'on montre patte blanche aux robots c'est gagné ?! Vous êtes sûrs ? Com­ment savoir sans avoir à attendre une semaine, voire un mois et consta­ter que nos articles reviennent "dans le game"…ou pas ?

Google Search Console

C'est à ce stade qu'on a décou­vert THE outil, et c'est Google (notre bour­reau du moment) qui le met à notre dis­po­si­tion, "weird" comme diraient nos copains anglais ou iro­nie du sort comme on dit chez nous.

Google Search Console c'est un peu LA boite à outil du web­mas­ter pour tes­ter l'indexation de son site (et son bon fonc­tion­ne­ment). Pour en pro­fi­ter, il nous faut juste un compte Google (ça tombe bien on avait ça depuis le début pour l'analytics et le Google Plus).

On déclare ensuite quel site on admi­nistre, puis on peut com­men­cer à faire jou­jou ! Nous n'allons pas faire l'inventaire de tout ce que vous trou­ve­rez comme fonc­tion­na­li­tés, mais en voi­ci quand même un aper­çu avec cette impres­sion d'écran du menu de navi­ga­tion :

"Explo­rer comme Google", voi­là ce qui nous a aidé à tout com­prendre. Cette fonc­tion­na­li­té vous per­met de décla­rer l'URL d'une page de votre site et de voir com­ment le robot de Google la per­çoit.
Nous venions tout juste de créer un magni­fique sitemap.xml, ça aurait été bête de ne pas deman­der com­ment il été per­çu !

Ni une, ni deux, Google, mon bon Google, dit nous qui a le sitemap.xml le plus beau !

Qu…oi… ? Bon, cela a assez duré ! Que celui ou celle qui nous a jeté un mau­vais sort se désigne et nous dise ce qu'il/elle veut de nous !

Blague à part, à ce stade-là nous ne fai­sions pas les malins, mais nous nous rap­pro­chions indu­bi­ta­ble­ment du pro­blème et on avait main­te­nant un atout de taille : la vue.

La traque du coupable

L'erreur géné­rée nous réfé­ren­çait une des­ti­na­tion par­ti­cu­lière : notre réper­toire à plu­gins.
Avant d'aller plus loin, et de nous jeter des cailloux, il faut savoir qu'une de nos règles en matière de ges­tion du blog est d'installer le moins de plu­gins pos­sibles. Car qui dit plu­gin, dit poten­tiel­le­ment faille de sécu­ri­té et mises à jour régu­lières à faire. Cet inter­lude faite, vos petites pierres ran­gées dans vos poches, conti­nuons notre enquête dans un cli­mat serein.
On cherche donc un  plu­gin répon­dant au doux nom de "xslt". Très bien, sauf que depuis l'interface admin de ges­tion des exten­sions rien ne porte ce nom là… Et xslt étant employé pour un for­mat infor­ma­tique, les recherches rapides ne nous don­nèrent rien de mieux comme infor­ma­tion. For­cé­ment, c'est comme dans les films, si c'était trop simple on aurait pas pu en faire un article 🙂

Conti­nuons. On a récu­pé­ré la vue, pro­fi­tons en ! Nous avons donc désac­ti­vé la dizaine de plu­gins ins­tal­lés, puis sommes retour­nés faire un test dans la console search.

Ça passe !

Enfin, vic­toire ! Pour ceux qu'on aurait per­du : nous avions trou­vé l'origine du bla­ckout : un vilain plu­gin !
Mais nous ne l'avions pas encore iden­ti­fié, pour cela il a fal­lu ral­lu­mer tous les plu­gins un à un et tes­ter à chaque étape via l'outil de Google pour voir si Nono le robot arri­vait à pas­ser. Et comme on est plu­tôt chan­ceux jusque-là, on est allé jusqu'à l'avant der­nier plu­gin à tes­ter…

On vous passe le sus­pens, qui n'a que trop duré dans cet article, le cou­pable était "Bet­ter RSS Feeds" (actif sur le blog depuis nos débuts pour la petite his­toire).
Après véri­fi­ca­tion sur le site de cet sale­té (que nous ne lin­ke­rons pas pour évi­ter de lui faire de la pub) il s'avère qu'il est tou­jours dis­po­nible au télé­char­ge­ment, qu'il a été choi­sit au moins par 2000 Word­Press, mais petite conso­la­tion tout de même : ses avis récents le dézinguent. Vous êtes main­te­nant pré­ve­nu, n'y tou­chez sur­tout pas si vous gérez un Word­Press.

Hum…ça donne envie d'essayer…

Alors ça y est ? On est clean maintenant ?

Petit réca­pi­tu­la­tif pour ceux qui sont encore là, qu'a‑t-on a réel­le­ment fait à ce stade ?

  • Nous avons trou­vé l'origine prin­ci­pale du déré­fé­ren­ce­ment et l'envoyer paître dans /​dev/​null
  • Puis pas­ser toutes nos pages en HTTPS for­cé
  • Et enfin tous nos média sont main­te­nant en HTTPS (nous nous effor­çons d'essayer de ne pas avoir de hot­lin­king dans nos articles, mais il y avait eu par­fois quelques ratés — une ving­taine d'articles sur 250 pour les ama­teurs de chiffres)
  • Tous nos média passent main­te­nant par un CDN
  • On a un cer­ti­fi­cat de sécu­ri­té valide sur toutes nos pages (si vous en trou­vez une ou ce n'est pas le cas, mer­ci de nous la signa­ler)
  • On a fait le ménage dans nos plu­gins et mis en place quelque chose exclu­si­ve­ment pour nous aider dans le réfé­ren­ce­ment de nos articles

Allez, on prend un de nos articles (le plus vu au hasard) et on regarde si notre nou­vel indic' s'entend avec lui.

FUUUUUUUUUUUUUUUUUUUUUUU !!!

On ne vous cache pas qu'à cette étape, des noms d'oiseaux ont fusé de toute part. Du coup on s'est dit qu'on avait conti­nué de pas avoir de chance et on a essayé un autre article…et encore un autre… Tous pareil.
Après être sor­ti pour crier un grand coup avoir repris nos esprits, nous avons regar­dé de plus près les URL blo­quées. L'une d'entre elle men­tion­nait clai­re­ment un appel vers sha​re​this​.com. Pour ne rien vous cacher, on aimait bien ce plu­gin, il nous per­met­tait de voir le nombre approxi­ma­tif de par­tages des articles et du coup d'essayer de voir les sujets qui vous inté­res­saient plus que les autres. Mais depuis le début de notre migra­tion en HTTPS ces comp­teurs avaient été remis à zéro (nou­velles adresses en HTTPS). Du coup, ça a été le dys­fonc­tion­ne­ment de trop pour Sha­re­this, hop direc­tion /​dev/​null éga­le­ment ! Des volon­taires pour le suivre ? Autant vous dire qu'à cet ins­tant chez les plu­gins ça ne mouf­tait plus trop 🙂

Pas de panique pour autant, ce qu'on a mis en place pour le réfé­ren­ce­ment pro­po­sait en option d'afficher des bou­tons d'aide au par­tage sur les réseaux sociaux. De plus, ils sont assez sym­pas niveau desi­gn. Adop­tés !

Après cela, c'est le moment du grand test. Là où la défaite n'est plus per­mise. Une invo­ca­tion aux dieux du ran­king est faite, un script Python 3.6 est sacri­fié (c'est ce qu'on avait de plus propre sous la main) et l'appel de Nono le robot est relan­cé !

VICTOIRE ! Enfin ! Nous sommes clean, propres, lavés de nos sale­tés, déba­ras­sés de notre crasse, etc.

La phase de convalescence

Alors ça y est, nous voi­là gué­ris ! Mais le mal a été fait et il a mal­heu­reu­se­ment eu le temps de s'ancrer en pro­fon­deur.
Nous espé­rons que grâce à nos actions, nos articles vont petit à petit être re-réfé­ren­cés. Mais l'inconnue majeure reste le temps que cela pren­dra.
Il n'y a pas de secret, le nombre de visites, de par­tages, de réfé­ren­ce­ment sur d'autres sites ne pour­ra que jouer en notre faveur et seul le temps nous dira quand nous retrou­ve­rons notre vitesse de croi­sière.

Doré­na­vant, nous allons por­ter une atten­tion toute par­ti­cu­lière à notre nou­vel ami qu'est la search console et qui dis­pose d'un bon nombre de petits outils dont nous n'avons pu pas par­lé dans l'article. Un exemple par­mi tant d'autre qui per­met un sui­vi quo­ti­dien du site, les erreurs enre­gis­trées au niveau des URLs :

Ici quand une erreur est détec­tée, l'URL fau­tive appa­raît et il ne reste plus qu'à cor­ri­ger le pro­blème (sou­vent minime) et décla­rer l'URL comme de nou­veau fiable.
Pas de panique pour l'onglet qui affiche les 14 erreurs, il s'agit d'anciens liens vers les anciennes fiches auteurs qui ont chan­gé d'URL au fil du temps. Il fau­dra qu'on se fasse une cam­pagne de cor­rec­tion de nos très vieux articles pour mettre un terme à cela.

Conclusion et pourquoi fait-on tout cela

En conclu­sion, il faut main­te­nant vous avouer que tout cela a été fait sur notre temps libre, le soir ou/​et le week-end. Cette pré­ci­sion afin de vous expli­quer les éven­tuels manque de dis­cer­ne­ment envers les erreurs géné­rées. A la relec­ture, je me rends compte qu'à tête repo­sée je n'aurais peut-être pas mis autant de temps à per­cu­ter et que j'aurais pri­vi­lé­gié cer­taines pistes plu­tôt que d'autres. Dans tout les cas, et pour ce qui me concerne, cela m'a per­mis d'apprendre ÉNORMÉMENT sur tout ce qui touche le réfé­ren­ce­ment (et son contraire du coup…).

De plus, on pour­rait se deman­der pour­quoi on a fait tout ça. La réponse est simple et il n'y en a qu'une : pour vous et sur­tout pour nos auteurs. Ils nous ont don­né du temps et font ce qu'est ce blog aujourd'hui : les articles d'entre-aide et de par­tage de savoir. C'était juste impos­sible de lais­ser tom­ber tout cela main­te­nant, pas après plus de 5 ans d’existence, pas après plus de 250 articles publiés (et plus d'une tren­taine en écri­ture à l'heure où sont écrites ces lignes).

Enfin, j'aimerai conclure cet article, qui j'espère aide­ra d'autres per­sonnes se retrou­vant mal­heu­reu­se­ment dans le même cas que nous, en remer­ciant mon super copain admin Yohan (alias nahoy) pour le (gros) coup de main dans l'urgence, les craintes et les ins­tants plus plai­sants par­ta­gés via nos échanges fou par mes­sages et pour les heures de loi­sirs sacri­fiées. Tu gères la fou­gère 😉 Je n'oublie pas éga­le­ment de remer­cier nos deux autres copines admins Isa­belle et Gwe­naëlle qui mettent énor­mé­ment d'énergie dans le blog 🙂

Mer­ci éga­le­ment à mes relec­teurs Kum­qua­tum, Hed­jour et nahoy pour le coup de main sur ce gros pavé ! N'hésitez sur­tout pas à enri­chir l'article en réagis­sant par le biais des com­men­taires.

Vous avez aimé ? Dites-le nous !

Moyenne : 0 /​ 5. Nb de votes : 0

Pas encore de vote pour cet article.

Partagez cet article




Commentaires

4 réponses à “Retour d'expérience : bonnes pratiques à appliquer en cas de déréférencement Google (et autres)”

  1. En tant que web­mestre Word­Press, je ne vois même pas l'intérêt de rendre un flux RSS "lisible par les humains".
    Un flux RSS doit être acces­sible à un lec­teur RSS, qui en fait un affi­chage "pour les humains".
    Bon débu­gage en fait, bra­vo 🙂

    1. Yoann M.
      Yoann M.

      En effet, mais c'était le des­tin. Sans lui nous n'aurions peut-être pas appris tout ça 🙂

  2. Ben zut… Sale affaire ! Nous sommes très sen­sibles, ici à OMIC­tools, à tout ce qui est réfé­ren­ce­ment. Nous fai­sons une veille conti­nuelle et une cor­rec­tion de toutes les erreurs. Car il est vrai que le ran­king, c'est un peu le nerf de la guerre quand on n'est pas une mul­ti­na­tio­nale. Vous pou­vez aus­si uti­li­ser des outils utiles comme GTme­trix, SEM­rush ou Screa­ming­Frog.
    Cou­rage et à bien­tôt !

  3. Super, mer­ci beau­coup pour ce retour d'expérience, c'est vrai­ment cool d'avoir un exemple de cas concret comme ca 🙂

Laisser un commentaire

Pour insérer du code dans vos commentaires, utilisez les balises <code> et <\code>.