samedi 12 novembre 2016

Empêcher l'indexation des PDF par Google

Problème rencontré :

Des coordonnées personnelles telles que des numéros de téléphone ont été publiées sur un site (sous wordpress dans mon cas). Elles se trouvent non pas directement sur des pages html, mais dans des fichiers PDF.

Solution :

Désactiver l'indexation par les moteurs de recherche des fichiers PDF (et Word par la même occasion au cas où). Pour cela, éditer le fichier .htaccess du site et ajouter :
#Bloquer l'indexation des fichiers Word et PDF
<files ~ "\.(doc|docx|pdf)$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>

Sources :

http://www.abondance.com/actualites/20130701-12840-desindexation-de-fichiers-pdf-bonne-ou-mauvaise-pratique.html
http://www.yapasdequoi.com/apache/2983-len-tete-x-robot-tag-ou-comment-vite-desindexer-des-pages.html