Quicktipp: So verhinderst du die Indexierung von PDFs

Letzte Aktualisierung 15.11.2024

Wenn du PDF-Dateien auf deiner WordPress-Seite hochlädst, landen sie oft in den Suchergebnissen von Google & Co. Das ist nicht immer gewünscht, besonders wenn es sich, zum Beispiel, um PDFs für Newsletter-Abonnenten handelt.

Es gibt mehrere Möglichkeiten, diese Dateien gezielt von der Indexierung auszuschließen:

robots.txt-Datei anpassen

Um alle PDFs von der Indexierung auszuschließen, kannst du in deiner robots.txt folgende Zeile hinzufügen:

User-agent: *
Disallow: /*.pdf$

  • User-agent: *:
    • Diese Anweisung gilt für alle Suchmaschinen-Crawler (z.B. Googlebot, Bingbot). Das * ist ein Platzhalter für alle Crawler.
  • Disallow: /*.pdf$:
    • Diese Anweisung sagt den Crawlern, dass sie alle URLs, die auf .pdf enden, nicht durchsuchen und indexieren sollen.
    • Der Teil /*.pdf bedeutet, dass jede Datei mit der Endung .pdf betroffen ist.
    • Das $-Zeichen stellt sicher, dass die Regel nur auf URLs zutrifft, die genau mit .pdf enden.

Erklärung

  • https://meineseite.de/dokument.pdf → Wird nicht indexiert.
  • https://meineseite.de/ordner/datei.pdf → Wird nicht indexiert.
  • https://meineseite.de/download?file=dokument.pdf → Wird ebenfalls nicht indexiert.
indexierung von pdfs verhindern

Separaten Ordner für PDF-Dateien nutzen

Lege alle PDF-Dateien, die nur über den Newsletter geteilt werden, in einen eigenen Ordner, z.B. /wp-content/uploads/newsletter-pdfs/.

Füge dann folgende Regel in deine robots.txt ein:

User-agent: *
Disallow: /wp-content/uploads/newsletter-pdfs/

Damit stellst du sicher, dass nur die Dateien in diesem Ordner von Suchmaschinen ignoriert werden.

PDFs per .htaccess von der Indexierung ausschließen

Du kannst den Zugriff auf PDF-Dateien für Suchmaschinen verhindern, indem du HTTP-Header mit der X-Robots-Tag-Anweisung in der .htaccess-Datei hinzufügst. Diese Methode weist den Crawlern an, die Dateien nicht zu indexieren.

# BLOCKIEREN VON PDF-INDEXIERUNG DURCH SUCHMASCHINEN
<IfModule mod_headers.c>
    <FilesMatch "\.pdf$">
        Header set X-Robots-Tag "noindex, nofollow"
    </FilesMatch>
</IfModule>

Erklärung der Änderungen:

  • <IfModule mod_headers.c>: Überprüft, ob das Modul mod_headers geladen ist, bevor die Header gesetzt werden.
  • <FilesMatch „\.pdf$“>: Diese Regel wird auf alle Dateien angewendet, die mit .pdf enden.
  • Header set X-Robots-Tag „noindex, nofollow“: Fügt einen HTTP-Header hinzu, der Suchmaschinen-Crawler anweist, diese PDF-Dateien nicht zu indexieren.

Nachdem du diese Änderungen in deine .htaccess eingefügt hast, wird der HTTP-Header X-Robots-Tag für alle PDF-Dateien gesetzt, was dazu führt, dass Suchmaschinen diese nicht indexieren.

Vielleicht interessiert Dich auch folgendes?

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Nach oben scrollen