Doppelte Inhalte (Duplicate Content) werden im Google-Index nicht gerne gesehen. Wo läge auch der Nutzen, wenn Inhalte einer Webseite doppelt und dreifach in den Suchergebnisse von Google auftauchen?

Oft wissen Webseitenbetreiber gar nicht, dass sie Duplicate Content auf ihrer Webseite haben. Content-Management-Systeme wie WordPress — das auch bei adwords-optimieren.de im Einsatz ist — produzieren leider immer wieder automatisch doppelte Inhalte: Der gleiche Text ist dann auf der Startseite, in Kategorien und in Tag-Ansichten lesbar und von Google indexierbar.

Eine von mehreren Lösungen, um doppelte Inhalte zu vermeiden, ist das Blocken mit Hilfe der robots.txt. Im folgenden Video geht Googles Matt Cutts auf die Problematik ein und verrät, ob das Blocken via robots.txt eine gute Idee ist:


(YouTube-Direktlink)

Zusammenfassung: Matt Cutts sieht das Blocken von doppelten Inhalten via robots.txt nur als „last resort“, also als letzte Lösung an. Besser als blocken ist eine gut durchdachte Seitenarchitektur, die duplicate content gar nicht erst entstehen lässt. — Statt das Crawlen vom Googlebot mittels robots.txt zu verbieten, vertritt Matt interessanterweise die Meinung, dass Google doppelte Inhalte auch ohne Eingreifen ganz gut erkennen kann. Das Wort „Canonical-Tag“ nimmt er dabei aber gar nicht erst in dem Mund (Erklärung siehe unten).

Doppelte Inhalte auch ohne robots.txt vermeiden

Es muss nicht immer ein Eintrag in die robots.txt sein, um Google daran zu hindern, bestimmte (Unter-)Seiten in den Index aufzunehmen. Ein einfaches Mittel ist das meta-Element, das im Kopfbereich einer Seite eingefügt wird:

meta name="robots" content="noindex"
…Indexierung durch Suchmaschinen verbieten.

meta name="robots" content="noindex, nofollow"
…Indexierung verbieten und verlinkten Seiten nicht folgen (nofollow).

Eine weitere Möglichkeit mit doppelten Inhalten umzugehen ist die Nutzung des Canonical-Tags, der im Kopfbereich der „doppelten“ Seite eingefügt wird:

link rel="canonical" href="http://www.beispiel.de/originalseite.html"
…führt dazu, dass Google die angezeigte Seite als „Stellvertreter“ erkennt und gleichzeitig über den Ort der Originalseite informiert wird.

→ Mehr Infos und viele Beispiele zur robots.txt
→ Alles zum Meta-Element „robots“
→ Matt Cutts über den Canonical-Tag