Wie Google die Original-Seite bei Duplicate Content erkennt.

Wir wissen, dass Google Duplicate Content im Web nicht sanktioniert und jedes mal vor der Herausforderung steht zu identifizieren, welche Version gegenüber einer anderen Version zu bevorzugen ist.

Wenn es im Internet mehrere Versionen desselben Dokumentes gibt, wird die URL der höchsten Authority zur kanonischen Version. Der Rest gilt als Duplikat.

Das obige Zitat stammt aus dem Beitrag bei Link Inversion.

Ich habe dieses Zitat in dem Artikel von Dejan SEO über Duplicate Content gelesen und bin zu der Erkenntnis gelangt, dass es wert ist, der Sache tiefer auf den Grund zu gehen. Als ich mich bei Google-Patenten umsah, in denen der Begriff „Authority“ vorkam, fand ich dieses Patent, das nicht ganz das Gleiche ausssagt wie Dejan, aber insofern interessant ist, da es Wege findet, zwischen doppelten Seiten auf verschiedenen Domains auf der Grundlage von Prioritätsregeln zu unterscheiden, was interessant ist, um festzustellen, welche doppelten Inhalte die URL der höchsten Authority für ein Dokument sein könnten.

Das Patent lautet:

Identifikation der Primärversion eines Dokuments

Erfinder: Alexandre A. Verstak und Anurag Acharya

Bevollmächtigter: Google Inc.

US-Patent: 9,779,072

Zugegeben: 03. Oktober 2017

Gespeichert: 31. Juli 2013

„Ein System und Verfahren identifiziert eine Primärversion aus verschiedenen Versionen desselben Dokuments. Das System wählt für jede Dokumentversion eine Authority-Priority basierend auf einer Prioritätsregel und Informationen, die mit der Dokumentenversion verknüpft sind, und eine Primärversion basierend auf der Priorität der Authority und Informationen, die mit der Dokumentversion verknüpft sind.“

Beansprucht wird:

„Eine umfassende Methode: identifizieren einer Vielzahl von verschiedenen Dokumentversionen eines bestimmten Dokuments durch ein Computersystem. Identifizieren einer ersten Art von Metadaten durch das Computersystem, die jeder Dokumentversion der Vielzahl von verschiedenen Dokumentversionen zugeordnet ist, wobei die erste Art von Metadaten Daten beinhaltet, die eine Quelle beschreiben, die jede Dokumentversion der Vielzahl von verschiedenen Dokumentversionen bereitstellt. Identifizieren einer zweiten Art von Metadaten durch das Computersystem, die jeder Dokumentversion der Vielzahl von verschiedenen Dokumentversionen zugeordnet ist, wobei die zweite Art von Metadaten ein Merkmal jeder Dokumentversion der Vielzahl von verschiedenen Dokumentversionen beschreibt, das sich von der Quelle der Dokumentversion unterscheidet. Für jede Dokumentversion der Vielzahl verschiedener Dokumentversionen, wobei das Computersystem eine Prioritätsregel auf die erste Art von Metadaten und die zweite Art von Metadaten anwendet, um einen Prioritätswert zu erzeugen. Auswählen einer bestimmten Dokumentversion der Vielzahl von verschiedenen Dokumentversionen durch das Computersystem, basierend auf den für jede Dokumentversion der Vielzahl von verschiedenen Dokumentversionen erzeugten Prioritätswerten und Bereitstellen der bestimmten Dokumentversion zur Präsentation durch das Computersystem.“

Dies stützt nicht die Behauptung, dass die Primärversion eines Dokuments als die kanonische Version dieses Dokuments angesehen wird, und alle Links, die auf dieses Dokument verweisen, werden auf die Primärversion umgeleitet.

Es gibt ein weiteres Patent, das sich darauf bezieht, dass einer der URLs für Duplicate Content als repräsentative Seite ausgewählt wird, obwohl es nicht den Ausdruck „kanonisch“ verwendet. Aus diesem Patent:

„Doppelte Dokumente, die den gleichen Content teilen, werden von einem Webcrawler-System identifiziert. Beim Empfang eines neu gecrawlten Dokuments wird eine Reihe von zuvor gecrawlten Dokumenten identifiziert, die, falls vorhanden, den gleichen Content wie das neu gecrawlte Dokument teilen. Informationen, die das neu gecrawlte Dokument und den ausgewählten Satz von Dokumenten identifizieren, werden zu Informationen zusammengeführt, die einen neuen Satz von Dokumenten identifizieren. Doppelte Dokumente werden aufgenommen und aus dem neuen Dokumentensatz ausgeschlossen, basierend auf einer suchunabhängigen Metrik für jedes dieser Dokumente. Ein einziges repräsentatives Dokument für den neuen Dokumentensatz wird gemäß einer Reihe von vordefinierten Bedingungen identifiziert.

In einigen Ausführungsformen beinhaltet ein Verfahren zum Auswählen eines repäsentativen Dokuments aus einer Reihe von doppelten Dokumenten: Auswählen eines ersten Dokuments in einer Vielzahl von Dokumenten auf der Grundlage, dass das erste Dokument einem abfrageunabhängigen Score zugeordnet ist, wobei jedes jeweilige Dokument in der Vielzahl von Dokumenten einen Fingerabdruck aufweist, welcher den Inhalt des jeweiligen Dokuments identifiziert, wobei der Fingerabdruck jedes jeweiligen Dokuments in der Vielzahl von Dokumenten anzeigt, dass jedes jeweilige in der Vielzahl von Dokumenten im Wesentlichen den gleichen Inhalt ausweist wie jedes andere Dokument in der Vielzahl von Dokumenten und ein erstes Dokument in der Vielzahl von Dokumenten dem abfrageunabhängigen Score zugeordnet ist. Das Verfahren beinhaltet ferner das Indexieren des ersten Dokuments gemäß der unabhängigen Punktzahl der Abfrage, wodurch ein indiziertes erstes Dokument erzeugt wird und in Bezug auf die Vielzahl von Dokumenten, die nur das indizierte erste Dokument in einem Dokumentenindex beinhalten.“

Das andere Patent ist:

Repräsentative Dokumentenauswahl für eine Reihe von doppelten Dokumentenauswahl

Erfinder: Daniel Dulitz, Alexandre A. Verstak, Sanjay Ghemawat und Jeffrey A. Dean.

Bevollmächtigter: Google Inc.

US-Patent: 8,868,559

Zugegeben: 21. Oktober 2014

Gespeichert: 30. August 2012

„Systeme und Verfahren zur Indexierung eines repräsentativen Dokuments aus einem Satz doppelter Dokumente werden offengelegt. Offenbarte Systeme und Verfahren umfassen das Auswählen eines ersten Dokuments in einer Vielzahl von Dokumenten, wobei davon ausgegangen wird, dass das erste Dokument mit einer abfrageunabhängigen Bewertung verknüpft ist. Jedes jeweilige Dokument in der Vielzahl von Dokumenten weist einen Fingerabdruck auf, der anzeigt, dass das jeweilige Dokument im Wesentlichen den gleichen Inhalt wie jedes andere Dokument in der Vielzahl von Dokumenten hat. Offenbarte Systeme und Verfahren umfassen ferner die Indizierung des ersten Dokuments gemäß dem Query Independence Score, wodurch ein indiziertes erstes Dokument erzuegt wird. In Bezug auf die Vielzahl der Dokumente wird nur das indizierte erste Dokument in einen Dokumentenindex aufgenommen.“

Unabhängig davon, ob die Primärversion einer Reihe von doppelten Seiten als repräsentatives Dokument behandelt wird, wie in diesem zweiten Patent vorgeschlagen (was auch immer das genau bedeuten mag), halte ich es für wichtig, ein besseres Verständnis dafür zu bekommen, was eine Primärversion eines Dokuments sein könnte.

Warum eine Version unter einer Reihe von doppelten Seiten als Primärversion angesehen werden kann.

Das Patent für die Primärversion liefert einige Gründe, warum einer von Ihnen als Primärversion angesehen werden könnte:

Die Einbeziehung verschiedener Versionen desselben Dokuments liefert keine zusätzlichen nützlichen Informationen und kommt den Nutzern nicht zugute.
Suchergebnisse, die verschiedene Versionen desselben Dokuments enthalten, können verschiedene Inhalte verdrängen, die einbezogen werden sollen.
Wenn in den Suchergebnissen mehrere verschiedene Versionen eines Dokuments vorhanden sind, weiß der Nutzer möglicherweise nicht, welche Version am zuverlässigsten, vollständigsten oder am besten zugänglich ist, und kann daher Zeit mit dem Zugriff auf die verschiedenen Versionen verschwenden, um sie zu vergleichen.

Das sind die drei Gründe, warum dieses Patent für doppelte Seiten besagt, dass es ideal ist, eine Primärversion aus verschiedenen Versionen eines Dokuments zu identifizieren, das im Web erscheint. Die Suchmaschine möchte auch „das geeignetste und zuverlässigste Suchergebnis“ liefern.

Wie es funktioniert.

Das Patent sagt uns, dass ein Verfahren zur Identifizierung einer Primärversion wie folgt ist.

Die verschiedenen Versionen eines Dokuments werden aus einer Reihe von verschiedenen Quellen identifiziert, wie z.B. Online-Datenbanken, Webseiten und Bibliotheksdatensysteme.

Für jede Dokumentversion wird eine Autoritätspriorität ausgewählt, die basierend sind auf

der mit der Dokumentversion verbundenen Metadateninformationen z.B

- die Quelle,
- Exklusives Recht zur Veröffentlichung,
- Lizenzrecht,
- Zitatinformationen,
- Keywörter,
- PageRank,
- und Ähnliches.

Im zweiten Schritt werden dann die Dokumentenversionen für die Längenqualifizierung über ein Längenmaß ermittelt. Die Version mit hoher Autoritätspriorität und qualifizierter Länge gilt als Primärversion des Dokuments.

Wenn keine der Dokumentversionen sowohl eine hohe Priorität als auch eine qualifizierte Länge hat, wird die Primärversion anhand der Gesamtheit der mit jeder Dokumentversion verbundenen Informationen ausgewählt.

Das Patent sagt uns, dass wissenschaftliche Arbeiten dazu neigen, im Rahmen des Verfahrens in diesem Patent zu arbeiten:

Da Werke der wissenschaftlichen Literatur strengen Formatanforderungen unterliegen, verfügen Dokumente wie Zeitschriftenartikel, Konferenzartikel, wissenschaftliche Artikel und Zitierprotokolle von Zeitschriftenartikeln, Konferenzartikel und wissenschaftliche Artikel über Metadateninformationen, die Inhalt und Quelle des Dokuments beschreiben. Daher sind Werke der wissenschaftlichen Literatur gute Kandidaten für das Identifikationssubsystem.

Metadaten, die während dieses Prozesses betrachtet werden könnten, können beispielsweise Folgendes beinhalten:

Autorennamen
Titel
Herausgeber
Veröffentlichungsdatum
Ort der Veröffentlichung
Keywörter
PageRank
Zitatinformationen
Artikelbezeichnungen wie Digital Object Identifier, PubMed Identifier, SICI, ISBN und dergleichen
Netzwerk-Lokalisierung
Referenzzählung
Anzahl der Zitate
Sprache
usw.

Das Patent für Duplicate Content geht tiefer in die Methodik zur Bestimmung der Primärversion eines Dokuments ein:

„Die Prioritätsregel erzeugt einen numerischen Wert (z.B. eine Punktzahl), der die Autorität, Vollständigkeit oder den besten Zugriff auf eine Dokumentenversion widerspiegelt. In einem Beispiel bestimmt die Prioritätsregel die Priorität der Autorität, die einer Dokumentversion von der Quelle der Dokumentversion basierend auf einer Quellprioritätsliste zugewiesen wird. Die Quellenprioritätsliste umfasst eine Liste von Quellen, wobei jede Quelle eine entsprechende Priorität der Autorität hat. Die Priorität einer Quelle kann auf der redaktionellen Auswahl beruhen, einschließlich der Berücksichtigung von äußeren Faktoren wie dem Ruf der Quelle, der Größe des Publikationskorpus der Quelle, der Aktualität oder Häufigkeit von Aktualisierungen oder anderen Faktoren. Jede Dokumentversion ist somit einer Priorität der Autorität zugeordnet. Diese Zuordnung kann in einer Tabelle, einem Baum oder anderen Datenstrukturen gepflegt werden.“

Das Patent enthält eine Tabelle mit der Liste der Quellprioritäten.

Das Patent beinhaltet auch einige alternative Ansätze. Es sagt uns, dass „die Prioritätsmaßnahme zum Bestimmen, ob eine Dokumentversion eine qualifizierte Priorität hat, auf einem qualifizierten Prioritätswert basieren kann“.

„Ein qualifizierter Prioritätswert ist ein Schwellenwert, um zu bestimmen, ob eine Dokumentenversion je nach Prioritätsregel verbindlich, vollständig oder leicht zugänglich ist. Wenn die zugewiesene Priorität einer Dokumentversion größer oder gleich dem qualifizierten Prioritätswert ist, gilt das Dokument je nach Prioritätsregel als maßgebend, vollständig oder leicht zugänglich. Alternativ kann die qualifizierte Priorität auch auf einem relativen Maß beruhen, z.B. wird angesichts der Prioritäten einer Reihe von Dokumentversionen nur die höchste Priorität als qualifizierte Priorität angesehen.“

Schlußfolgerungen.

Duplicate Content ist ein Thema, welches immer noch bei den meisten SEOs viele Fragen aufwirft.

Das Patent geht detaillierter auf die Bestimmung ein, welche doppelten Seiten das Primärdokument sein könnten. Wir können nicht sagen, ob dieses primäre Dokument so behandelt werden könnte, als ob es bei der kanonischen URL für alle doppelten Dokumente wäre. Es ist interessant zu sehen, dass Google eine Möglichkeit hat, zu entscheiden, welche Version eines Dokuments die primäre Version sein könnte.

Vielen Dank für Ihren Besuch.

Wie Google die Original-Seite bei Duplicate Content erkennt.

Hinterlasse einen Kommentar Antworten abbrechen