Vor 7 Jahren, als ich noch im Online-Marketing-Team von Samsung arbeitete, habe ich einen Beitrag geschrieben, in dem ich einige einfache Methoden zur Erkennung von Backlink-Manipulationen skizziere, indem ich das Backlink-Profil mit einem idealen Modell auf Wikipedia-Basis verglich. Damals war ich in der Forschung, die ich durchführen konnte, eingeschränkt, weil ich ein Nutzer der API war und keinen Zugang zu tieferen Metriken, Messungen und Methoden hatte, um Anomalien in Backlinkprofilen zu identifizieren. Wir haben diese Techniken verwendet, um Backlink-Manipulationen mit Tools wie Remove`em und Penguin Risk zu erkennen, aber sie waren immer durch die Einschränkungen der APIs behindert. Außerdem haben sie sich nicht skaliert. Es ist eine Sache, alle Backlinks für eine Website zu sammeln, sogar für eine große Website, und jeden einzelnen Link nach Quelltyp, Qualität. Ankertext usw. zu beurteilen. Auf solche Berichte können Sie von Dutzenden von Anbietern zugreifen, wenn Sie bereit sind, ein paar Stunden zu warten, bis der Bericht fertig ist. Aber wie macht man das für 30 Billionen Links jeden Tag.

Seit dem Start des Link Explorers habe ich den Luxus von weitaus weniger gefilterten Daten gehabt, was mir ein viel tieferes, klareres Bild von den Tools vermittelt, die Backlink-Index-Maintainer zur Verfügung stehen, um Manipulationen zu identifizieren und entgegenzuwirken. Während ich keineswegs sagen will, dass alle Manipulationen erkannt werden können, möchte ich nur einige der unzähligen überraschenden Methoden zur Erkennung von Spam aufzeigen.

Die allgemeine Methodik.

Sie müssen kein Datenwissenschaftler oder Mathe-Spezi sein, um diese einfache Methode zur Identifizierung von Link-Spam zu verstehen. Während bei der Durchführung von Messungen, Tests und dem Bau von praktischen Modellen sicherlich viel Mathematik verwendet wird, ist der allgemeine Kern leicht verständlich.

Der erste Schritt ist, eine typische und zufällige Auswahl an Links auf anderen Webseiten aufzubauen. Aber nehmen wir an, Sie haben diesen Schritt bereits abgeschlossen. Dann sollten Sie für jede Eigenschaft dieser zufälligen Links (DA, Anker-Text etc.) herausfinden, was normal und nichts ungewöhnliches ist. Schließlich suchen Sie nach Ausreißern und sehen, ob diese mit etwas Wichtigem übereinstimmen – wie Websites, die den Link-Graphen manipulieren, oder Websites, die außergewöhnlich gut sind. Beginnen wir mit einem einfachen Beispiel, dem Link Decay.

Link Decay und Link Spam.

Link Decay ist das natürliche Auftreten von Links, die aus dem Internet kommen. Wenn Sie beispielsweise Links erhalten, nachdem Sie eine Pressemitteilung verschickt haben, würden Sie erwarten, dass einige dieser Links schließlich verschwinden, wenn die Seiten archiviert oder wegen ihrer Alterung entfernt werden. Wenn Sie einen Link von einem Blog-Post erhalten sollten, könnten Sie erwarten, dass Sie einen Homepage-Link auf dem Blog haben, bis dieser Beitrag durch neue Beiträge auf die zweite oder dritte Seite verschoben wird.

Aber was wäre, wenn Sie ihre Links gekauft hätten? Was wäre, wenn Sie ein große Anzahl von Domains besitzen und alle Seiten miteinander verlinken? Was ist, wenn Sie ein PNB verwenden? Diese Links neigen dazu, nicht zu verfallen. Die Kontrolle über Ihre eingehenden Links bedeutet oft, dass Sie sie vor dem Verfall bewahren. So können wir eine einfache Hypothese erstellen:

Hypothese: Die Link Decay Rate von Webseiten, die den Link-Graphen manipulieren, unterscheidet sich von Webseiten mit natürlichen Link-Profilen.

Die Methodik zum Testen dieser Hypothese ist genau so, wie wir es zuvor besprochen haben. Wir finden zuerst heraus, was natürlich ist. Wie sieht die Link Decay Rate einer zufälligen Webseite aus? Wir nehmen einfach ein Bündel Webseiten und notieren, wie schnell Links gelöscht werden (wir besuchen eine Seite und sehen, dass ein Link eingegangen ist), gegen ihre Gesamtzahl der Links. Anschließend können wir nach Anomalien suchen.

In dieser Phase der Anomalienjagd werde ich es Ihnen wirklich einfach machen. Keine Statistiken, keine Mathematik, nur ein kurzer Blick darauf, was auftaucht, wenn wir zuerst nach der niedrigsten Decay Rate und anschließend nach der höchsten Domainauthority sortieren, um zu sehen, wer am Ende des Spektrums steht.

Jedes Beispiel, das wir von einer guten DomainAuthority-Punktzahl sehen, aber Link Decay Rate von 0 scheint von einem Link-Netzwerk beliebiger Art angetrieben zu werden. Das ist der Aha-Moment der Datenwissenschaft, der so viel Spaß macht. Besonders interessant ist, dass wir Spam an beiden Enden der Verteilung finden – d.h. Webseiten, die eine Decy Rate von 0% oder fast 100% aufweisen, sind beide eher spammig. Der erste Typ neigt dazu, Teil eines Link-Netzwerks zu sein, der zweite Teil neigt dazu, ihre Backlinks zu Webseiten zu spammen, die selbst spamming sind, so dass ihre der Linkjuice ihrer Seite schnell auf andere Seiten verschoben werden.

Natürlich leisten wir jetzt die harte Arbeit, ein Modell zu entwickeln, das dies tatsächlich berücksichtigt und die Domain-Authority im Verhältnis zur Schwere des Link-Spam genau reduziert. Aber folgende Frage bleibt offen:

Diese Seiten ranken nicht in Google – warum haben sie überhaupt gute DomainAuthorities?“

Das ist ein häufiges Problem bei Trainingssets. DomainAuthority von Moz ist auf Webseiten geschult, die in Google gute Rankings haben, so dass wir herausfinden können, wer über wem rankt. Historisch gesehen haben wir jedoch keine zufälligen URLs berücksichtigt (und niemand, den ich in unserer Branche kenne), die überhaupt kein Ranking haben. Das ist etwas, wofür Moz mit dem neuen DomainAuthority-Modell, das Anfang März 2019 auf den Markt kommen soll, eine Lösung finden möchte. Dies wird eine deutliche Verbesserung bei der Berechnung von DomainAuthorities bringen.

Spam Score Verteilung und Link-Spam.

Eine der aufregendsten Neuerungen in der kommenden DomainAuthority 2.0 ist die Verwendung eines Spam Scores. Moz`s Spam Score ist eine Link-Blind Metrik, die die Wahrscheinlichkeit prognostiziert, dass eine Domain in Google indiziert wird. Je höher die Punktzahl, desto schlechter die Seite.

Jetzt können wir einfach alle Links von Webseiten mit Spam Scores über 70 ignorieren, aber es stellt sich heraus, dass es faszinierende Muster gibt, die von gemeinsamen Link-Manipulationsschemata zurückgelassen werden, die darauf warten, entdeckt zu werden, indem wir diese einfache Methodik verwenden, indem wir eine zufällige Stichprobe von URLs verwenden, um herauszufinden, wie ein normales Backlink-Profil aussieht, und dann sehen, ob es Anomalien in der Art und Weise gibt, wie Spam Score unter den Backlinks zu einer Website verteilt ist.

Es stellt sich heraus, dass es wirklich schwer ist, sich natürlich zu verhalten. Selbst die besten Versuche bleiben oft zurück, ebenso wie dieses besonders schädliche Link-Spam-Netzwerk. Dieses Netzwerk hatte mich für 2 Jahre verfolgt, weil es ein Verzeichnis der Top-Millionen Websites enthielt, also, wenn Sie eine dieser Seiten waren, konnten Sie überall 200 bis 600 verfolgte Links sehen, die in Ihrem Backlink-Profil angezeigt wurden. Es wurde oft als „The Globe“-Netzwerk bezeichnet. Es war einfach, sich das Netzwerk anzusehen und zu sehen, was sie taten, aber könnten wir es automatisch erkennen, damit wir andere Netzwerke wie dieses in Zukunft abwerten können? Als wir uns das Link-Profil der im Netzwerk eingebundenen Seiten ansahen, leuchtete die Spam Score Verteilung auf.

DomainAuthority Verteilung und Link Spam.

Wir können ähnliche Muster zwischen den Seiten mit der Verteilung der Inbound Domain Authority finden. Es ist üblich, dass Unternehmen, die ihre Rankings verbessern wollen, Mindestqualitätsstandards für ihre Outreach-Kampagnen festlegen, oft DA30 und höher. Ein unglückliches Ergebnis davon ist, dass es nur noch eklatante Beispiele von Webseiten mit manipulierten Link-Profilen gibt.

Ein manipuliertes Link-Profil ist nicht unbedingt gegen die Richtlinien von Google. Wenn Sie eine gezielte PR-Aktion durchführen, ist es vernünftig zu erwarten, dass eine solche Verteilung stattfinden kann, ohne dass versucht wird, die Grafik zu manipulieren. Die eigentliche Frage ist jedoch, ob Google möchte, dass Webseiten, die eine solche Reichweite haben, eine bessere Leistung erbringen. Wenn nicht, ist dieses eklatante Beispiel der Link-Manipulation für Google ziemlich einfach zu dämpfen, wenn nicht gar zu ignorieren.

Ein normales Linkdiagramm für eine Webseite, die nicht auf High-Link-Equity-Domains abzielt, wird die Mehrheit ihrer Links von DA0-10-Seiten stammen, etwas weniger für DA10-20, und so weiter und so fort, bis es fast keine Links von DA90+ gibt. Dies ist sinnvoll, da das Web weitaus mehr Low-DA-Seiten als High hat. Aber alle oben genannten Webseiten haben abnormale Link-Verteilungen, die es einfach machen, den Link-Wert zu erkennen und zu korrigieren.

Nun möchte ich klarstellen: Das sind nicht unbedingt Beispiele für Verstöße gegen die Richtlinien von Google. Es handelt sich jedoch um Manipulationen des Link-Graphen. Es liegt an Ihnen, festzustellen, ob Sie glauben, dass Google sich die Zeit nimmt, zwischen der Art und Weise zu unterscheiden, wie der Einsatz durchgeführt wurde, der zu einer abnormalen Link-Verteilung führte.

Was nicht funktioniert?

Für jede Art von Methode zur Erkennung von Link-Manipulationen, die entdeckt werden, werden immer mehr verschrottet. Einige Aspekte davon sind ziemlich überraschend. Ein Aspekt ist mir dabei in meiner praktischen Arbeit besonders aufgefallen.

Das erste überraschende Beispiel war das Verhältnis von nofollow zu follow Links. Es scheint ziemlich einfach, dass Kommentare, Foren und andere Arten von Spammern am Ende viele NoFollow-Links ansammeln, wodurch ein Muster entsteht, das leicht zu erkennen ist. Das stimmt aber so nicht.

Das Verhältnis von NoFollow zu Follow-Links erweist sich als schlechter Indikator, da beliebte Seiten wie z.B. Twitter oft ein höheres Verhältnis als selbst reine Kommentarspammer. Dies ist wahrscheinlich auf die Verwendung von Widgets und Beacons und die legitime Nutzung beliebter Webseiten wie Twitter in Kommentaren im gesamten Web zurückzuführen. Natürlich ist das nicht immer der Fall. Es gibt einige Webseiten mit 100% NoFollow-Links und einer hohen Anzahl von Root-Link-Domains. Diese Anomalien, wie „Comment Spammer 1“, können recht leicht erkannt werden, aber als allgemeine Messung dient das Verhältnis nicht als guter Klassifizierer für Spam.

What`s next`?

Moz durchläuft kontinuierlich den Link-Graph und sucht nach Möglichkeiten, die DomainAuthority zu verbessern, indem er alles von der einfachen linearen Algebra bis hin zu komplexen neuronalen Netzwerken verwendet. Das Ziel ist einfach: Es soll die beste Domain Authority Metrik aller Zeiten erstellt werden. Es wird eine Kennzahl angestrebt, der die Nutzer langfristig vertrauen können, um Spam genau wie Google zu eliminieren und gleichzeitig die Korrelationen mit Rankings aufrechtzuerhalten oder zu verbessern.

Damit bin ich soweit mit meinem heutigen Beitrag zum Thema Link-Spam und Domain-Authority durch. Falls Sie noch Fragen oder Anregungen haben sollten, können Sie sich sehr gerne per E-Mail (info@webvana.eu) an mich wenden.

Vielen Dank für ihren Besuch.