Vor Kurzem veröffentliche Dixon Jones von Majestic eine gründlichen und leicht verständlichen Beitrag darüber, wie der PageRank tatsächlich funktioniert.
Als SEO kommt man nicht drumherum, sich mit der Mathematik zu beschäftigen, die hinter dem Algorithmus von Google steht. Der sogenannte PageRank-Algorithmus von Google hat in den letzten 20 Jahren die Internetwelt stark beeinflusst.
Ich weiß, dass der PageRank zwar im Jahre 2016 aus der Toolbar entfernt wurde, aber immer noch einen wichtigen Teil des gesamten Ranking-Algorithmus darstellt und sich daher lohnt zu verstehen.
Jones beginnt mit der einfachen Formel:
Diejenigen, die Mathematik nicht mögen oder seit der letzten Lektüre schon ein paar Fachbegriffe vergessen haben, sollten sich die untere Erklärung genau durchlesen:
„Der PageRank einer Seite in der Interation ist gleich 1 minus einem Dämpfungsfaktor, plus, für jeden Link in die Seiten (außer für Links zu sich selbst), addieren Sie den PageRank dieser Seite geteilt durch die Anzahl der ausgehenden Links auf der Seite, reduziert um den Dämpfungsfaktor.“
Zurück zum ursprünglichen Google Paper.
An dieser Stelle geht Jones im Video zu einer einfacheren, noch nützlicheren Version der Berechnung über. Er zieht Excel, ein einfaches 5-Knoten-Visual, heraus und zeichnet den Ranking-Algorithmus über 15 Iterationen aus.
Persönlich wollte ich ein wenig mehr über die Mathematik erfahren, also ging ich zurück und las die Vollversion von „The Anatomy of a Large-Scale Hypertextual Web Search Engine“. Dies war die Arbeit von Larry Page und Sergej Brin im Jahr 1997. Auch bekannt als das Paper, in dem Sie Google präsentierten, veröffentlicht im Standford Computer Science Department.
Der Eingangssatz ist mir stark im Gedächtnis geblieben: „In diesem Beitrag stellen wir Google vor, einen Prototyp einer großen Suchmaschine, die die im Hypertext vorhandene Struktur stark nutzt.“
Eine recht lässige Einleitung, finde ich.
So definierten Page und Brin die PageRank-Berechnung ursprünglich:
„Akademische Zitatliteratur wurde auf das Web angewendet, hauptsächlich durch Zählen von Zitaten oder Backlinks zu einer bestimmten Seite. Dies gibt eine Approximation an die Wichtigkeit oder Qualität einer Seite. PageRank erweitert diese Idee, indem es Links nicht von allen Seiten gleichermaßen zählt und sich nach der Anzahl der Links auf einer Seite normalisiert.“
Der PageRank hingegen ist wie folgt definiert:
„Wir gehen davon aus, dass Seite A die Seiten T1…Tn hat, die darauf verweisen (d.h. Zitate sind). Der Parameter d ist ein Dämpfungsfaktor, der zwischen 0 und 1 eingestellt werden kann. D ist in der Regel auf 0,85 eingestellt. Weitere Details zu d finden Sie im nächsten Abschnitt. Auch C(A) ist definiert als die Anzahl der Links, die von Seite A ausgehen. Der PageRank einer Seite A wird wie folgt angegeben:
PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
Beachten Sie, dass die PageRanks eine Wahrscheinlichkeitsverteilung über Webseiten bilden, so dass die Summe aller PageRanks aller Webseiten gleich eins ist.
PageRank oder PR(A) kann mit einem einfachen iterativen Algorithmus berechnet werden und entspricht dem Haupteigenvektor der normalisierten Link-Matrix des Webs. Außerdem kann auf einem mittelgroßen Arbeitsplatz in wenigen Stunden ein PageRank für 26 Millionen Webseiten berechnet werden. Es existieren noch viele anderen Details, die den Rahmen dieses Papers sprengen.“
Was bedeutet das?
Noch einmal die Formel:
PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
Beachten Sie, dass dies das gleiche ist wie das obige Bild, mit der Ausnahme, dass das Foto den zweiten Teil der Gleichung „vereinfacht“, indem es ein Großbuchstaben-Sigma (∑) ersetzt, das das Symbol für eine mathematische Summerierung ist, d.h. diese Formel für alle Seiten 1 bis n macht und sie dann addiert.
Um also den PageRank der gegebenen Seite A zu berechnen, nehmen wir zuerst 1 minus dem Dämpfungsfaktor (d). D wird typischerweiseauf .85 eingestellt, wie in ihrem Originalpaper zu sehen ist.
Wir nehmen dann die PageRanks aller Seiten, die auf und von Seite A zeigen, addieren sie und multiplizieren sie mit dem Dämpfungsfaktor von 085.
Eigentlich gar nicht so kompliziert.
Der PageRank ist ein iterativer Algorithmus.
Vielleicht haben ihre Augen diesen Teil überstrahlt, aber Brin und Sergej haben in ihrer Definition tatsächlich das Wort „eigenvector“ verwendet. Ich musste es nachschlagen.
Offensichtlich spielen Eigenvektoren eine herausragende Rolle in Differentialgleichungen. Das Präfix „eigen“ kommt aus dem Deutschen und steht für „richtig“ oder „charakteristisch“. Es gibt auch Eigenwerte und -quotierungen.
Wie Rogers in seinem klassischen Paper auf PageRank betonte, ist der größte Vorteil des Eigenvektorstücks für uns, dass es eine Art Mathematik ist, bei der Sie mit mehreren beweglichen Teilen arbeiten können. „Wir können weitermachen und den PageRank einer Seite berechnen, ohne den endgültigen Wert der PR der anderen Seite zu kennen. Das erscheint seltsam, aber im Grunde genommen erhalten wir jedes Mal, wenn wir die Berechnung durchführen, eine genauere Schätzung des Endwertes. Also müssen wir uns nur an jeden Wert erinnern, den wir berechnen und die Berechnungen viele Male wiederholen, bis sich die Zahlen nicht mehr ändern.“
Mit anderen Worten, die Bedeutung des Eigenvektors liegt darin, dass PageRank ein iterativer Algorithmus ist. Je öfter Sie die Berechnung wiederholen, desto näher kommen Sie den genauesten Zahlen.
PageRank in Excel visualisiert.
Im folgenden Video kommt Jones ziemlich direkt zum lustigen Teil, weshalb es in nur 18 Minuten so effektiv ist. Es zeigt, wie PageRank am Beispiel von 5 Webseiten berechnet wird, die untereinander und voneinander verlinken.
Er nimmt Berechnungen in Excel vor und demonstriert, wie Sie iterieren würden, indem Sie die visualisierte Zahlenreihe nehmen und die Berechnung wiederholen.
Dabei beginnen die Zahlen schließlich zu nivellieren (dies wurde nach nur 15 Iterationen erreicht):
Andere interessante Beobachtungen, die Jones anspricht:
1. Linkzahlen (nur Gesamtzahlen) sind eine schlechte Metrik. Wir müssen uns mehr um den PageRank jeder Seite kümmern.
2. Es ist das Ranking auf Seitenebene, das zählt, nicht die Domain-Autorität. Der PageRank hat sich immer nur auf einzelne Seiten bezogen.
3. Die Mehrheit der Seiten hat kaum ein relevantes Ranking. In seinem Beispiel machten die Top 3 von 10 ca. 75-80% der Gesamtrangliste aus.
Ich hoffe, dass ich durch Hilfe von Dixon Jones etwas Licht in das PageRank-Thema gebracht habe. Bei Fragen können Sie sich gerne an mich wenden.
Vielen Dank für ihren Besuch.
Hinterlasse einen Kommentar
Du musst angemeldet sein, um einen Kommentar schreiben zu können.