Was ist PhraseRank?
PhraseRank ist eine von Google patentierte Methode zur Erkennung kopierter oder doppelter Inhalte durch ein phrasenbasiertes Informationssuchsystem. Die Methode wurde von Anna Lynn Patterson erfunden und im Dezember 2006 eingeführt. Bei der phrasenbasierten Indexierung werden Phrasen oder Wortfolgen in Dokumenten im Internet identifiziert und anhand der Verwendung von Phrasen indexiert.
Der PhraseRank-Algorithmus untersucht, wie Phrasen oder verwandte Wortfolgen in einem Dokument verwendet wurden, und klassifiziert sie anhand von Häufigkeitsstatistiken als gute oder schlechte Phrasen. Der Algorithmus berücksichtigt, ob die Verwendung bestimmter Phrasen im Verhältnis zur erwarteten Anzahl verwandter Phrasen im gegebenen Dokument statistisch signifikant ist. Wenn eine Seite eine signifikante Abweichung in Bezug auf die Häufigkeit der verwendeten Phrasen aufweist oder dieselben Phrasen oder Wortfolgen auf anderen Websites erscheinen, können die entsprechenden Inhalte als potenziell kopiert eingestuft und auf doppelte Inhalte untersucht werden. Diese Methode wurde zu einem nützlichen Instrument zur Erkennung doppelter Inhalte und zur Identifizierung von Spamming in Form von mit Schlüsselwörtern vollgestopften Seiten.