Was ist ein Document Vector?
Der Dokumentenvektor ist eine Art Suchmechanismus, der eine Alternative zur umgekehrten Indexsuche darstellt und keine Datenbank- oder Dateispeicherung erfordert, da die Suche im RAM stattfindet. Das Dokument-Vektor-Datenmodell wird hauptsächlich von Suchmaschinen verwendet, um viele der Nachteile der Stichwortsuche zu beseitigen. In einem Vektorraummodell wird der Text der Suchanfrage in Zahlen umgewandelt und jedes Dokument wird als Vektor in einem hochdimensionalen Raum dargestellt.
Das zugrundeliegende Konzept eines Vektorraummodells für Suchanfragen ist recht einfach. Bei dieser Methode wird ein Dokument in Schlüsselwörter aufgeteilt, und jedes Schlüsselwort stellt eine Dimension in einem n-dimensionalen Vektorraum dar. Ein Dokument kann also als Vektor in diesem Begriffsraum betrachtet werden, und Dokumente mit vielen gemeinsamen Wörtern erscheinen nahe beieinander, während solche mit wenigen gemeinsamen Wörtern weit voneinander entfernt erscheinen. Eine Vektorraumsuche ermöglicht beliebig lange Suchanfragen, macht die Suche schneller und skalierbarer und erleichtert die Suche nach ähnlichen Dokumenten.