Document Vector

Fortschrittliche Suchmaschinen verwandeln Wörter in Zahlen, da der Vergleich von Zahlen auf einem Computer wesentlich schneller erfolgt als der Vergleich von Wörtern. Beim Ranking der Suchmaschinen werden so aus Wortaneinanderreihungen Zahlenketten, bei denen die Wortnummer und die Position jedes Wortes in einer Seite festgehalten werden. Dies beschleunigt einmal die Phrasensuche, und erlaubt gleichzeitig die Wiedererstellung der ursprünglichen Texte aus massiven Datenbanken, ohne dass jede Seite zu diesem Zweck als HTML-Datei gespeichert werden muss. Gleichzeitig erlaubt die Benutzung von Document Vectoren mehrere Analysen und Inhaltsvergleiche - überwiegend zur Spam-Bekämpfung,, die normalerweise nur bei begrenzten Datenbeständen möglich sind. Numerische Datenbestände werden besonders komprimiert, wenn vor der Erstellung des Document Vectors alle in einer Seite enthaltenen Worte durch Stemming auf den Wortstamm reduziert werden.

Zurück