Deusu.de Blog

24.10.2015

Neuer Suchindex online

Die Neuerfassung des Suchindex ist jetzt abgeschlossen, und der neue Suchindex wird seit heute morgen für die Suche benutzt.

Der Suchindex ist größer geworden als geplant. Es sind circa 375 Millionen Webseiten (genau: 375.896.531) erfaßt.

Der Index kennt 403.834.531 unterschiedliche Wörter. Im Durchschnitt enthielt jede Seite circa 140 unterschiedliche Wörter.

In der Zeit vom 8.10.2015 bis zum 23.10.2015 wurden für die Erfassung des Index insgesamt 23,5tb an Daten von den diversen Web-Servern abgefragt und analysiert. Der fertige Index ist dagegen mit 363gb verhältnismäßig klein.

Ich werde jetzt hier aber nicht Halt machen. Ich werde den Index weiter vergrößern. Dies ist absolut notwendig, damit auch bei Suchabfragen, zu denen es nur wenige passende Seiten gibt, gute Ergebnisse oder überhaupt irgendwelche Ergebnisse gefunden werden können.

Ich hoffe bis Anfang Dezember mehr als 1 Milliarde Seiten im Suchindex zu haben. Ich bin mir noch nicht 100%-ig sicher, ob das möglich sein wird, aber ich werde es auf jeden Fall versuchen.

Kommentare:
Von: (Unbekannt)
31.10.2015, 19:35
 

Könnte man für die Search-DB auch eine Redis-DB verwenden? Wie sieht es von der Geschwindigkeit aus?

Von: Michael Schöbel
31.10.2015, 19:41
 

Das bezweifle ich stark. Die Datenstrukturen auf Platte sind für diesen ganz speziellen Anwendungszweck optimiert.

Es gibt zwei limitierende Faktoren:

1) Wie schnell kommen die Daten von der SSD in den Speicher.

2) Wie schnell können die Ranking-Berechnungen durchgeführt werden.

Im Moment stellt 2) das Limit, weil das zur Zeit nur Single-Threaded bearbeitet wird. Ich bin dabei das auf Multi-Threaded umzustellen und dann wird 1) das Limit stellen.

-- Michael Schöbel

Von: (Unbekannt)
31.10.2015, 20:23
 

Aber Redis ist ein RAM-DB! Keine langsame SSD

Von: Michael Schöbel
31.10.2015, 21:19
 

Ok, dann habe ich das wohl mit irgendwas verwechselt. Ich verliere so langsam ein wenig den Überblick bei den ganzen unterschiedlichen Dingen, die es inzwischen gibt.

Jedenfalls ist Redis immer noch keine Alternative. Der aktuelle Index hat eine Größe von 380gb. Und bei einem Server mit nur 32gb RAM... :)

Wenn ich eine Möglichkeit hätte die Daten alle im RAM zu halten, würde ich das natürlich machen. Aber immer noch ohne den Umweg über irgendeine Datenbank. Ich würde die Daten dann einfach beim Start der Server-Software ins RAM in spezielle Datenstrukturen laden und dann direkt darauf zugreifen.

Ich mache auch jetzt schon intensiv Gebrauch vom RAM um einzelne Teilaspekte zu beschleunigen. Beim aktuellen 400 Millionen Seiten Index werden circa 5,5gb an Daten im RAM gecacht.

-- Michael Schöbel

Von: Michael Schöbel
31.10.2015, 21:25
 

Nachtrag: Die wirklich, *wirklich* wichtigen Daten vom aktuellen Index belegen circa 217gb. Das ist der Reverse-Word-Index. Fast alles vom Rest sind die Snippets. Die müssten nicht unbedingt ins RAM. SSD reicht da von der Performance her völlig aus.

Aber selbst 217gb sind immer noch zu groß um ins RAM zu passen.

-- Michael Schöbel

Sie möchten einen Kommentar zu diesem Blog-Posting abgeben? Falls ja, tragen Sie Ihren Kommentar bitte einfach in dem unten stehenden Feld ein, und klicken dann auf "Absenden".

Kommentare erscheinen erst nach manueller Kontrolle. Leider gab es sonst zu viel Spam.


Zurück zur Blog-Übersicht