Deusu.de Blog

6.10.2015

Neuerfassung des Suchindex

Ich hatte in einem früheren Blogposting angekündigt, dass eine Neuerfassung des Suchindex ansteht. Es hat etwas länger gedauert bis ich damit beginnen kann, aber in den nächsten paar Tagen geht es endlich los.

Ich habe gerade eben einen weiteren Server dafür angemietet. Im Moment bin ich dabei diesen Server komplett einzurichten, was 1-2 Tage dauern wird. Danach beginnt dann die Neuerfassung des Suchindex.

Der komplette Crawl wird knapp einen Monat in Anspruch nehmen. Der neue Suchindex wird also Ende Oktober oder Anfang November fertig sein. Ich hoffe, dass ich es bis zum 28.10.2015 schaffe. Das wäre dann nämlich der 1. Geburtstag von DeuSu. :)

Was jetzt als nächstes ansteht ist ein neues Webdesign für DeuSu. Dazu werde ich in den nächsten Tagen ein weiteres Blogposting schreiben.

Kommentare:
Von: Michael Schöbel
6.10.2015, 12:11
 

"Downloading 148 updates"...

Oooo...kay... Das wird eine Weile dauern... :)

-- Michael Schöbel

Von: Michael Schöbel
8.10.2015, 12:23
 

Die Neuerfassung des Suchindex läuft jetzt. Die ersten rund 1,5 Millionen Seiten sind bereits gecrawlt.

-- Michael Schöbel

Von: (Unbekannt)
9.10.2015, 22:40
 

Hallo,

ich wollte nur einmal etwas über die Browserkompatibilität von DeuSu sagen. Leider ist DeuSu nicht ohne Probleme im Design über Chrome erreichbar.

MFG

Von: Michael Schöbel
10.10.2015, 04:36
 

Ja. Ist mir bekannt. Neues Webdesign ist eh in Arbeit. Kommt in Kürze.

-- Michael Schöbel

Von: Michael Schöbel
10.10.2015, 11:29
 

Aktueller Zwischenstand nach 48 Stunden:

Circa 40 Millionen Seiten sind inzwischen gecrawlt, wobei circa 3 Terabyte an Daten übertragen wurden. Auf den Seiten wurden bisher über 700 Millionen unterschiedliche Links gefunden, also pro Sekunde (!) circa 4000 Links.

-- Michael Schöbel

Von: Michael Schöbel
10.10.2015, 23:35
 

Ich musste den Crawl vorerst stoppen, weil ich einen schwerwiegenden Bug in der Bahandlung der robots.txt gefunden habe.

Tritt zwar nur auf wenn die robots.txt auf eine andere URL weiterleitet, aber das kommt oft genug vor, dass ich diesen Bug erst beheben möchte, bevor ich mit dem Crawlen weiter mache.

Und "oft genug" bedeutet hier in circa 1% der Fälle. Aber wenn man rund 300 Millionen Seiten crawlen möchte, sind das nun mal 3 Millionen Fälle in denen das passiert. Ich denke das geht durch als "oft genug". :)

-- Michael Schöbel

Von: Michael Schöbel
11.10.2015, 15:43
 

Der Crawler läuft wieder.

Und während ich den Fehler behoben habe, habe ich noch zwei weitere üble Fehler gefunden und ebenfalls behoben.

Ok, ich *hoffe* es wirklich alles behoben zu haben. Es sieht zumindest so aus, als ob es jetzt korrekt funktionieren würde.

-- Michael Schöbel

Von: Michael Schöbel
15.10.2015, 12:48
 

Zwischenstand nach einer Woche:

Es sind bisher circa 134 Millionen Seiten erfasst. Fast 2 Mrd. unterschiedliche Links wurden gefunden. Und der Crawler hat circa 9tb an Traffic verbraucht.

-- Michael Schöbel

Von: (Unbekannt)
16.10.2015, 11:16
 

Wie speicherst du deine Verlinkungen? In einer Datenbank? Oder auf Dateibasis?

Von: Michael Schöbel
16.10.2015, 11:42
 

Die ganzen URLs sind in Dateien gespeichert.

Zunächst wird über die in Kleinbuchstaben umgewandelte URL ein Hashcode berechnet. Die unteren Bits davon bestimmen in welcher Datei diese URL gespeichert werden soll. Wie viele Bits benutzt werden (und damit wie viele Dateien es gibt) ist in der Software konfigurierbar. Im Moment sind das 7 Bits, also 128 Dateien.

Die Dateien selber stellen Hashtables dar. Sollte es mehrere URLs mit dem selben Hashcode geben (von dem auch nicht alle Bits benutzt werden, weil die Hashtable sonst zu groß werden würde), dann werden die Einträge in einer linearen Liste gespeichert.

Alle auf den gecrawlten Seiten gefundenen Links werden zunächst aufgeteilt danach in welche Datei sie gehören. Dann wird jeweils diese Datei komplett in den Speicher geladen (das sind im Moment jeweils circa 1,4gb), und die Liste der dazugehörigen Links wird abgearbeitet. Anschließend wird die Datei dann wieder gespeichert.

-- Michael Schöbel

Von: Michael Schöbel
18.10.2015, 11:29
 

Zwischenstand nach 10 Tagen:

Es sind bisher circa 183 Millionen Seiten erfasst.

Circa 2,65 Mrd. unterschiedliche Links wurden gefunden. Weitere neue Links nehme ich übrigens jetzt nicht mehr auf. Ich habe mehr als genug, und das Aufnehmen der Links in die Dateien ist sehr zeitaufwendig. Das spare ich mir jetzt lieber.

Und der Crawler hat inzwischen fast 13tb an Traffic verbraucht.

-- Michael Schöbel

Sie möchten einen Kommentar zu diesem Blog-Posting abgeben? Falls ja, tragen Sie Ihren Kommentar bitte einfach in dem unten stehenden Feld ein, und klicken dann auf "Absenden".

Kommentare erscheinen erst nach manueller Kontrolle. Leider gab es sonst zu viel Spam.


Zurück zur Blog-Übersicht