Deusu.de Blog

7.3.2016

Der Suchindex wächst und gedeiht

 

1,1 Milliarden Seiten und steigend

Seit heute Mittag sind mehr als 1,1 Milliarden Seiten im Suchindex. In den letzten Tagen habe ich drei Teilindizes mit jeweils zwischen 60,5 und 64,3 Millionen Seiten aktiviert. Diese haben drei alte Teilindizes ersetzt die jeweils nur halb so groß waren.

Ab jetzt wird der Suchindex alle 7-8 Tage jeweils um weitere 100 Millionen Seiten anwachsen bis das Ziel von 2 Milliarden Seiten erreicht sein wird.

Die neuen Teilindizes enthalten einen deutlich größeren Anteil an deutschsprachigen Seiten als bisher. Da wird also die größte Verbesserung zu spüren sein.

 

Größe des Index wird auf den Suchergebnisseiten angezeigt

Ebenfalls ab heute Mittag wird die jeweilige Größe des gesamten Suchindex auf den Suchergebnisseiten angezeigt. Dies ist keine Zahl die ich manuell aktualisieren muss, sondern die Software holt sich automatisch diese Angabe zum Zeitpunkt der Suchabfrage. Dieser Wert ist also immer aktuell.

Hier wird man im Laufe der Zeit unterschiedliches sehen: Einerseits kleinere Änderungen im Verlauf von Minuten oder Stunden, wenn durch den Freshbot oder durch neu angemeldete Seiten lediglich ein paar neue Seiten hinzu kommen. Und andererseits größere Sprünge um jeweils 30-35 Millionen Seiten wenn ich alle 2-3 Tage neue Teilindizes aktiviere.

 

Der Einstieg in den Umstieg auf Linux

In den nächsten Tagen werde ich daran arbeiten, dass die Suchabfragen serverseitig teilweise auch auf einem Linux-Server bearbeitet werden. Bisher läuft das ausschließlich auf Windows.

Mittel- bis langfristig wird Linux helfen die Kosten für den Betrieb von DeuSu klein zu halten. Und ich muss eh anfangen die Suchabfragen auf zwei Server aufzuteilen, weil einer alleine nicht in der Lage sein wird 2 Milliarden Seiten zu verkraften.

Ich werde den Umstieg in kleinen Schritten vornehmen. Während ich zwar seit über zwei Jahren Linux ständig im Desktop-Betrieb einsetze, sind meine Erfahrungen mit Linux im Server-Bereich auf kleinere Experimente beschränkt. Ich setze zu Hause zwar eine Linux-Maschine als File-Server, DNS-Server und für eine private GitLab-Installation ein, aber ich habe das Gefühl bei Linux im Serverbetrieb immer noch in der Phase des gefährlichen Halbwissens zu sein.

Deshalb: LANGSAM! Einen Schritt nach dem anderen! :)

Die Suchabfragen auch auf einer Linux-Maschine laufen zu lassen ist hier ein guter Weg mehr Erfahrung zu gewinnen. Einerseits ist dies ganz klar eine Serveranwendung. Andererseits ist es aber kein vom öffentlichen Internet aus erreichbarer Dienst. Der Linux-Server wird nur aus meinem internen Netz zu erreichen sein. Das Frontend wird vorerst weiter auf Windows laufen bis ich mit Linux genug Erfahrung habe.

Kommentare:
Von: (Unbekannt)
8.3.2016, 21:09
 

Das ist schön das der Index schon so groß ist und sie gute Pläne haben:-)

Von: (Unbekannt)
21.3.2016, 22:51
 

Hallo,

kannst du eine Aussage treffen, wie viele deutschsprachige Domains du in dem Index dabei schon gesammelt hast? Also jetzt nicht nur .de sondern eben wirklich deutsche Domains?

VG

Von: (Unbekannt)
21.3.2016, 22:51
 

PS: Ich bin von deiner Suchperformance beeindruckt...

Von: Michael Schöbel
22.3.2016, 05:54
 

Nein, da habe ich keine Daten zu. Kann ich überhaupt nicht einschätzen.

-- Michael Schöbel

Sie möchten einen Kommentar zu diesem Blog-Posting abgeben? Falls ja, tragen Sie Ihren Kommentar bitte einfach in dem unten stehenden Feld ein, und klicken dann auf "Absenden".

Kommentare erscheinen erst nach manueller Kontrolle. Leider gab es sonst zu viel Spam.


Zurück zur Blog-Übersicht