Deusu.de Blog

31.7.2015

Vorschau (Neudeutsch: Roadmap)

Ich will hier mal einen Überblick geben, was ich für die nächste Zeit bei DeuSu so geplant habe.

Ich werde zunächst einmal an der Software ein paar Änderungen vornehmen. Zur Erklärung muss ich erst mal etwas ausholen.

DeuSu besteht zur Zeit nicht nur aus einem Suchindex, sondern aus insgesamt vier. Ein Suchindex erfasst sehr gründlich ausgewählte Websites wie Wikipedia oder StackOverflow. Ein anderer erfasst Nachrichtenseiten wie Tagesschau, Heise, Golem und andere. Ein dritter kümmert sich um Seiten, die über die AddUrl-Funktion angemeldet wurden.

Dies sind alles relativ kleine Indizes, die aus maximal 1-2 Millionen Seiten bestehen. Der vierte Index ist der eigentliche Hauptindex und hat circa 320 Millionen Seiten. Diesen Index will ich verbessern.

Das Problem mit diesem Index ist, dass er relativ langsam zu durchsuchen ist. Die Software kann ihn nur Single-Threaded bearbeiten. Dadurch werden moderne CPUs natürlich nur sehr schlecht ausgenutzt.

Ich will die Software daher so ändern, dass dieser Index in viele kleine Teil-Indizes aufgeteilt wird, die dann von der Software bei der Suche parallel bearbeitet werden. Dadurch wird die Suche erheblich schneller werden.

Auch jetzt schon sind die meisten Suchabfragen in weniger als einer halben Sekunde fertig. Aber es gibt einige Spezialfälle in denen eine Suche mehrere Sekunden dauern kann. Besonders diese Fälle will ich verbessern.

Ich schätze, dass ich die Änderungen an der Software Ende August fertig haben werde. Ich werde danach dann mit einer kompletten Neuerfassung des Suchindex beginnen. Der Suchindex ist zur Zeit nämlich auch nicht gerade aktuell. Die Qualität der Suchergebnisse wird nach der Neuerfassung deutlich besser sein als jetzt.

Während die Neuerfassung des Suchindex läuft, werde ich mich dann auch an ein neues Webdesign für DeuSu machen. Mir schwebt ein etwas moderneres Design als jetzt vor.

Und nachdem all das fertig ist (irgendwann im Oktober) werde ich mich daran setzen mal etwas PR für DeuSu zu machen. Denn die beste Webseite nützt nichts wenn sie kaum jemand kennt.

Der geringe Bekanntheitsgrad von DeuSu ist zur Zeit das größte Hindernis für die Weiterentwicklung von DeuSu. Es müssen dringend mehr Benutzer her, damit die Spenden endlich die laufenden Kosten decken, und damit endlich mal auch an eine Ausweitung der Hardware und damit des Suchindex gedacht werden kann.

Kommentare:
Von: (Unbekannt)
7.8.2015, 01:45
 

Hallo,

wo Sie gerade an Verbesserungen arbeiten: Ich habe den Eindruck, Ihr DeuSu-Robot kommt mit 301-Weiterleitungen nicht klar - zumindest wenn ich mir die eigenen Serverlogfiles ansehe. Ich habe bei einer Domain alle Aufrufe von http per htaccess-Redirect auf https umgeleitet.

Ihr Robot versucht aber immer und immer wieder, die robots.txt über http abzurufen, und nicht über https, obwohl er bei jedem Versuch eine 301-Rückmeldung erhält. Vielleicht könnten Sie dieses Verhalten bei Gelegenheit prüfen und ggf. korrigieren...

Beste Grüße und weiter viel Erfolg!

Von: Michael Schöbel
7.8.2015, 08:51
 

Hallo,

das liegt daran, dass der Robot derzeit überhaupt kein HTTPS kann. Ist auf meiner To-Do Liste.

Mit freundlichen Grüßen,
Michael Schöbel

Von: (Unbekannt)
29.9.2015, 21:54
 

Hallo,

und? der neue Index macht schon Fortschritte? Kommen dann auch neue Features auf Website hinzu? Also z.B. wie Verschläge für Suche, Meinten Sie:... Das würde ich noch cool finden.

Wie viele Seiten kannst du pro Tag crawlen in den neuen Index? Wie lange brauchst du für die neuen 320 Mio Seiten jetzt?

VG und weiter viel Erfolg!

Von: Michael Schöbel
29.9.2015, 22:06
 

Es geht etwas langsamer als ich dachte. Aber nächste Woche werde ich wohl endlich mit dem neuen Crawl beginnen können. Ich rechne damit pro Tag circa 10-15 Millionen Seiten zu crawlen. Wird also circa einen Monat dauern bis der neue Index fertig ist.

Sobald der Crawl läuft mache ich mich dann an ein besseres Webdesign. Das will ich dann im Laufe des Oktobers abschließen.

Suchvorschläge werden vorerst nicht kommen. Das funktioniert auch nur wirklich gut wenn man eine MENGE bisheriger Suchabfragen hat, auf die man dafür zurückgreifen kann. Im Moment wäre es bei der geringen Anzahl an Suchabfragen viel zu leicht diese Funktion zu manipulieren, indem man einfach selber bestimmte Suchabfragen macht, die man da reindrücken möchte.

Das "meinten sie" ist hingegen etwas, das ich auch im Hinterkopf habe. Aber in etwas abgewandelter Form. Ich denke da eher an sogenanntes Word-Stemming. Also Wörter auf ihre Grundform zurück zu führen. So dass dann später bei einer Suche nach "er geht" auch "er ging" gefunden wird. Oder bei einer Suche nach "Bank" auch "Banken". Das selbe gilt für die automatische Korrektur von Rechtschreibfehlern, was dann wieder mehr dem "meinten sie" entspricht, das du erwähnt hast.

Mit freundlichen Grüßen,
Michael Schöbel

Von: (Unbekannt)
29.9.2015, 22:18
 

Hallo nochmal,

du kannst auch gleich beim neuen Index die strukturierten Daten mit berücksichtigen und diese für die Ausgabe der Ergebnisse nutzen. Zum Beispiel og:image .... oder breadcrump .. damit sehen die Auflistungen dann auch noch besser aus :)

VG

Von: Michael Schöbel
30.9.2015, 02:05
 

Dafür wären Änderungen an mindestens vier unterschiedlichen Teilen der Software nötig. Der Aufwand dafür wäre alles andere als klein. Ich glaube nicht, dass ich das in naher Zukunft machen werde.

Ich tendiere eher dazu die Snippets dadurch zu verbessern, dass ich dafür einen größeren Teil des Texts jeder Seite speichere. Im Moment speichere ich nur die ersten 255 Zeichen jeder Seite, und das ist dann einfach das Snippet. Wenn ich mehr Daten (z.B. 1000 Zeichen) speichern würde, dann könnte ich später bei der Anzeige der Ergebnisse flexibler reagieren, welcher Teil davon angezeigt wird. Idealerweise natürlich der Teil, der am nächsten zu den gefundenen Suchbegriffen steht.

Dem steht aber ein wenig entgegen, dass damit der Platzbedarf des Index deutlich steigen würde. Von derzeit circa 1100 Bytes pro Seite auf fast 2000 Bytes pro Seite. Eventuell könnte ich den Platzbedarf aber wieder reduzieren, wenn ich die Snippets komprimiert speichern würde.

Alles nicht so einfach... :)

MfG Michael Schöbel

Von: (Unbekannt)
16.11.2016, 22:29
 

Hallo,

wie ist der aktuelle Stand zur Indizierung von HTTPS-Seiten, gab es in dem vergangenen Jahr irgendwelche Fortschritte diesbezüglich?

Von: Michael Schöbel
16.11.2016, 22:41
 

Leider nein. Ich habe zwar mittlerweile eine ziemlich gute Vorstellung davon wie ich das am einfachsten in die Gesamtstruktur der Software einbauen kann, aber mit der Implementierung habe ich bisher noch nicht wirklich angefangen. Nur ein paar Tests um heraus zu finden, wie ich am besten vorgehe.

Ist primär einfach aus Zeitmangel.

Ziemlich bald werde ich mir aber einfach die Zeit nehmen müssen. Zumindest was den viel einfacher zu skalierenden Teilindex mit aktuellen Nachrichten und Blog-Artikeln angeht. Der enthält zwar nur rund 250.000 Seiten, diese sind aber für die Qualität der Suchergebnisse bei allen aktuellen Ereignissen *sehr* wichtig. Und immer mehr Nachrichtenseiten sind ausschließlich per HTTPS zu erreichen...

-- Michael Schöbel

Sie möchten einen Kommentar zu diesem Blog-Posting abgeben? Falls ja, tragen Sie Ihren Kommentar bitte einfach in dem unten stehenden Feld ein, und klicken dann auf "Absenden".

Kommentare erscheinen erst nach manueller Kontrolle. Leider gab es sonst zu viel Spam.


Zurück zur Blog-Übersicht