Deusu.de Blog

18.3.2015

Verbesserung am Suchindex

Vor ein paar Tagen habe ich begonnen bestimmte Domains mit einem separaten Crawler intensiv zu erfassen. Dies sind unter anderem die deutsche und englische Wikipedia, StackOverflow, TechCrunch, WebdesignerDepot und einige andere Blogs, überwiegend zum Thema Webdesign und Programmierung.

Gerade Wikipedia war bisher im Suchindex nur mit relativ wenigen Seiten vertreten. Der Grund dafür ist, dass ich bisher zwischen zwei Zugriffen auf einen Server immmer mindestens 60 Sekunden Pause eingelegt habe. Schließlich will ich die Betreiber von Servern nicht verärgern, indem ich einen Server mit Abfragen regelrecht bombardiere.

Für diesen separaten Crawl habe ich aber nur Seiten ausgewählt, die eh an viel Traffic gewöhnt sind. Daher habe ich die Pause zwischen zwei Zugriffen hier auf 10 Sekunden reduziert.

Es wird immer noch mehrere Wochen dauern bis Wikipedia zu einem wesentlichen Teil erfasst sein wird, aber die ersten Verbesserungen kann man jetzt schon bei der Suche bemerken.

Der Grund für die Aufnahme von StackOverflow, TechCrunch und ähnlichem liegt darin, dass IT-affine Personen am ehesten geneigt sein werden eine alternative Suchmaschine wie DeuSu auszuprobieren. Und da möchte ich die für diese Zielgruppe (und auch für mich selbst) am ehesten relevanten Seiten gut im Suchindex erfasst haben.

Ich werde in den nächsten Tagen wahrscheinlich noch ein wenig Feintuning am Ranking vornehmen müssen, damit sich dieser neue Teilindex gut in die Suchergebnisse einfügt.

Und ich arbeite auch bereits an einer allgemeinen Verbesserung des Ranking. Mehr dazu in den nächsten Tagen...

Kommentare:

Sie möchten einen Kommentar zu diesem Blog-Posting abgeben? Falls ja, tragen Sie Ihren Kommentar bitte einfach in dem unten stehenden Feld ein, und klicken dann auf "Absenden".

Kommentare erscheinen erst nach manueller Kontrolle. Leider gab es sonst zu viel Spam.


Zurück zur Blog-Übersicht