Deusu.de Blog

19.12.2015

Zwischenbericht Dezember

Seit Beginn des Monats hat sich einiges getan. Suchabfragen sind schneller geworden, das Ranking der Suchergebnisse wurde besser, und die Aktualisierung des Suchindex läuft planmäßig.

Schnellere Suchabfragen

Ich hatte ja schon ein paar Mal geschrieben, dass Suchabfragen in zwei Phasen ablaufen. Eine erste Grobauswahl und anschließend werden in der 2. Phase die circa 2000 besten Seiten der 1. Phase noch einmal einem aufwändigeren Ranking unterzogen, welches dann die endgültige Reihenfolge der Ergebnisse bestimmt.

Zuvor hatte ich mich darauf konzentriert die 1. Phase schneller zu machen. In diesem Monat habe ich mich auf die 2. Phase konzentriert. Diese konnte ich von durchschnittlich 1,3 Sekunden auf 0,5 Sekunden beschleunigen.

Verbessertes Ranking

Das Ranking ist in zwei Punkten verbessert worden. Zunächst einmal werden aktuelle Nachrichten jetzt anders behandelt. Deren Alter geht jetzt anders in das Ranking mit ein. Dadurch werden sehr aktuelle Nachrichten weiter oben gelistet. Werden die Nachrichten älter, dann wandern sie aber im Ranking schneller wieder nach unten.

Und die relative Häufigkeit der Suchbegriffe geht jetzt ins Ranking mit ein. Dies hat den weitaus größten Effekt. Prinzipbedingt bewirkt diese Änderung aber nur etwas wenn die Suchabfrage mehr als einen Begriff enthält.

Ich muss mich entschuldigen

Leider ging das alles nicht völlig problemlos ab. Und dafür muss ich mich entschuldigen. Mir sind ein paar Fehler durchgerutscht, die in der vergangenen Woche mehrmals dafür gesorgt haben, dass die Ergebnisse zwischenzeitlich einfach katastrophal schlecht waren. Ich hatte zwar jeweils die einzelnen Änderungen überprüft bevor ich sie in den Produktivbetrieb übernommen habe, war da aber offensichtlich nicht gründlich genug.

Dadurch war mir nicht nur ein schwerwiegender Fehler entgangen, sondern gleich mehrere. Ich habe daraus gelernt, dass ich das Gesamtsystem besser testen muss, bevor ich Änderungen an einem Teilsystem in den Produktivbetrieb übernehme. Die Wechselwirkungen zwischen den einzelnen Teilbereichen hatte ich bisher gewaltig unterschätzt. Scheinbar harmlose Änderungen an einem Teil hatten zur Folge dass ein anderer Teil nicht mehr richtig funktionierte.

Fortlaufende Aktualisierung des Suchindex

Die Aktualisierung des Suchindex läuft sehr gut. Inzwischen ist mehr als die Hälfte des Suchindex seit Ende November komplett aktualisiert worden. Im Moment steht es 50/50 ob die Aktualisierung bis Ende des Jahres fertig sein wird oder nicht.

Was weiterhin ansteht

Ich würde das Ranking gerne noch weiter verbessern, habe im Moment aber noch keine Idee wie. Da werde ich aber weiter drüber nachdenken.

Am Webdesign der Suchergebnisseiten muss ich auch noch arbeiten. Das gefällt mir noch nicht wirklich.

Kommentare:
Von: (Unbekannt)
21.12.2015, 23:10
 

Hallo, bitte denken Sie auch daran, Ihrem Bot endlich HTTPS beizubringen... In meinen Logs hatte ich z.B. gestern über 100 Versuche des Deusu-Bots, auf die robots.txt zuzugreifen, die von meinem Server alle mit einer 301-Weiterleitung auf die https-Version dieser Datei beantwortet wurden... Offensichtlich kann ihr Bot damit immer noch nicht umgehen und versucht es im Sekunden/10-Minuten-Takt immer und immer wieder. Außerdem wäre es doch auch von Vorteil für die Suchergebnisse, wenn dort auch https-Ergebnisse auftauchen würden, das könnte/sollte auch ein Ranking-Faktor sein... Danke und weiterhin viel Erfolg!

Von: Michael Schöbel
21.12.2015, 23:27
 

HTTPS für den Robot ist sehr weit oben auf meiner To-Do Liste.

Ist aber nicht so einfach. Oh, eine Seite per HTTPS abzufragen ist noch ziemlich trivial.

Aber dann geht es los: Die Software speichert im Moment nur die "nackte" URL. Ohne "http://" bzw. "https://". Das müsste also an mehreren Stellen geändert werden.

Und dann muss ich überlegen, wie ich Seiten behandeln soll, wo die selbe URL sowohl mit HTTP als auch mit HTTPS erreicht werden kann.

Sicher, HTTPS sollte in den Suchergebnissen besser bewertet werden. Aber wie ist es wenn eine Seite *unterschiedlichen* Inhalt ausgibt je nachdem ob HTTP oder HTTPS benutzt wurde?

HTTPS sieht auf den ersten Blick nach einer simplen Änderung aus, zieht aber leider einen ganzen Rattenschwanz an weiteren Dingen hinter sich her.

-- Michael Schöbel

Sie möchten einen Kommentar zu diesem Blog-Posting abgeben? Falls ja, tragen Sie Ihren Kommentar bitte einfach in dem unten stehenden Feld ein, und klicken dann auf "Absenden".

Kommentare erscheinen erst nach manueller Kontrolle. Leider gab es sonst zu viel Spam.


Zurück zur Blog-Übersicht