Deusu.de Blog

19.11.2015

Jetzt 915 Millionen Seiten im Suchindex

Das Wachstum des Suchindex geht weiter. Auf 915 Millionen Seiten ist der Index inzwischen angewachsen.

In vier Tagen wird voraussichtlich die Marke von 1 Milliarde Seiten überschritten.

[Update: Mit Stand vom 22.11.2015 17:00 beträgt der Datenbestand über 1 Milliarde Seiten]

Zwei Tage danach wird der Crawl dann komplett durch sein. Ich rechne damit, dass dann circa 1,08 Milliarden Seiten erfasst sein werden.

An dem Punkt ist dann aber erst einmal Schluß. Mehr geht mit den derzeitigen Servern einfach nicht. Mit zusätzlichen Servern wäre aber ein größerer Index ohne weiteres machbar. Bis circa 8 Milliarden Seiten würde die Software ohne Änderungen funktionieren.

Darüber hinaus müssten Änderungen an der URL-Datenbank vorgenommen werden. Bei 8 Mrd. Seiten im Index würde die nämlich knapp 2tb Platz einnehmen. Und da wird es dann eng auf der Festplatte. :)

Übrigens, die Index-Komprimierung, die ich vor ein paar Tagen angekündigt hatte, konnte ich in nur zwei Tagen fertig stellen. Jetzt wird für den fertigen Index pro erfasster Seite circa 25-30 Prozent weniger Speicherplatz auf den SSDs benötigt. Ohne die Index-Komprimierung hätte ich beim Stand von 770 Millionen Seiten Schluß machen müssen. Die SSDs waren schon fast voll.

Ich habe auch am Ranking ein wenig gearbeitet. Die Auswirkungen sind da aber nicht berauschend. Ich habe zwar den Eindruck, dass die Suchergebnisse ein wenig besser geworden sind, aber das ist nur mein subjektiver Eindruck.

Und was das schon längst überfällige neue Webdesign angeht, habe ich mich entschlossen erst einmal nur kleinere Änderungen zu machen. Das bedeutet ein neues Logo und ein daran angepasstes Farbschema.

Kommentare:
Von: (Unbekannt)
20.11.2015, 13:19
 

502 - Web server received an invalid response while acting as a gateway or proxy server.

Warum diese Fehlermeldung. Sollte doch alles besser werden.

Bitte um Antwort.

Von: Michael Schöbel
20.11.2015, 13:26
 

Welcher Browser? Ich habe nämlich einige Browser (genauer gesagt User-Agents) gesperrt, weil mit denen viele, VIELE Suchabfragen versucht wurden.

Waren offensichtlich irgendwelche Tools. Den damit gemachten Suchabfragen nach zu urteilen waren die auf der Suche nach Schwachstellen in Webseiten.

-- Michael Schöbel

Von: Michael Schöbel
20.11.2015, 13:45
 

Nachtrag: Ich habe jetzt mal einige der Sperren wieder rausgenommen.

Ein Blick auf die Logfiles zeigte nämlich, dass es die letzten paar Tage etwas ruhiger geworden ist.

-- Michael Schöbel

Von: (Unbekannt)
21.11.2015, 21:04
 

Hey Michael,

das klingt alles sehr gut. Ich habe mir gerade mal erlaubt, die URL https://deusu.de bei Dir anzumelden. ;)

User-Agents sind ein sehr schwaches Indiz. Die ganz bösen Jungs und Mädels geben einfach einen aktuellen Firefox an. Ganz vorsichtig muss man sogar bei alten Firefox (3,4,5,6) UAs sein. Es kommen sogar wichtigere Bots (z.B. der von Google+ wenn jemand eine Suchergebnisseite teilen möchte) mit einer alten FF-Kennung.

Falls Du eine Liste der bei uns gesperrten Bots haben möchtest -> email. Es ist eine fast 150 Einträge lange Liste mit RegEx-Patterns...

Grüße Tobias von ********.eu (weißt schon ;))

Von: Michael Schöbel
21.11.2015, 21:13
 

Die User-Agent Sperre bezieht sich bei DeuSu ausschließlich auf die Suchergebnisseiten. Und die sind in der robots.txt eh gesperrt.

-- Michael Schöbel

Von: (Unbekannt)
21.11.2015, 23:29
 

Wir kämpfen aktuell mit SERP-Scrapern aus VPNs. Die kümmern weder robots.txt noch UA-Sperre.

Von: Michael Schöbel
21.11.2015, 23:48
 

Einfaches Gegenmittel:

Im RAM (und *nur* dort) IP-Adressen und Anzahl der von der jeweiligen IP-Adresse gemachten Suchabfragen speichern. Wird eine bestimmte Anzahl überschritten, wird die IP für Suchabfragen gesperrt. Von dort kommende Anfragen erhöhen aber weiterhin die gespeicherte Anzahl.

Regelmäßig, z.B. 1x pro Stunde, wird die gespeicherte Anzahl an Suchabfragen halbiert. Also aus 19 wird 9, dann 4, 2, 1, dann 0. Was dann bewirkt, dass die IP aus dem RAM gelöscht wird. So "verfallen" einmal gemachte Suchabfragen nach einiger Zeit automatisch wieder. Die IP wird dann nicht einmal mehr im RAM gespeichert.

Einzige Abfragemöglichkeit ist ein API welches an diesen Serverprozess eine IP-Adresse sendet, und entweder ein "Ist Ok" oder ein "Gesperrt" zurückbekommt.

Man speichert auf diese Weise nur welche IPs wie viele Suchabfragen gemacht haben. Nicht genau wann, und schon gar nicht wonach gesucht wurde. So bleibt der Datenschutz gewahrt und der Server wird vor solchen A...löchern geschützt.

-- Michael Schöbel

Von: (Unbekannt)
22.11.2015, 00:39
 

Also im Prinzip eine Halbwertszeit (die Anfragen reichern sich an). Gute Idee.

Problem: die "Cloud" macht IP-Zuordnungen schwierig. Und was passiert, wenn viele User über eine IP kommen? Stichwort Schul- oder Firmenproxy. Eine Lösung dafür wären CAPTCHAs. Sind aber leider auch nicht 100%ig...

Von: Michael Schöbel
22.11.2015, 01:15
 

Cloud ist ein Problem. Aber bisher funktioniert diese Lösung bei mir sehr gut. Fängt nicht alles ab, aber doch >95%.

Und bei den derzeitigen Zugriffszahlen ist es eher unwahrscheinlich, dass ein Proxy versehentlich gesperrt wird.

-- Michael Schöbel

Von: (Unbekannt)
23.11.2015, 00:10
 

Hallo,

will mal zur oben genannten Problematik was sagen (SERP Crawler).

Die IP counten ist eine gute Möglichkeit... Definitiv (habe ich bei meiner Website auch gemacht). Jedoch ist mein dauerhafter Angreifer schlauer geworden. Er benutzt nun TOR-Netzwerke + Proxies + BotNets + VPNs. Zusammen ca. 500 verschieden IPs / Minute.

z.B.
185.65.135.227 (TOR)
5.178.100.54 (Proxy)
188.208.218.158 (Proxy)
...
Übern den Tag kommen verdammt viele IP's zusammen und den UA schaue ich mir gar nicht mehr an, da dort selbst Google-Fakes mit kommen.

Meine Vorgehensweise:
=====================
IP Counten mit Halbwertszeit +
Alle Zugriff-IP's in Liste merken (für Dauer der Session) und Flag setzen, wenn er [...]*. So sehe ich schnell, ob es ein Bot oder ein echter User ist. [...]* Mit der Methode habe ich den Angreifer unter Kontrolle und kann ihn gut steuern. Redirect auf große Downloads z.B. :)

Manuelle Entscheidung muss ich trotzdem fällen, da es auch gute Bots sein könnten. Aber ich bekomme eine gute vorgefertigte Liste.

VG

[EDIT durch Michael Schöbel]: An den mit [...]* markierten Stellen habe ich die Methode entfernt, die ich auch anwende. Dies geschah, damit die Bot-Betreiber dies nicht mitlesen können, und dann Gegenmaßnahmen entwickeln. Irgendwann werden sie zwar auch selber drauf kommen, aber je später, desto besser. :)

Sie möchten einen Kommentar zu diesem Blog-Posting abgeben? Falls ja, tragen Sie Ihren Kommentar bitte einfach in dem unten stehenden Feld ein, und klicken dann auf "Absenden".

Kommentare erscheinen erst nach manueller Kontrolle. Leider gab es sonst zu viel Spam.


Zurück zur Blog-Übersicht