Hypercell ein ] Hypercell aus ] Zeige Navigation ] Verstecke Navigation ]
c++.de  
   

Die mobilen Seiten von c++.de:
http://m.c-plusplus.de
Infos hier [BETA]

  
c++.de :: Webzeugs ::  Unerwünschte Bots/Spider/Crawler     Zeige alle Beiträge auf einer Seite Auf Beitrag antworten
Autor Nachricht
robot
Mitglied

Benutzerprofil
Anmeldungsdatum: 14.12.2006
Beiträge: 135
Beitrag robot Mitglied 17:25:01 27.05.2012   Titel:   Unerwünschte Bots/Spider/Crawler            Zitieren

Hallo,

ich hab neulich mal in das Logfile meiner Webseite rein geschaut und festgestellt, dass da sehr viel Besuch von Bots kommt, deren Absicht mir nicht klar ist.

Da es realtiv mühsam ist alle Bots einzeln zu recherchieren suche ich nun eine zuverlässige Liste die mir Auskunft gibt. Beim Googlen bin ich da z.B. auf http://www.bot-trap.de gestoßen. Da muss man sich aber erst anmelden und ich weiß auch nicht, ob die vertrauenswürdig sind.

Wie geht Ihr gegen unerwünschte Bots vor und welche Methode nutzt Ihr, um sie auszusperren (o. ignorieren)?


BTW: Wisst Ihr zufällig, was der Sistrix-Bot oder der Turnitin-Bot für Insekten sind? Ein Blick auf die Herrsteller-Seiten macht mir einen unsympathischen Eindruck.
Shade Of Mine
Moderator

Benutzerprofil
Anmeldungsdatum: 04.05.2001
Beiträge: 18945
Beitrag Shade Of Mine Moderator 18:26:10 27.05.2012   Titel:              Zitieren

Erzeugen sie zuviel Traffic? Dann IP sperren.
Ansonsten einfach ignorieren.

_________________
A language that doesn't affect the way you think about programming is not worth knowing.
geeky
Mitglied

Benutzerprofil
Anmeldungsdatum: 04.05.2001
Beiträge: 6185
Beitrag geeky Mitglied 21:01:49 28.05.2012   Titel:              Zitieren

Halten die sich nicht an eine robots.txt oder hast du gar keine?
robot
Mitglied

Benutzerprofil
Anmeldungsdatum: 14.12.2006
Beiträge: 135
Beitrag robot Mitglied 23:51:00 30.05.2012   Titel:              Zitieren

@shade: Zu viel Traffic erzeugen sie im Moment nocht nicht. Aber ich möchte nicht, dass meine Seite automatisch von Kriechern durchwühlt wird, von denen ich nicht weiß zu welchem Zweck bzw. für wen sie das tun.

@geeky: Doch, die robots.txt gibts, hab da aber keine user-agents ausgesperrt, da eben oft grade die unerwünschten Kriecher sich nicht dran halten.

Da ich ohnehin überall PHP-Seiten verwende, werde ich wohl einfach eine Blacklist von user-agents erstellen und denen eine leere oder Dummy Seite präsentieren. Klar man das mit einen Fake-Agent-String umgehen, aber es ist schonmal ein erster Schritt.
Christoph
Moderator

Benutzerprofil
Anmeldungsdatum: 30.04.2001
Beiträge: 5945
Beitrag Christoph Moderator 23:59:40 30.05.2012   Titel:              Zitieren

robot schrieb:
@shade: Zu viel Traffic erzeugen sie im Moment nocht nicht. Aber ich möchte nicht, dass meine Seite automatisch von Kriechern durchwühlt wird, von denen ich nicht weiß zu welchem Zweck bzw. für wen sie das tun.
Kannst du eh nicht verhindern, insofern ist Shades Rat genau der richtige: Wenn sie keine spürbare Last verursachen, sind sie deine Zeit nicht wert. Sie schaden dir ja schließlich nicht.

robot schrieb:
@geeky: Doch, die robots.txt gibts, hab da aber keine user-agents ausgesperrt, da eben oft grade die unerwünschten Kriecher sich nicht dran halten.
Woher weißt du das, wenn du keine User-Agents ausgesperrt hast? Bots, die robots.txt ignorieren, werden wohl kaum einen konstanten User-Agent-String senden, damit du sie dann einfach mit deinem PHP-Trick aussperren kannst.

_________________
Wenn Word für Längeres geeignet wäre, würde es nicht Word, sondern Sentence, Page oder Article heißen.
fffffffg
Unregistrierter




Beitrag fffffffg Unregistrierter 14:04:52 31.05.2012   Titel:              Zitieren

er kann ja einfach alle unbekannten usr agents sperren.
Klar kann er somit unerwünscht irgendwelche exoten aussperren aber die idee ist, wie andere schon sagten, ja sowieso nicht geeignet.
RonnieIshorst
Mitglied

Benutzerprofil
Anmeldungsdatum: 11.11.2011
Beiträge: 6
Beitrag RonnieIshorst Mitglied 12:42:34 10.06.2012   Titel:              Zitieren

Einfach die IP´s sperren. Mit der htacces da braucht es am wenigsten Rechenzeit:
HTML:
order allow,deny
deny from 192.168.2.100
allow from all
c++.de :: Webzeugs ::  Unerwünschte Bots/Spider/Crawler   Auf Beitrag antworten

Zeige alle Beiträge auf einer Seite




Nächstes Thema anzeigen
Vorheriges Thema anzeigen
Sie können Beiträge in dieses Forum schreiben.
Sie können auf Beiträge in diesem Forum antworten.
Sie können Ihre Beiträge in diesem Forum nicht bearbeiten.
Sie können Ihre Beiträge in diesem Forum nicht löschen.
Sie können an Umfragen in diesem Forum nicht mitmachen.

Powered by phpBB © 2001, 2002 phpBB Group :: FI Theme

c++.de ist Teilnehmer des Partnerprogramms von Amazon Europe S.à.r.l. und Partner des Werbeprogramms, das zur Bereitstellung eines Mediums für Websites konzipiert wurde, mittels dessen durch die Platzierung von Werbeanzeigen und Links zu amazon.de Werbekostenerstattung verdient werden kann.

Die Vervielfältigung der auf den Seiten www.c-plusplus.de, www.c-plusplus.info und www.c-plusplus.net enthaltenen Informationen ohne eine schriftliche Genehmigung des Seitenbetreibers ist untersagt (vgl. §4 Urheberrechtsgesetz). Die Nutzung und Änderung der vorgestellten Strukturen und Verfahren in privaten und kommerziellen Softwareanwendungen ist ausdrücklich erlaubt, soweit keine Rechte Dritter verletzt werden. Der Seitenbetreiber übernimmt keine Gewähr für die Funktion einzelner Beiträge oder Programmfragmente, insbesondere übernimmt er keine Haftung für eventuelle aus dem Gebrauch entstehenden Folgeschäden.