AngusIM navigation

Ranking Check

Kostenloser Ranking Service.
Jetzt anmelden und testen!
www.private-ranking.de


Abonnieren

RSS 2.0

Archiv

Suchmaschinenoptimierung
Veröffentlicht in: Typo3
28.11.2009

Typo3 Crawler und IP-basierter Verzeichnisschutz per .htaccess

Eine coole Extension von Typo3 ist der Crawler. Er hat die simple Aufgabe, alle veröffentlichten Seiten einer Präsenz nacheinander aufzurufen. Das Prinzip ähnelt dabei dem eines Suchmaschinen-Spiders, der sich anhand der gesetzten Links durch eine Webseitenstruktur hangelt. Am ehesten entspricht der Crawler also einem Linkspider, wie etwa dem Programm Xenu.

Wofür ist das gut?

Der Crawler für Typo3 hat die primäre Funktion, die aufgerufenen Seiten in den Cache zu schreiben, damit diese schneller geladen werden. Das ist vor allem bei Webseiten mit vielen Unterseiten, die selten besucht werden, sinnvoll. (Gerade vor dem Hintergrund, dass Ladezeiten von den Suchmaschinen eventuell als Rankingfaktor angesehen werden, macht es Sinn, eine Webseite nicht von googlebot cachen zu lassen, sondern dies selbst zu tun - aber das nur am Rande.)
Darüber hinaus kann man mit dem Crawler in Verbindung mit weiteren Extension wie z.B. staticpub die Präsenz als HTML-Seiten speichern, oder zeitgesteuerte Veröffentlichungen starten.

Jetzt hatte ich vor kurzem den Sonderfall, dass ich ein Typo3-System nur für das Schreiben statischer HTML-Seiten konfiguriert habe. Die komplette Installation wollte ich per htaccess für den direkten Zugriff sperren. So weit so gut. Nur dass der Crawler jetzt auch zur Passwort-Eingabe aufgefordert wurde. Der Seitenaufruf per Inurl-Login wie user:passwort@domain.de hat auch nicht funktioniert. Was tun?

Die Lösung: Verzeichnisschutz mit IP-Freigabe

Bezeichenderweise war die Lösung (mal wieder) bei Selfhtml zu finden. Wie dort beschrieben, kann man in der htaccess den Zugriff von bestimmten IPs, IP-Bereichen oder Namensadressen zulassen. In diesem speziellen Fall trägt man einfach die IP des Webservers ein, auf dem die Typo3-Installation liegt.

  1. Allow from 123.456.789.0

Von dort aus wird ja auch der Crawler gestartet. Da sich die IP des Server  (in der Regel :-) nicht ändert, gibt es auch keine Probleme mit der Zuverlässigkeit. Nur beim Serverumzug oder wenn man evtl. das Webpaket wechselt, muss man den Verzeichnisschutz anpassen. Das sollte man sich - zusammen mit allen anderen Hacks - in der privaten Changelog notieren :-).

Trackback-Link
Views: 1053
  • 0 Kommentare

Mein Kommentar

Benachrichtige mich, wenn jemand einen Kommentar zu dieser Nachricht schreibt.

Zurück