- Mysql: Datensätze zufällig aus großen Datenbanken auslesen
- 06.06.2011 16:02
- Crawler TSConfig für tt_news pagination
- 05.05.2010 10:38
- Vektor Grafiken nach jpg umwandeln
- 02.03.2010 15:50
- Typo3, Realurl, Indexseiten und Weiterleitungen
- 18.12.2009 16:38
Eine coole Extension von Typo3 ist der Crawler. Er hat die simple Aufgabe, alle veröffentlichten Seiten einer Präsenz nacheinander aufzurufen. Das Prinzip ähnelt dabei dem eines Suchmaschinen-Spiders, der sich anhand der gesetzten Links durch eine Webseitenstruktur hangelt. Am ehesten entspricht der Crawler also einem Linkspider, wie etwa dem Programm Xenu.
Der Crawler für Typo3 hat die primäre Funktion, die aufgerufenen Seiten in den Cache zu schreiben, damit diese schneller geladen werden. Das ist vor allem bei Webseiten mit vielen Unterseiten, die selten besucht werden, sinnvoll. (Gerade vor dem Hintergrund, dass Ladezeiten von den Suchmaschinen eventuell als Rankingfaktor angesehen werden, macht es Sinn, eine Webseite nicht von googlebot cachen zu lassen, sondern dies selbst zu tun - aber das nur am Rande.)
Darüber hinaus kann man mit dem Crawler in Verbindung mit weiteren Extension wie z.B. staticpub die Präsenz als HTML-Seiten speichern, oder zeitgesteuerte Veröffentlichungen starten.
Jetzt hatte ich vor kurzem den Sonderfall, dass ich ein Typo3-System nur für das Schreiben statischer HTML-Seiten konfiguriert habe. Die komplette Installation wollte ich per htaccess für den direkten Zugriff sperren. So weit so gut. Nur dass der Crawler jetzt auch zur Passwort-Eingabe aufgefordert wurde. Der Seitenaufruf per Inurl-Login wie user:passwort@domain.de hat auch nicht funktioniert. Was tun?
Bezeichenderweise war die Lösung (mal wieder) bei Selfhtml zu finden. Wie dort beschrieben, kann man in der htaccess den Zugriff von bestimmten IPs, IP-Bereichen oder Namensadressen zulassen. In diesem speziellen Fall trägt man einfach die IP des Webservers ein, auf dem die Typo3-Installation liegt.
Von dort aus wird ja auch der Crawler gestartet. Da sich die IP des Server (in der Regel :-) nicht ändert, gibt es auch keine Probleme mit der Zuverlässigkeit. Nur beim Serverumzug oder wenn man evtl. das Webpaket wechselt, muss man den Verzeichnisschutz anpassen. Das sollte man sich - zusammen mit allen anderen Hacks - in der privaten Changelog notieren :-).
Mein Kommentar