News

Alles was mich beschäftigt und bewegt

TYPO3 und die richtige robots.txt

Es existieren so genannte Defacto-Standards. Dies bedeutet, dass es solche Standards nie zu einer RFC gebracht haben.

Die Datei robots.txt ist einer dieser Defacto-Standards. In ihr wird fest gelegt, welche Verzeichnisse, Dateien und URLs für Such-Robots sichtbar und unsichtbar sind. Die Mehrheit der Suchmaschinen beachtet diese Datei.

Speicherort

Damit dies funktioniert muss die Datei robots.txt (komplett kleingeschrieben) im Wurzelverzeichnis der TYPO3-Installation angelegt werden. Sie können dies überprüfen, in dem Sie z.B. www.carstenwalther.de/robots.txt mit Ihrer Domain aufrufen.

Aufbau

User-Agent: *
Allow: / # Allow bot to enter
Disallow: /fileadmin/System/  # Exclude only folders with no link from frontend, like templates, css, js.
Disallow: /cms/ # Nothing to see here
Disallow: /t3lib/ # Nothing to see here
Disallow: /typo3/ # Nothing to see here
Disallow: /typo3conf/ # Nothing to see here
Disallow: /typo3temp/ # Nothing to see here Disallow: /*?id=* #

Disable non-realurl
Disallow: /*&type=98 # Disable print pages

Sitemap: www.carstenwalther.de/sitemap.xml # Your Sitemap

 

Im Beispiel werden generell alle User-Agents zugelassen und dürfen das Wurzelverzeichnis sehen.

Verzeichnisse wie den TYPO3-fileadmin beziehungsweise bestimmte Ordner darin werden verboten. Ebenso muss dies mit den eigentlichen System-Ordner wie t3lib, typo3, typo3conf und typo3temp geschehen. Such-Robots haben hier nichts zu suchen.

Außerdem werden nichtsprechende URLs und wie im Beispiel die Druckansicht ausgeschlossen. Zu guter Letzt teilt man den Such-Robots mit, wo sich die Sitemap befindet.