Ohrringe Kokon von Julia Reymann 
 Ring Lucide medium in Weißgold von Evelyn Vanderloock 
 Silberring Stern von Peter Steck 
 Halskette FORMbar klein von Birgit Wissing 
 Ring Powerflower von Miriam Arentz 
 Ring Duetto von Anne Zimmer 

Beitrag lesen und kommentieren

Falsche Syntax in robots.txt bei xt:Commerce

Dieser Beitrag gilt für xt:Commerce 3.0.4 SP2.1.

Über die robots.txt ist genug geschrieben worden, daher komme ich hier ohne große Umschweife zum Thema.

Die robots.txt von xt:Commerce ist im Original wie folgt aufgebaut:

User-agent: *
Disallow: address_book_process.php
Disallow: account.php
...
Disallow: admin/
Disallow: export/
...

Das ist die falsche Syntax und die führt dazu, dass gar nichts blockiert wird. Davon kann man sich leicht mit dem Tool robots.txt analysieren in den Webmaster Tools von Google überzeugen.
Die Überprüfung von z. B. http://www.purador-schmuck.de/account.php quittiert der Googlebot mit einem lapidaren Zugelassen.

Die richtige Syntax lautet:

User-agent: *
Disallow: /address_book_process.php
Disallow: /account.php
...
Disallow: /admin/
Disallow: /export/
...

Jetzt liefert die Überprüfung: Blockiert in Zeile 3: Disallow: /account.php

So soll es sein!

RSS 2.0 Feed | Trackback

4 Reaktionen zu “Falsche Syntax in robots.txt bei xt:Commerce”

Falsche Syntax in der originalen robots.txt von xt:Commerce - TP Hilfe Forum am 1. Februar 2008 um 11:54 Uhr

Zu diesem Thema hat Thomas im TP Hilfe Forum einen eigenen Thread aufgemacht.

heuser Christian am 31. März 2008 um 10:28 Uhr

Danke für den Hinweis. Bezieht sich das dann auch auf die Funktion Spider Sessions vermeiden, wenn die robots.txt korrigiert wurde? Kann ich dann den My shop-Befehl “Spider sessions vermeiden” auf false stellen? Ein kurzer Kommentar wäre cool.
Danke für den Blog Heuser

Thomas am 31. März 2008 um 13:56 Uhr

Das sind zwei verschiedene Dinge: Spider Sessions entstehen, wenn sich z. B. der Google-Bot auf den “normalen” Seiten des Shops umsieht. Mit “normalen” Seiten meine ich alle Seiten, die Produkte enthalten und die indiziert werden sollen (und daher nicht in der robots.txt stehen dürfen). Während sich der Bot umsieht, erhält er wie alle anderen Besucher eine Session-ID, die je nach Konfiguration und Shop am Ende der Links angehangen wird (gut zu erkennen an den vielen Ziffern).

Lässt man Spider Sessions zu, dann kann es sein, dass Google Shop-Seiten mitsamt einer Session-ID indiziert. Und genau das verhindert man, indem man Spider-Sessions verbietet: xt-Commerce erkennt den Bot und hängt keine Session-ID an die Links.

Mit der robots.txt grenzt man hingegen z. B. den Check-Out und den Warenkorb aus. Da soll sich der Bot nicht rumtreiben und schon gar nichts indizieren.

Fazit: robots.txt richtig erstellen und Spider-Sessions verbieten.

heuser christian am 31. März 2008 um 16:39 Uhr

Danke für die prompte Antwort
mfg Heuser

Einen Kommentar oder eine Frage verfassen

Wer sich auskennt, der kann folgende HTML-Auszeichnungen im Kommentar verwenden:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>

Mensch oder Maschine? Bitte lösen Sie den reCAPTCHA-Test