Kette Swing lang von Nanna Grønborg 
 Ohrschmuck Polka Gold von purador 
 Ohrringe Zirkus von purador 
 Ohrschmuck Vessillo von Peter Burger 
 Ohrhänger Diana mit Amethyst von Diana Faraj 
 Ring Dalton schwarz von Tanja Emmert 

Beitrag lesen und kommentieren

Falsche Syntax in robots.txt bei xt:Commerce

Dieser Beitrag gilt für xt:Commerce 3.0.4 SP2.1.

Über die robots.txt ist genug geschrieben worden, daher komme ich hier ohne große Umschweife zum Thema.

Die robots.txt von xt:Commerce ist im Original wie folgt aufgebaut:

User-agent: *
Disallow: address_book_process.php
Disallow: account.php
...
Disallow: admin/
Disallow: export/
...

Das ist die falsche Syntax und die führt dazu, dass gar nichts blockiert wird. Davon kann man sich leicht mit dem Tool robots.txt analysieren in den Webmaster Tools von Google überzeugen.
Die Überprüfung von z. B. http://www.purador-schmuck.de/account.php quittiert der Googlebot mit einem lapidaren Zugelassen.

Die richtige Syntax lautet:

User-agent: *
Disallow: /address_book_process.php
Disallow: /account.php
...
Disallow: /admin/
Disallow: /export/
...

Jetzt liefert die Überprüfung: Blockiert in Zeile 3: Disallow: /account.php

So soll es sein!

RSS 2.0 Feed | Trackback

4 Reaktionen zu “Falsche Syntax in robots.txt bei xt:Commerce”

Falsche Syntax in der originalen robots.txt von xt:Commerce - TP Hilfe Forum am 1. Februar 2008 um 11:54 Uhr

Zu diesem Thema hat Thomas im TP Hilfe Forum einen eigenen Thread aufgemacht.

heuser Christian am 31. März 2008 um 10:28 Uhr

Danke für den Hinweis. Bezieht sich das dann auch auf die Funktion Spider Sessions vermeiden, wenn die robots.txt korrigiert wurde? Kann ich dann den My shop-Befehl “Spider sessions vermeiden” auf false stellen? Ein kurzer Kommentar wäre cool.
Danke für den Blog Heuser

Thomas am 31. März 2008 um 13:56 Uhr

Das sind zwei verschiedene Dinge: Spider Sessions entstehen, wenn sich z. B. der Google-Bot auf den “normalen” Seiten des Shops umsieht. Mit “normalen” Seiten meine ich alle Seiten, die Produkte enthalten und die indiziert werden sollen (und daher nicht in der robots.txt stehen dürfen). Während sich der Bot umsieht, erhält er wie alle anderen Besucher eine Session-ID, die je nach Konfiguration und Shop am Ende der Links angehangen wird (gut zu erkennen an den vielen Ziffern).

Lässt man Spider Sessions zu, dann kann es sein, dass Google Shop-Seiten mitsamt einer Session-ID indiziert. Und genau das verhindert man, indem man Spider-Sessions verbietet: xt-Commerce erkennt den Bot und hängt keine Session-ID an die Links.

Mit der robots.txt grenzt man hingegen z. B. den Check-Out und den Warenkorb aus. Da soll sich der Bot nicht rumtreiben und schon gar nichts indizieren.

Fazit: robots.txt richtig erstellen und Spider-Sessions verbieten.

heuser christian am 31. März 2008 um 16:39 Uhr

Danke für die prompte Antwort
mfg Heuser

Einen Kommentar oder eine Frage verfassen

Wer sich auskennt, der kann folgende HTML-Auszeichnungen im Kommentar verwenden:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>

Mensch oder Maschine?

Turing-Test: Um Spam-Roboter von echten Kommentatoren unterscheiden zu können, zeige bitte mit dem Beantworten der folgenden Frage, dass Du wahrscheinlich kein Roboter bist:

»Frage 219 des Einbürgerungstests: Die Bundesrepublik Deutschland hat die Grenzen von heute seit ...«
  • 1971
  •  |  1990
  •  |  1933
  •  |  1949