PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : robots.txt


maximum
2014-06-24, 23:01:09
Hallo kann ich mittels robots.txt alle Crawler bis auf einen bestimmten von einem Verzeichnis ausschließen? (das sich nicht alle daran halten weiß ich).

Was möchte ich erreichen?

Für alle Crwaler soll alles unterhalb /images/ gesperrt sein, außer für Google. Google darf /images/ crawlen, nur ein bestimmtes Bild namens /images/ablaz.jpg soll tabu sein. (ich weiß, dass es noch noindex gibt, wird auch genutzt)

Ich dachte an sowas:


User-agent: *
Disallow: /images/

User-agent: Googlebot
Allow: /images/

User-agent: Googlebot
Disallow: /images/*bla*.jpg$


Wird das wie gewünscht funktionieren?

sei laut
2014-06-25, 18:57:23
Soweit mir bekannt, arbeiten sich die Bots von oben nach unten durch. Mit User-agent: *
Disallow: /images/ als erstes ist aber auch der Googlebot gemeint und haut ab.
Die Regel müsste demnach sein: Erst erlauben, dann verweigern.

maximum
2014-06-25, 23:29:51
Soweit mir bekannt, arbeiten sich die Bots von oben nach unten durch. Mit User-agent: *
Disallow: /images/ als erstes ist aber auch der Googlebot gemeint und haut ab.
Die Regel müsste demnach sein: Erst erlauben, dann verweigern.

Vielen Dank für den Hinweis, das ist natürlich richtig.

Hab jetzt was in dieser Art:


User-agent: Googlebot
Disallow: /images/*bla*.jpg$
Disallow: /*abcd

Noindex: /images/*bla*.jpg$
Noindex: /*abcd

User-agent: bingbot
Disallow: /images/*bla*.jpg$
Disallow: /*abcd

Noindex: /images/*bla*.jpg$
Noindex: /*abcd

User-agent: ia_archiver
Disallow: /images/

User-agent: *
Disallow: /


Ich werde das mal die nächsten Wochen beobachten, was aus dem Index geflogen ist. Leider kann ich nicht einfach bei allen meta Tag noindex setzen.