Besuch verhindern

Wenn Sie nicht möchten, dass der Web-Crawler unseres Forschungsprojekts Ihre Webseiten besucht und diese in seinen Index einbringt, können Sie selbstverständlich unseren Web-Crawler über eine robots.txt ausschließen. Im Folgenden erklären wir Ihnen, wie Sie dabei vorzugehen haben und was dabei zu beachten ist.

User-Agent

Der User-Agent unseres Web-Crawlers lautet:

Semantic Health Web Crawler (shc-info.zml.hs-heilbronn.de)

Für den Ausschluss des Web-Crawlers müssen Sie zuerst auf Ihrem Server die robots.txt Datei anlegen.

Beispiele für `robots.txt`

Den Web-Crawlern Yandex, yovadis, YodaoBot wird das Erfassen der Webseite verweigert. Alle anderen Web-Crawler (gekennzeichnet durch das Wildcard-Zeichen: *) dürfen die Webseite bis auf die Verzeichnisse /cgi-bin/ und /feed/ erfassen.

User-agent: Yandex
Disallow: /

User-agent: yovadis
Disallow:  /

User-agent: YodaoBot
Disallow:  /

User-agent: *
Disallow: /cgi-bin/
Disallow: /feed/

Den Web-Crawlern Googlebot, Googlebot-Image, Mediapartners-Google wird das Erfassen der Webseite explizit erlaubt. Allen anderen Web-Crawler (gekennzeichnet durch das Wildcard-Zeichen: *) wird das Erfassen der Webseite verweigert.

User-agent: Googlebot
Allow:

User-agent: Googlebot-Image
Allow:

User-agent: Mediapartners-Google
Allow:

User-agent: *
Disallow: /

Besuch verhindern

User-Agent

Beispiele für robots.txt

Beispiele für `robots.txt`