Besuch verhindern
Wenn Sie nicht möchten, dass der Web-Crawler unseres Forschungsprojekts Ihre Webseiten besucht und diese in seinen Index einbringt, können Sie selbstverständlich unseren Web-Crawler über eine robots.txt
ausschließen. Im Folgenden erklären wir Ihnen, wie Sie dabei vorzugehen haben und was dabei zu beachten ist.
Der User-Agent unseres Web-Crawlers lautet:
Semantic Health Web Crawler (shc-info.zml.hs-heilbronn.de)
Für den Ausschluss des Web-Crawlers müssen Sie zuerst auf Ihrem Server die robots.txt
Datei anlegen.
Den Web-Crawlern Yandex
, yovadis
, YodaoBot
wird das Erfassen der Webseite verweigert. Alle anderen Web-Crawler (gekennzeichnet durch das Wildcard-Zeichen: *
) dürfen die Webseite bis auf die Verzeichnisse /cgi-bin/
und /feed/
erfassen.
User-agent: Yandex
Disallow: /
User-agent: yovadis
Disallow: /
User-agent: YodaoBot
Disallow: /
User-agent: *
Disallow: /cgi-bin/
Disallow: /feed/
Den Web-Crawlern Googlebot
, Googlebot-Image
, Mediapartners-Google
wird das Erfassen der Webseite explizit erlaubt. Allen anderen Web-Crawler (gekennzeichnet durch das Wildcard-Zeichen: *
) wird das Erfassen der Webseite verweigert.
User-agent: Googlebot
Allow:
User-agent: Googlebot-Image
Allow:
User-agent: Mediapartners-Google
Allow:
User-agent: *
Disallow: /