Ausschluss von Webseiten

So konfigurieren Sie den Crawler, um das Importieren von unerwünschten Web-Seiten in Ihr Portal zu vermeiden:

  1. Standardmäßig befolgt der Crawler die Empfehlungen des Web-Servers, welche Seiten für automatisierte Crawler nützlich sein könnten. Wenn Sie diese Empfehlungen ignorieren möchten, deaktivieren Sie das Kontrollkästchen Befolgen der Auslassungsprotokolle des Roboters der Ziel-Site.

    Im Allgemeinen sind diese Empfehlungen recht nützlich, um das Importieren unerwünschten Inhalts in das Portal einzuschränken. Einige Websites bieten jedoch nur sehr wenige Empfehlungen. Wenn Sie bemerken, dass Ihr Crawler von einer Website überhaupt keinen Inhalt importiert, deaktivieren Sie diese Option.

  2. Standardmäßig speichert der Crawler die URLs zu importierten Webseiten mit der gleichen Groß- und Kleinschreibung, wie sie in der ursprünglichen Website verwendet wird. Wenn Sie die URLs in Kleinbuchstaben umwandeln möchten, wählen Sie die Option Alle URLs in Kleinbuchstaben umwandeln.

  3. So vermeiden Sie, dass bestimmte Seiten oder bestimmter Inhalt aus bestimmten Bereichen einer Website importiert werden:

  4. Standardmäßig werden von diesem Crawler keine Seiten importiert oder durchsucht, die in den Ausschlüssen angegeben wurden. Wenn Ihr Crawler von einem Link auf einer ausgeschlossenen Seite auf eine Seite geht, die nicht ausgeschlossen ist und importiert werden soll, wählen Sie Crawlen in ausgeschlossenen Seiten, aber kein Import.

  5. So beschränken Sie den Crawl auf einen Website-Bereich oder auf bestimmte Seiten:


  1. Klicken Sie auf Administration.
  2. Öffnen Sie den Web-Crawler-Editor:
  3. Klicken Sie links unter „Objekteinstellungen bearbeiten“ auf „Ausschluss von Webseiten.