So konfigurieren Sie den Crawler, um das Importieren von unerwünschten Web-Seiten in Ihr Portal zu vermeiden:
Standardmäßig befolgt der Crawler die Empfehlungen
des Web-Servers, welche Seiten für automatisierte Crawler nützlich sein
könnten. Wenn Sie diese Empfehlungen ignorieren möchten, deaktivieren
Sie das Kontrollkästchen Befolgen der
Auslassungsprotokolle des Roboters der Ziel-Site.
Im Allgemeinen sind diese Empfehlungen recht nützlich, um das Importieren
unerwünschten Inhalts in das Portal einzuschränken. Einige Websites bieten
jedoch nur sehr wenige Empfehlungen. Wenn Sie bemerken, dass Ihr Crawler
von einer Website überhaupt keinen Inhalt importiert, deaktivieren Sie
diese Option.
Standardmäßig speichert der Crawler die URLs zu importierten Webseiten mit der gleichen Groß- und Kleinschreibung, wie sie in der ursprünglichen Website verwendet wird. Wenn Sie die URLs in Kleinbuchstaben umwandeln möchten, wählen Sie die Option Alle URLs in Kleinbuchstaben umwandeln.
So vermeiden Sie, dass bestimmte Seiten oder bestimmter Inhalt aus bestimmten Bereichen einer Website importiert werden:
Wenn Sie einen Bereich, der ignoriert werden
soll, angeben möchten, klicken Sie auf Ausschluss hinzufügen. Geben Sie danach
im Textfeld die URL des zu ignorierenden Bereichs der Website ein.
Sie können Platzhalter-Zeichen (*) verwenden, um die Ausschlüsse
allgemeiner zu gestalten. Wenn Sie z. B. keine Verkaufsinformationen
von einer bestimmten Website erhalten möchten, geben Sie http://meinefirma.com*verkauf
ein. Dadurch importiert der Crawler keine Seiten von meinefirma.com, in
deren URL der Ausdruck „Verkauf“ vorkommt.
Hinweis: Platzhalter-Zeichen gelten für den Anfang und das
Ende Ihres Texts. Wenn Sie beispielsweise Verkauf
eingeben, importiert der Crawler
keine Seiten von Websites, die
von der Ziel-URL aufgerufen werden können und den Begriff „Verkauf“ an
irgendeiner Stelle in ihrer URL enthalten.
Wichtig: Wenn Sie Ausschlüsse und
Aufnahmen aufführen, gelten die Ausschlüsse nur für die aufgenommenen
Seiten. Beispiel: Sie haben den Begriff
Verkauf ausgeschlossen und http://meinefirma.com
aufgenommen. Ihr Crawler importiert also alle Seiten aus http://meinefirma.com
außer den Seiten, in deren URL
der Begriff „Verkauf“ vorkommt.
Wählen Sie zum Entfernen eines Ausschlusses,
den entsprechenden Ausschluss aus und klicken Sie auf .
Klicken Sie zum Aktivieren bzw. Deaktivieren aller Kontrollkästchen für die Ausschlüsse in das Kästchen links neben Ausschlüsse.
Standardmäßig werden von diesem Crawler keine Seiten importiert oder durchsucht, die in den Ausschlüssen angegeben wurden. Wenn Ihr Crawler von einem Link auf einer ausgeschlossenen Seite auf eine Seite geht, die nicht ausgeschlossen ist und importiert werden soll, wählen Sie Crawlen in ausgeschlossenen Seiten, aber kein Import.
So beschränken Sie den Crawl auf einen Website-Bereich oder auf bestimmte Seiten:
Klicken Sie auf Aufnahme hinzufügen, um den Crawl-Bereich des Crawlers
festzulegen. Geben Sie dann im Textfeld die URL zum Bereich der Website
an, auf die Sie den Crawl beschränken möchten. Da Websites Links zu anderen
Websites enthalten können, empfiehlt es sich, den Crawler mithilfe von
Aufnahmen auf einer bestimmten Website zu halten. Damit keine anderen
Sites durchsucht werden, nehmen Sie die Ausgangs-URL der Website, die
durchsucht werden soll, in die Aufnahmeliste auf. Beispiel: http://meinefirma.com.
Sie können Platzhalter-Zeichen (*) verwenden, um die Aufnahmen
allgemeiner zu halten. Wenn Sie beispielsweise nur Informationen über
Einfachanmeldungen (SSO) durchsuchen möchten, geben Sie http://meinefirma.com*sso
ein. Dadurch würde der Crawler ausschließlich Seiten von meinefirma.com
importieren, in deren URL der Ausdruck „SSO“ vorkommt.
Hinweis: Platzhalter-Zeichen gelten für den Anfang und das
Ende Ihres Texts. Wenn Sie beispielsweise sso
eingeben, importiert der Crawler
alle Seiten aus allen Sites,
die von der Ziel-URL aufgerufen werden können und den Begriff „sso“ an
irgendeiner Stelle in ihrer URL enthalten.
Wichtig: Wenn Sie Ausschlüsse und
Aufnahmen aufführen, gelten die Ausschlüsse nur für die aufgenommenen
Seiten. Beispiel: Sie haben http://meinefirma.com
aufgenommen und den Begriff sso
ausgeschlossen. Ihr Crawler importiert also alle Seiten aus http://meinefirma.com
außer den Seiten, in deren URL
der Begriff „sso“ vorkommt.
Wählen Sie zum Entfernen einer Aufnahme, die
entsprechende Aufnahme aus und klicken Sie auf .
Klicken Sie zum Aktivieren bzw. Deaktivieren aller Kontrollkästchen für die Aufnahmen in das Kästchen links neben Aufnahmen.
So zeigen Sie die Seite an, auf die sich dieses Hilfethema bezieht: