Pour sp�cifier la langue du contenu, traiter les documents rejet�s et utiliser des balises de crawler de contenu :
Dans la liste d�roulante sous Langue du contenu, choisissez la langue utilis�e dans la majorit� du contenu que vous souhaitez importer.
Sous Documents rejet�s, sp�cifiez la fa�on de traiter les documents ne pouvant pas �tre rang�s dans un dossier � l�issue du tri :
Pour importer ces documents quand m�me, choisissez
Importer dans le dossier des documents
non class�s.
Remarque : le dossier Documents non class�s est mis
� la disposition des utilisateurs disposant d�un
acc�s aux documents non class�s. Pour acc�der � des documents non
class�s, cliquez sur Modifier le r�pertoire
dans le menu du r�pertoire et ouvrez le dossier Documents
non class�s. Vous pouvez aussi cliquer sur Administration
| S�lectionner un utilitaire
| Acc�s aux documents non class�s.
Pour �viter d�importer ces documents, choisissez Ne pas importer.
Si vous modifiez un crawler de contenu existant, des options suppl�mentaires visibles sous Documents rejet�s vous permettent de sp�cifier la marche � suivre quand ce crawler de contenu trouve un document d�j� rejet�. La d�finition de "d�j� rejet�" d�pend de l�option choisie � l��tape 4b :
Si vous choisissez "par ce crawler de contenu," les documents d�j� rejet�s comprennent tous les documents rejet�s par ce crawler de contenu.
Si vous avez choisi "dans cette source de contenu," les documents d�j� rejet�s comprennent tous les documents rejet�s dans cette source de contenu.
Sp�cifiez la fa�on de traiter les documents d�j� rejet�s :
Pour que ce crawler de contenu tente d�importer les documents d�j� rejet�s, s�lectionnez R�importer.
Pour �viter d�importer ces documents, choisissez Ne pas importer.
En cas de n�cessit� absolue, vous pouvez supprimer l�historique des documents d�j� rejet�s. L� encore, la d�finition de "d�j� rejet�" d�pend de l�option choisie � l��tape 4b. Si vous choisissez "dans cette source de contenu" � l��tape 4b, vous supprimez l�historique des rejets de tous les crawlers de contenu qui importent des documents depuis cette source de contenu. Si vous �tes toujours convaincu de devoir supprimer l�historique des documents d�j� rejet�s, cliquez sur Effacer l�historique de rejet.
Remarque : si un document n�est class� dans aucun dossier et se trouve par cons�quent dans le dossier Documents non class�s, il ne sera pas consid�r� comme rejet�. Les documents rejet�s sont des documents qui n�ont �t� plac�s dans aucun dossier.
Si vous �tes en train de modifier un crawler de contenu existant, la section Importation de documents est visible. Sous Importation de documents, pr�cisez si l�importation doit �tre limit�e aux nouveaux documents. Par d�faut, ce crawler de contenu ne s�occupe que d�importer les nouveaux documents (ceux qui n�ont pas encore �t� import�s par ce crawler de contenu ou par d�autres crawlers de contenu ayant acc�s � cette m�me source de contenu). Vous pouvez changer les param�tres du crawler de contenu pour importer plusieurs exemplaires de chaque document, ce qui peut �tre utile pendant la phase d�essai de vos crawlers de contenu.
Pour importer uniquement de nouveaux documents, s�lectionnez Importer uniquement les nouveaux liens et de nouvelles options apparaissent ; sinon, passez � l��tape 5.
Marche � suivre pour pr�ciser la signification de � nouveaux liens � :
Pour n�importer que les documents qui n�ont pas encore �t� import�s par ce crawler de contenu, choisissez par ce crawler de contenu.
Pour n�importer que les documents qui n�ont pas �t� import�s depuis la source de contenu associ�e (que ce soit par ce crawler de contenu, un autre crawler de contenu, ou manuellement par un utilisateur), choisissez dans cette source de contenu.
Remarque : l�option que vous choisissez ici affecte les actions de l��tape 3 et de l��tape 4f.
Pour actualiser les documents d�j� import�s
selon les sp�cifications de la page Param�tres
des documents, s�lectionnez les actualiser.
En r�gle g�n�rale, l�actualisation des documents est assur�e par l�agent
d�actualisation de document car le processus d�actualisation des documents
tend � ralentir le crawler de contenu. Cependant, si vous avez chang�
les param�tres de document pour ce crawler de contenu ou chang� les correspondances
de propri�t�s dans les types de contenu associ�s, le fait d�actualiser
les documents a pour effet de mettre ces param�tres � jour pour les documents
d�j� import�s.
Remarque : si vous analysez un flux RSS, l�option Les actualiser actualise les propri�t�s
(telles que le titre et la description) avec les valeurs des documents
cible et non du flux RSS. Si vous voulez conserver les propri�t�s du flux
RSS, ne s�lectionnez pas Les actualiser.
Si vous avez cr�� des dossiers suppl�mentaires
ou appliqu� des filtres diff�rents aux dossiers destinataires, s�lectionnez
essayer de les trier en dossiers suppl�mentaires
pour trier les documents d�j� import�s dans de nouveaux dossiers du r�pertoire
de connaissances.
Il est possible qu�un autre crawler de contenu ait import� des
documents depuis la m�me source de contenu mais dans des dossiers diff�rents
des dossiers destinataires sp�cifi�s pour ce crawler de contenu. Soyez
certain de vouloir trier � nouveau ces documents dans les dossiers destinataires
sp�cifi�s pour ce crawler de contenu.
Pour r�importer des documents d�j� supprim�s (manuellement, pour cause d�expiration ou pour cause d�absence des documents source), s�lectionnez r�g�n�rer les liens supprim�s. Il est possible que cela r�importe des documents qui avaient �t� jug�s ne pas convenir � votre portail.
En cas de n�cessit� absolue, vous pouvez supprimer l�historique des documents ayant �t� supprim�s du portail. Le terme "Historique" est interpr�t� en fonction de la d�finition des nouveaux documents � l��tape 3b :
Si vous choisissez "par ce crawler de contenu," l�historique inclut tous les documents import�s par ce crawler de contenu et ayant �t� supprim�s.
Si vous choisissez "dans cette source de contenu,", l�historique inclut tous les documents import�s dans cette source de contenu et ayant �t� supprim�s. Par cons�quent, vous supprimez l�historique de tous les crawlers de contenu qui importent des documents depuis cette source de contenu.
Si vous �tes toujours convaincu de devoir supprimer l�enregistrement des documents supprim�s du portail, cliquez sur Effacer l�historique des suppressions.
Pour marquer les documents import�s � l�aide d�une balise de crawler de contenu, tapez le texte de la balise dans la zone Marquer les documents import�s avec la balise de crawler de contenu suivante. Cette balise sert � diff�rencier les documents import�s par ce crawler de contenu de ceux import�s par un autre crawler de contenu.
Sous Configuration d�ex�cution, faites les r�glages ci-dessous :
Nombre maximum de threads de recherche de documents - d�termine le nombre maximum de threads simultan�s servant � glaner du contenu dans la source de contenu.
Nombre maximum de threads d�indexation de cartes - d�termine le nombre maximum de threads simultan�s servant � traiter le contenu une fois qu�il a �t� import� dans le portail.
Les plages autoris�es pour ces champs sont indiqu�es dans le fichier de configuration de portail. Les valeurs d�finies d�pendent �galement du nombre maximum de threads autoris�s par le service d�automatisation utilis� pour cette t�che associ�e � cette source de contenu.
Marche � suivre pour afficher la page associ�e � cette rubrique d�aide :