Toolbox online

Generazione di file robot

 I percorsi sono relativi, ma ogni percorso deve essere preceduto da un:"/"
 Lasciare vuoto come nessuno, Google come formato XML e Baidu come formato html
Motori di ricerca comuni
Motore di ricerca straniero
Motore di ricerca speciale (robot)
Altri (motori di ricerca non convenzionali, anche dannosi)
Si prega di salvare i seguenti risultati su notepad e caricarli nella directory principale del sito web chiamato robots.txt.

Che tipo di file è robots.txt?

I motori di ricerca accedono automaticamente alle pagine web su Internet e ottengono informazioni web attraverso un programma chiamato "spider" (noto anche come ragno). È possibile creare un semplice file di testo robots.txt nel vostro sito web che dichiara le parti del sito che non si desidera essere accessibili da ragni, in modo che alcuni o tutti i contenuti del sito non possono essere accessibili e inclusi dai motori di ricerca, o è possibile utilizzare robots.txt per specificare che i motori di ricerca includono solo il contenuto specificato. Il primo file visitato da un sito di strisciamento motore di ricerca è robots.txt.

Descrivere in dettaglio il file robots.txt.

  1. Posizione del file

    Il file robots.txt deve essere inserito nella radice del sito web. Per esempio, quando un motore di ricerca visita un sito web, controlla prima per vedere se il file robots.txt esiste nel sito, e se il programma robot robot trova il file, determinerà la portata del suo accesso in base al contenuto del file. La posizione del file robot di WordPress non è stato caricato su robots.txt sul programma principale del sito WordPress. Quando i motori di ricerca e gli utenti visitano un file, il programma WordPress genererà attivamente un robots.txt al motore di ricerca e gli utenti. Se carichiamo il robots.txt al programma principale del sito, gli utenti e ragni motore di ricerca visitano il file che abbiamo caricato, e WordPress non genererà più quel file. WordPress genera questo file solo se il server non riesce a trovare robot.

  2. Formato file

    Il file "robots.txt" contiene uno o più record separati da righe vuote (con CR, CR / NL, e NL come Terminator), e ogni record ha il seguente formato: "<field>:<optionalspace><value><optionalspace>" può utilizzare # per commentare nel file, allo stesso modo della convenzione in UNIX. I record in questo file di solito iniziano con una o più linee di utente - agente, seguito da diverse linee disconsenti, come segue: Utente - Agente: Il valore di questo elemento è utilizzato per descrivere il nome del robot robot motore di ricerca. Nel file "robots.txt", se ci sono più utenti - record di agente, robot multiplo sarà vincolato dal protocollo. Pertanto, ci deve essere almeno un utente - Agent Record nel file "robots.txt". Se il valore di questa voce è impostato su * (Wildcard), il protocollo è valido per qualsiasi robot motore di ricerca. Nel file "robots.txt", ci può essere un solo record come "utente - agente: *". Disconsentire: Il valore di questo elemento è usato per descrivere un URL a cui non si desidera accedere. L'URL può essere un percorso completo o parziale, e qualsiasi URL che inizia con il disallow non sarà accessibile da robot. Per esempio, "disconsentire: / help" non consente l'accesso al motore di ricerca a / help.html e / help / index.html, mentre "Disallow: / help /" consente al robot di accedere / help.html, ma non / help / index.html. Qualsiasi record disconsentito è vuoto, indicando che tutte le parti del sito sono autorizzate ad essere accessibili, e ci deve essere almeno un record disallow nel file "/ robots.txt". Se "/ robots.txt" è un testo vuoto, il sito è aperto a tutti i motori di ricerca robot.

  3. Schermatura generale

    Bloccare le pagine di privacy, le pagine di atterraggio di sfondo, le pagine di cache, le directory delle immagini, le directory CSS, le pagine dei modelli, bloccare il contenuto di due pagine, e bloccare alcune pagine di scarsa qualità, come tutte le pagine dello spazio utente degli utenti di Jinwang, e i collegamenti dinamici di DZ possono anche essere bloccati. Impostarlo attraverso il disallow: comando.