➤ Robots.txt, un archivo importante 🕹

Robots.txt, un archivo importante

¿Qué es Robots.txt?
curso en línea
A continuación, se muestran algunos comandos muy clásicos e importantes del archivo robots.txt:
Mapa del sitio y robots.txt
Generador de archivos robots.txt
Todas las explicaciones online
También tenga en cuenta esta indicación muy reciente que se encuentra en la red:

¿Qué es Robots.txt?

En su sitio, intenta, en la medida de lo posible, asegurarse de que las arañas de los motores de búsqueda indexen sus páginas lo mejor posible. Pero también puede suceder que algunas de tus páginas sean confidenciales, (o en funcionamiento) o en todo caso que tu objetivo no sea difundirlas ampliamente en estos motores. Un sitio o una página en construcción, por ejemplo, no tiene por qué ser el objetivo de tal aspiración. Entonces es necesario evitar que determinadas arañas las tengan en cuenta.

Esto se puede hacer usando un archivo de texto, llamado robots.txt, presente en su alojamiento, en la raíz de su sitio. Este archivo le dará indicaciones a la araña del motor que querrá rastrear su sitio, sobre lo que puede o no debe hacer en el sitio. Tan pronto como la araña de un motor llegue a un sitio (por ejemplo https://monsite.info/), buscará el documento presente en la dirección https://www.monsite.info/robots.txt antes de ' realizar la más mínima "aspiración de documentos". Si este archivo existe, lo lee y sigue las indicaciones dadas. Si no lo encuentra, comienza su labor de lectura y registro de la página que vino a visitar y las que puedan estar vinculadas a ella, considerando que nada le está prohibido.

curso en línea

Solo debe haber un archivo robots.txt en un sitio, y debe estar en el nivel raíz del sitio. El nombre del archivo (robots.txt) siempre debe crearse en minúsculas. La estructura de un archivo robots.txt es la siguiente:

User-agent: *
No permitir: / cgi-bin /
No permitir: / hora /
No permitir: / perdido /
No permitir: / entravaux /
No permitir: /abonnes/prix.html

En este ejemplo:

Usuario-agente: * significa que se concede acceso a todos los agentes (todas las arañas), sean quienes sean.
El robot no explorará los directorios / cgi-bin /, / tempo /, / perso / y / entravaux / del servidor ni el archivo / subscribers / prix.html.

El directorio / temp /, por ejemplo, corresponde a la dirección https://mysite.info/ Cada directorio que se excluirá de la aspiración de araña debe tener una línea Disallow: específica. El comando Disallow: se usa para indicar que "todo lo que comienza con" la expresión especificada no debe indexarse.

Asi :
Disallow: / perso no permitirá la indexación de https://monsite.info/ o https://monsite.info/

No permitir: / perso / no indexará https://monsite.info/ pero no se aplicará a la dirección https://monsite.info/

Por otro lado, el archivo robots.txt no debe contener líneas en blanco (blancas).
La estrella (*) solo se acepta en el campo Agente de usuario.
No se puede utilizar como comodín (o como operador de truncamiento) como en el ejemplo: Disallow: / entravaux / *.
No hay ningún campo correspondiente al permiso, de tipo Permitir:.
Finalmente, el campo de descripción (User-agent, Disallow) se puede ingresar en minúsculas o en mayúsculas.
Las líneas que comienzan con un signo "#", es decir, cualquier cosa a la derecha de este signo en una línea, se consideran un comentario.

A continuación, se muestran algunos comandos muy clásicos e importantes del archivo robots.txt:

Disallow: / Se utiliza para excluir todas las páginas del servidor (no es posible aspirar).
Disallow: permite no excluir ninguna página del servidor (sin restricción).
Un archivo robots.txt vacío o inexistente tendrá el mismo efecto.
User-Agent: googlebot Se utiliza para identificar un robot en particular (en este caso, el de google).
Usuario-agente: googlebot
Disallow:
User-agent: *
Disallow: / Permite que la araña de Google absorba todo, pero niega a otros bots.

Mapa del sitio y robots.txt

Para ayudar a Google, Yahoo u otros, y especialmente a los motores que no brindan una interfaz con la posibilidad de indicarles el archivo de mapa del sitio de un sitio, se puede agregar la indicación en el archivo, utilizando la siguiente sintaxis:
Mapa del sitio: https://monsite.info/
(más si hay varios archivos de mapa del sitio ...)
para Google o Bing
o tambien:
Mapa del sitio: https://monsite.info/
más específico de Yahoo ...

Generador de archivos robots.txt

Si quieres crear un archivo robots.txt de forma sencilla, sencilla y estar seguro de que es válido, también puedes utilizar un generador de robots.txt, como este por ejemplo: generador de archivos robots.txt

Todas las explicaciones online

El sitio de referencia
o para más definiciones 'básicas':
en francés en wikipedia

También tenga en cuenta esta indicación muy reciente que se encuentra en la red:

Un usuario acaba de descubrir que Google tuvo en cuenta una directiva denominada "noindex" cuando se insertó en el archivo "robots.txt" de un sitio, como por ejemplo:

Usuario-agente: Googlebot
No permitir: / perdido /
No permitir: / entravaux /
Noindex: / clientes /

Mientras que la directiva "Disallow" le dice a los robots que ignoren el contenido de un directorio (sin indexación, sin seguimiento de enlaces), "Noindex" se reduciría a no indexar páginas, sino a identificar los enlaces que contienen. Un equivalente de la metaetiqueta "Robots" que contendría la información "Noindex, Follow" de alguna manera. Google habría indicado que esta mención estaría en prueba en la actualidad, que está respaldada solo por Google pero que nada dice que será adoptada en buena forma. ¡Para ser utilizado y probado con cuidado por lo tanto ...!

nota: la mejor solución para este archivo "clientes", quedando bloquearlo a través de un '.htaccess' que será válido para todos los motores ...;)