Robots.txt, un archivo importante

  • ¬ŅQu√© es Robots.txt?
  • curso en l√≠nea
  • A continuaci√≥n, se muestran algunos comandos muy cl√°sicos e importantes del archivo robots.txt:
  • Mapa del sitio y robots.txt
  • Generador de archivos robots.txt
  • Todas las explicaciones online
  • Tambi√©n tenga en cuenta esta indicaci√≥n muy reciente que se encuentra en la red:

¬ŅQu√© es Robots.txt?

En su sitio, intenta, en la medida de lo posible, asegurarse de que las ara√Īas de los motores de b√ļsqueda indexen sus p√°ginas lo mejor posible. Pero tambi√©n puede suceder que algunas de tus p√°ginas sean confidenciales, (o en funcionamiento) o en todo caso que tu objetivo no sea difundirlas ampliamente en estos motores. Un sitio o una p√°gina en construcci√≥n, por ejemplo, no tiene por qu√© ser el objetivo de tal aspiraci√≥n. Entonces es necesario evitar que determinadas ara√Īas las tengan en cuenta.



Esto se puede hacer usando un archivo de texto, llamado robots.txt, presente en su alojamiento, en la ra√≠z de su sitio. Este archivo le dar√° indicaciones a la ara√Īa del motor que querr√° rastrear su sitio, sobre lo que puede o no debe hacer en el sitio. Tan pronto como la ara√Īa de un motor llegue a un sitio (por ejemplo https://monsite.info/), buscar√° el documento presente en la direcci√≥n https://www.monsite.info/robots.txt antes de ' realizar la m√°s m√≠nima "aspiraci√≥n de documentos". Si este archivo existe, lo lee y sigue las indicaciones dadas. Si no lo encuentra, comienza su labor de lectura y registro de la p√°gina que vino a visitar y las que puedan estar vinculadas a ella, considerando que nada le est√° prohibido.

curso en línea

Solo debe haber un archivo robots.txt en un sitio, y debe estar en el nivel ra√≠z del sitio. El nombre del archivo (robots.txt) siempre debe crearse en min√ļsculas. La estructura de un archivo robots.txt es la siguiente:



User-agent: *
No permitir: / cgi-bin /
No permitir: / hora /
No permitir: / perdido /
No permitir: / entravaux /
No permitir: /abonnes/prix.html

En este ejemplo:

  • Usuario-agente: * significa que se concede acceso a todos los agentes (todas las ara√Īas), sean quienes sean.
  • El robot no explorar√° los directorios / cgi-bin /, / tempo /, / perso / y / entravaux / del servidor ni el archivo / subscribers / prix.html.

El directorio / temp /, por ejemplo, corresponde a la direcci√≥n https://mysite.info/ Cada directorio que se excluir√° de la aspiraci√≥n de ara√Īa debe tener una l√≠nea Disallow: espec√≠fica. El comando Disallow: se usa para indicar que "todo lo que comienza con" la expresi√≥n especificada no debe indexarse.

Asi :
Disallow: / perso no permitirá la indexación de https://monsite.info/ o https://monsite.info/

No permitir: / perso / no indexará https://monsite.info/ pero no se aplicará a la dirección https://monsite.info/

Por otro lado, el archivo robots.txt no debe contener líneas en blanco (blancas).
La estrella (*) solo se acepta en el campo Agente de usuario.
No se puede utilizar como comodín (o como operador de truncamiento) como en el ejemplo: Disallow: / entravaux / *.
No hay ning√ļn campo correspondiente al permiso, de tipo Permitir:.
Finalmente, el campo de descripci√≥n (User-agent, Disallow) se puede ingresar en min√ļsculas o en may√ļsculas.
Las líneas que comienzan con un signo "#", es decir, cualquier cosa a la derecha de este signo en una línea, se consideran un comentario.


A continuación, se muestran algunos comandos muy clásicos e importantes del archivo robots.txt:

Disallow: / Se utiliza para excluir todas las p√°ginas del servidor (no es posible aspirar).
Disallow: permite no excluir ninguna página del servidor (sin restricción).
Un archivo robots.txt vacío o inexistente tendrá el mismo efecto.
User-Agent: googlebot Se utiliza para identificar un robot en particular (en este caso, el de google).
Usuario-agente: googlebot
Disallow:
User-agent: *
Disallow: / Permite que la ara√Īa de Google absorba todo, pero niega a otros bots.


Mapa del sitio y robots.txt

Para ayudar a Google, Yahoo u otros, y especialmente a los motores que no brindan una interfaz con la posibilidad de indicarles el archivo de mapa del sitio de un sitio, se puede agregar la indicación en el archivo, utilizando la siguiente sintaxis:
Mapa del sitio: https://monsite.info/
(m√°s si hay varios archivos de mapa del sitio ...)
para Google o Bing
o tambien:
Mapa del sitio: https://monsite.info/
más específico de Yahoo ...

Generador de archivos robots.txt

Si quieres crear un archivo robots.txt de forma sencilla, sencilla y estar seguro de que es válido, también puedes utilizar un generador de robots.txt, como este por ejemplo: generador de archivos robots.txt


Todas las explicaciones online

El sitio de referencia
o para m√°s definiciones 'b√°sicas':
en francés en wikipedia

También tenga en cuenta esta indicación muy reciente que se encuentra en la red:

Un usuario acaba de descubrir que Google tuvo en cuenta una directiva denominada "noindex" cuando se insertó en el archivo "robots.txt" de un sitio, como por ejemplo:

Usuario-agente: Googlebot
No permitir: / perdido /
No permitir: / entravaux /
Noindex: / clientes /

Mientras que la directiva "Disallow" le dice a los robots que ignoren el contenido de un directorio (sin indexación, sin seguimiento de enlaces), "Noindex" se reduciría a no indexar páginas, sino a identificar los enlaces que contienen. Un equivalente de la metaetiqueta "Robots" que contendría la información "Noindex, Follow" de alguna manera. Google habría indicado que esta mención estaría en prueba en la actualidad, que está respaldada solo por Google pero que nada dice que será adoptada en buena forma. ¡Para ser utilizado y probado con cuidado por lo tanto ...!


nota: la mejor solución para este archivo "clientes", quedando bloquearlo a través de un '.htaccess' que será válido para todos los motores ...;)

A√Īade un comentario de Robots.txt, un archivo importante
¡Comentario enviado con éxito! Lo revisaremos en las próximas horas.