Login
+ Languages
We manufacture your idea

Subscribe to our newsletter

When enrolled, you will be fully informed of our latest posts and receive our offers of our services and products.


Meet the terms . Unsubscribe

Home . Blog . ¿Sabes utilizar el archivo robots.txt en tu web?

The latest in:


About the blog:


Here we publish the world's most outstanding items internet. This blog is written by staff Publicityextrim marketing.

¿Sabes utilizar el archivo robots.txt en tu web?

Te has preguntado cómo los buscadores indexan todo el contenido de tu web a sus bases de datos y como es que los usuarios pueden encontrarte.

Dentro de internet, existen unos programas informáticos encargados de rastrear el contenido del internet e indexarlo a sus bases de datos, así cuando un usuario busca en internet puede encontrarlo. A estos programados son llamados Robots, también conocidos como arañas (O Spiders en inglés). Regularmente cada buscador de internet tiene su propio “robot”, encargado de ir buscando por el internet e indexando su contenido.

Pero qué pasa si hay algo que no quiero que se indexe dentro de internet o algo que no quiero que pueda ser encontrado dentro de los buscadores, puedes utilizar el archivo “robots.txt”, el cual es un simple archivo de texto plano, el cual se coloca en la raíz del sitio web, el cual con simples líneas, puedes hacer lo buscado.

Existen varias formas de crear los archivos robots.txt, aquí te presentamos la forma mas sencilla de hacerlo.

Para crear tu archivo robots.txt, únicamente deberás abrir un programa que edite texto plano e indicar lo siguiente:


  • User-agent: el robot al que se aplica la regla siguiente

  • Disallow: la URL que quieres bloquear



Las líneas anteriores se consideran una única entrada en el archivo. Puedes incluir todas las líneas requeridas, así como varias líneas Disallow y varios user-agents en una misma entrada.

Cada sección del archivo robots.txt es independiente y no se genera a partir de secciones anteriores. Por ejemplo:

User-agent: *
Disallow: /archivo1.html

User-Agent: Googlebot
Disallow: /archivo2.html


En el ejemplo anterior se utiliza un comodín “*”, el cual se representa con el signo asterisco, el cual hacemos referencia a todos los robots, existentes.

Lo cual hacemos que todos los buscadores no indexen el archivo “archivo1.html”.

Pero también podemos definir acciones para un robot en específico, por ejemplo, en el ejemplo indicamos que el robot de “Google”, no indexe el archivo “archivo2.html”, pero los demás robots, si lo podrán indexar.

Puedes utilizar también las siguientes instrucciones, para realizar otras acciones, por ejemplo:


  • Para bloquear todo el sitio, utilice una barra inclinada.
    Disallow: /

  • Para bloquear un directorio y todo lo que contiene, inserta una barra inclinada después del nombre del mismo.
    Disallow: /directorio-sintítulo/

  • Para bloquear una página, insértala después de la línea Disallow.
    Disallow: /archivo.html

  • Para bloquear archivos de un determinado tipo (por ejemplo, .jpg), añade lo siguiente:
    User-agent: *
    Disallow: /*.jpg$



Beneficios al utilizar el archive robots.txt en tu sitio web.


  • Reducir la transferencia consumida en nuestro servidor, ya que al poder bloquear a ciertos robots o indicar aquellos sitios que no queremos que se indexen, estamos reduciendo el número de peticiones que se realiza a nuestro sitio.

  • Denegar el acceso a nuestro sitio a determinados robots. Existen varios robots, que en lugar de beneficiarnos lo que hacen es el efecto contrario.

  • Impedir que se indexen archivos privados, archivos que pueden ser fotos, documentos, vídeos o páginas que no deseamos que se indexen.

  • Mejorar el posicionamiento de nuestro sitio indicando a los robots los sitios concretos que queremos indexar.

  • Eliminar contenido duplicado. Con esto estamos impidiendo que los buscadores nos penalicen por encontrar en nuestro sitio distintas urls con la misma información.





Did you like this article?, share scanning the QR code and share dare from your social networks. QR: http://www.publicityextrim.com/w/blog/sabes-utilizar-el-archivo-robotstxt-en-tu-web

Make your vote
0
Make a comment [0]
Times read: 850

internet . robots . spiders . indexadores . buscadores . robots.txt


Read Comments / Close Comment

Comment


Name:

Email:

Web: (optional)

Comment: