Robots.txt para los usuarios de Blogger. ~ Bloguero

Robots.txt de Blogger

Chequeando la indexación del contenido del blog en las herramientas para webmaster de Google puedes encontrarte errores de rastreo, por restricción del robot.txt

Pero que es el robot.txt y porque restringe el acceso?

El archivo robot.txt es el que nos permite controlar el comportamiento de los rastreadores (crawlers) de los buscadores cuando indexan nuestro sitio, dentro de el se encuentran las especificaciones en cuanto a que queremos que indexe y que no, con que frecuencia queremos, ext.

Robots.txt para los usuarios de Blogger.

usuarios de Blogger no se puede cargar el archivo robots.txt en su lugar, puede utilizar la metaetiqueta "robots" para controlar el rastreo de los robots en archivos particulares.

El estándar de la metaetiqueta "no index" se describe en http://www.robotstxt.org/meta.html. Este método es útil si no tiene acceso al directorio raíz del servidor, ya que le permite controlar el acceso a su sitio web página por página.

Cuando un rastreador como por ejemplo el Googlebots de Google llega a un sitio, lo primero que ve es el archivo robot.txt y sigue sus recomendaciones al indexar el contenido (como son recomendaciones existe la posibilidad de que no haga caso e indexe todo el contenido que encuentre).

El robot.txt de Blogger es el mismo que el de cualquier sitio con la diferencia de que no lo podemos manipular, es creado y manipulado exclusivamente por Blogger.

El contenido de todos los robot.txt de Blogger es:

User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /search
Noindex: /feedReaderJson

Sitemap: http://interesesweb.blogspot.com/feeds/posts/default?orderby=updated

Y lo podemos ver agregando robot.txt al final de la dirección de nuestro blog (http://nombre_del _blog.blogspot.com/robots.txt).

Con las herramientas para webmaster de Google podemos analizar el robot.txt en la subsección análisis de robot.txt, esta herramienta nos muestra la dirección, la última descarga y el estado del robot.txt.

Que significan los valores dentro del robot.txt?

User-agent: es el nombre del rastreador al que le queremos dar instrucciones.
Mediapartners-Google es el rastreador de Google Adsend.
Googlebot es el de Google.
Googlebot-Image es el que se encarga de indexar las imágenes de Google.
Slurp es el de Yahoo.
Msnbot el de MSN.
el asterisco (*) es un comodín, significa que los valores siguientes se aplican a todos los rastreadores.
Disallow: se usa para indicar las páginas o directorios que no queremos que los rastreadores indexen, si no hay valor los rastreadores indexan todo lo que encuentren.
Disallow:/search impide a los rastreadores indexar las paginas que son resultados de búsquedas internas.

Las URLs restringidas por el robot.txt son /feedReaderJson y /search/label/, esto no es un error ya que los enlaces generados por feedReaderJson son parte del sitemap y se pueden considerar contenido duplicado (fraude penalizado por Google, el castigo es excluirte de sus resultados) y los resultados de búsqueda interna ubicados en /search/label/ también se pueden considerar contenido duplicado.

Pero podemos darle instrucciones a los rastreadores aun no teniendo acceso al archivo robot.txt, usando las etiquetas META.

indica que indexe la página y todos sus enlaces (valor por defecto).
indica que indexe la página pero no los enlaces.
indica que no indexe la página pero si los enlaces.
indica que no indexe la página ni los enlaces.

Posted in: utilidades

Bloguero

Twitter