Robots .txt

como hacer un archivo robots.txt para ayudar a los buscadores a ser indexado correctamente

¿Que son?

Imaginate que internet es un campo de cultivo y todas las webs son lechugas.
Los buscadores (google, Lycos, yahoo, msn etc) son los recolectores que tienen herramientas (programas robots) y de vez en cuando se dan una vueltecita por el huerto y recolectan....¿Que recolectan? las lechugas (los ficheros robots .txt) .que tu previamente has instalado en tu web


Esta breve introducción es para los de mi pueblo, para vosotros que estáis mas espabilaos (en temas de cultivo a lo mejor no) os diré que de la información que he ido recopilando he sacado en conclusión lo siguiente:

Son archivos de texto con la extensión .txt.

Los buscadores se sirven de programas robots que le permiten leer, recuperar y guardar el contenido de una página. Estos robots están continuamente rastreando webs y saltando de enlace en enlace. Su labor es muy útil pero también puede perjudicarnos al indexar algunas páginas de contenido temporal o que no deseamos que indexen.

Podemos dar instrucciones a estos robots para que hagan una cosa u otra utilizando este tipo de archivos que incluiremos en el directorio raíz de nuestra web.

¿Como?

Mediante el archivo que vamos a crear "robots.txt".

Cuando un robot llega a tu página, lo primero que hace es dirigirse al archivo http://www.tudominio/robots.txt. y comprobar si existe algún tipo de restricción o no.

Si no tienes este archivo creado, entiende que puede indexar todo el contenido de tu web y asi lo hace.

¿Como se crea y que reglas utiliza?

Abres el bloc de notas y escribes en el documento lo que te indicó en los siguientes casos, después los guardas como robots.txt

Varios casos que se pueden dar:

- Primero un caso en el que se prohiben a todos los buscadores indexar tu pagina y su contenido:

(esto es lo que va dentro del archivo de texto que debes crear)

User-agent: *.....(aquí se indica el robot al que se hace referencia)(el * incluye a todos los buscadores)

Disallow: /....... (aquí el directorio o subdirectorio que quieres bloquear)(la / indica que se refiere a todo el directorio de la página)

- Segundo caso, en el que prohibimos que google indexe nuestro sitio pero el resto de buscadores no:

(esto es lo que va dentro del archivo de texto que debes crear)

User-agent: Googlebot
Disallow : /

- Tercer caso, se prohibe el acceso al robot de google y se permite a todos los demas el acceso excepto al directorio señalado

(esto es lo que va dentro del archivo de texto que debes crear)


User-agent: Googlebot
Disallow : /
User-agent: *
Disallow: /mipaginawuay/ejercicios.html

- Cuarto caso, todos los robots tienen prohibido el acceso a los directorios reseñados:

(esto es lo que va dentro del archivo de texto que debes crear)

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /borrador/

- Quinto caso, no existe ninguna restricción, así que todos los robots indexaran tu sitio:

(esto es lo que va dentro del archivo de texto que debes crear)

User-agent: *
Disallow :

(este es el caso que normalmente se va a utizar)

¿Puedo ponerle la extensión que quiera?

NO.Su extensión debe de ser robots.txt y asi debes de guardarlo

¿Cuantos archivos robots se pueden poner?

Solo uno por sitio, de un plumazo solucionado

¿Porque es importante y en que te va a ayudar?

Porque facilita la tarea a los buscadores, lo recomiendan y además sirve para mejorar posicionamiento.

Además otra ventaja es indicar a los buscadores que páginas no deseas que indexen o que no existen restricciones sobre ellas y que por consiguiente no salgan o salgan respectivamente en los resultados de las busquedas que se realizan. Y todo de una vez y no pagina por pagina
.

¿En que parte de la web se incrustan?

Pues en el directorio raíz principal de la web, no sirve de nada instalarlos en subdirectorios. Si se tiene que referir a una página de un subdirectorio, pues se pone la ruta del mismo y con eso basta.

Debes subirlo al servidor igual que subes los demás archivos
.

¿Existen otros métodos?

Si. Usando las etiquetas metas que conocemos
Con las siguientes posibilidades: ALL, INDEX, NOFOLLOW, NOINDEX
(Estas etiquetas debes ponerlas en todas tus paginas).


Consejos:

No abusar de las restricciones, cuantas mas páginas se indexen mejor
Recordar respetar mayúsculas, minúsculas al escribir las instrucciones
Utilizar el bloc de notas para generarlo


Articulos que pueden interesarte:
1.- Que es un sitemap (ir al articulo)
2.- Etiquetas metatags (ir al articulo)

35 comentarios:

  1. Esto esta abierto a todo tipo de comentarios, tanto para rectificar como para ampliar.

    ResponderEliminar
  2. Hola, soy nuevo en esto y no lo entiendo mucho.
    ¿¿¿¿Podrías poner un ejemplo de como se quedaria el archivo???

    ResponderEliminar
  3. A otra cosa, que el direcctorio o subdirecctorio hay que ponerle http://.......

    ResponderEliminar
  4. Hay que poner extensión a los nombres de los archivos que pones en el robot??????

    ResponderEliminar
  5. A y otra cosa ¿los archivos css se ponen tamien o no?

    ResponderEliminar
  6. el archivo se llama robot.txt o robots.txt????

    ResponderEliminar
  7. Hola, gracias por los comentarios, voy a intentar responderte a todos:

    1.- Podrias poner un ejemplo:
    Mira en esta pagina como quedaria el archivo subido al servidor: http://www.psicologiaoma.com/robots.txt

    2.- Al directorio hay que ponerle http://?
    No, solo tienes que indicarle la ruta de los directorios que quieres restringir.

    3.-Hay que ponerles extension de los archivos?
    Si quieres restringir una pagina en concreto, sí: /mipaginawuay/ejercicios.html. Si es una carpeta puedes hacerlo asi: /photos/
    Puedes bloquear archivos especifico o directorios completos

    4.- Los archivos css se ponen tambien?

    Puedes bloquear cualquier archivo que quieras
    por ejemplo:

    Disallow: /uno.css
    Disallow: /dos.css
    Disallow: /estilo.css
    Disallow: /estilo-dos.css

    5.- Como se llama el archivo?

    robots.txt siempre

    Como siempre, abierto a todo tipo de complementacion-rectificacion

    ResponderEliminar
  8. Buena cosa me has dicho, es buena para el posicionamiento, pues ya estoy en ello. Unas cosillas:
    -A la hora de guardad el bloc de notas con el nombre de robots.txt como que tipo de codificación hay que guardarlo?, UTF-8?.
    -A la hora de subirlo a la web se sube de igual manera que se sube el sitemap?(por ejemplo) es decir, directamente por el servidor?, se que parece una pregunta tonta pero tengo que hacerla.
    Un saludo. Buen artículo.

    ResponderEliminar
  9. Hola sereisa:

    Gracias por tu comentario y por participar

    En cuanto a la primera pregunta, una vez que crees el robot guardalo como robots.txt respetando minúsculas y como codificacion indica ANSI.

    Sobre lo segundo, tienes que subir el archivo al directorio raiz, efectivamente al mismo lugar al que has subido tu archivo sitemap.xml y los demás archivos de tu web.

    Si no tienes nada que restringir, como supongo sera tu caso de momento, mejor que hagas uno simple para permitir la entrada a todos los buscadores:

    User-agent: *
    Disallow :

    O utilizando Allow como puede ser el caso si lo generas desde las herramientas de webmaster de google:

    User-Agent: *
    Allow: /

    (La diferencia entre uno y otro realmente no existe porque los dos dicen lo mismo, el primero dice que ningun buscador tiene prohibido el acceso y el segundo dice que todos los buscadores tienen acceso permitido. Allow/Disallow)

    ResponderEliminar
  10. Gracias kimapa, ya está hecho. Bueno lo he hecho normalmente pero es bueno saber que hay otra manera desde google.
    Un saludo, gracias.

    ResponderEliminar
  11. Bueno ahora a esperar resultados, pero esto junto con un sitemap te ayudaran con el posicionamiento.-

    ResponderEliminar
  12. Perdona mi ignorancia pero ¿que es el directorio raiz? y, en el sitemap ¿meto el archivo robots?

    ResponderEliminar
  13. Hola gjulian gracias por el comentario:
    Cuando contratas un servidor, publico o privado, el proveedor del servicio te dara una carpeta de acceso publico que actuara como directorio raiz, siendo su denominacion "public_html" o algo similar.

    Como sabras dentro de esa carpeta es donde tienen que ir alojados todos los archivos del sitio (index, demas paginas, carpeta de imagenes, etc...).

    Pues dentro de esa carpeta es donde tienes que subir tu archivo robots.txt como si de otra pagina cualquiera se tratara.

    En cuanto a la segunda pregunta, la respuesta es no, robots txt no hay que incluirlo en el sitemap.

    En todo caso al contrario; me explico.
    Desde el año pasado los principales buscadores se pusieron de acuerdo para que la indexacion fuera mas rápida y automatizada dando la posibilidad de indicar al buscador desde nuestro archivo robots.txt la ubicación de nuestro sitamap introduciendo dentro de el lo siguiente "Sitemap: http://www.nombredetuweb.com/sitemap.xml" (sin comillas).

    Yo no lo menciono en este post porque prefiero mandar el sitemap desde siempre desde las herramientas de webmaster de google.

    ResponderEliminar
  14. Gracias! muy bien explicado, espero ahora los resultados.
    VAMPIRILLA.

    ResponderEliminar
  15. Hola Vampirilla:

    Me alegro te haya servido mis explicaciones, ese es el objetivo, que todos hagais las cosas necesarias para subir vuestros sitios.
    Gracias.Nos vemos.

    ResponderEliminar
  16. hola a todos
    mi pregunta es si quisiera restringir varios archivos este serias el metodo a seguir.?

    User-agent: *
    Disallow :/archivo-1
    Disallow :/archivo-2
    Disallow :/archivo-1

    etc.

    ResponderEliminar
  17. Hola:

    Esta bien hecho así como lo tienes.
    Debes incluir un bloque de código para cada buscador a no ser que la orden sea general. Se pueden indicar los archivos prohibidos poniéndolos unos a continuación de otros

    Saludos

    ResponderEliminar
  18. Y como seria para un blog? Donde ubicaria ese archivo creado?

    ResponderEliminar
  19. Hola Mel:
    En el caso de tu blog ya esta configurado. Solo escribe tras la direccion de la pagina principal la extension robots.txt y comprobaras como ya lo tienes.
    Google no deja modificar este archivo, se encargan ellos.
    Saludos.

    ResponderEliminar
  20. Muchas gracias y tambien gracias por tu visita. Ahora tengo un "problema" en google, que ya te contare. Hasta lueguito.

    ResponderEliminar
  21. Hola Mel:
    Recuerda que puedes registrarte en nuestro foro si lo deseas y participar con los compañeros en la resolucion de todos los problemas que te plantee el sitio,diseño, navegabilidad, posicionamiento y lo que se te ofrezca.
    La direccion la tienes a la derecha del blog.
    Saludos

    ResponderEliminar
  22. hola, sigo sin entender, en qué parte de la página debo pegar el código, cómo le hago para que mi página tenga terminación .txt si tiene terminación html? por favor ayudenme, no tengo idea de nada de esto gracias

    ResponderEliminar
  23. Hola Denisse:
    1.- Abre el bloc de notas del pc y escribe esto:

    User-agent:*
    Disalow:

    Esta es una instruccion generalizada por la que peromites el acceso a todo el sitio.

    2.- Guardalo con el nombre robots.txt (recuerda escribirlo exactamente asi) en el escritorio para tenerlo localizado.

    Con esto ya has creado un archivo para los robots que tienes en el escritorio y cuya extension es txt.

    Vale, imaginate que este fichero que has creado es una pagina mas de tu sitio pero en vez de tener extension html, tiene extension txt ok?

    Pues solo te queda subirlo al directorio raiz de la web donde tienes ubicadas las demas paginas html.

    Y ya esta, no tienes que hacer nada mas. Para comprobar que esta todo en orden y subido al lugar que corresponde abre tu pagina y en la barra de navegacion donde aparece la direccion, a continuacion escribe robots.txt quedandote de esta manera:
    http://www.eloinahp.com/robots.txt

    Espero te sea de ayuda. Si sigues con problemas accede al foro y te atenderemos personalmente.

    Saludos

    ResponderEliminar
  24. agregue este caso

    User-agent: *
    Disallow:/portada del contenido
    Disallow:/subir-fotos
    Disallow:/abastar de portadas
    Disallow:/anuncio
    Disallow:/email
    Disallow:/enviar a un amigo
    Disallow:/flash
    Disallow:/fuera de servicuo
    Disallow:/GALERIAS
    Disallow:/noticias
    Disallow:/sabias que

    y los robots indexan tadas mis paginas en donde esta el problema los archivos que estan en restricción son carpectas

    ResponderEliminar
  25. Hola:
    Para bloquear un directorio y todo lo que contiene tienes que poner esto
    Disalow:/directorio/ acabado en barra inclinada
    Para bloquear una pagina tienes que hacer esto
    Disalow:/paginabloquear.html
    Para eliminar una imagen en concreto del directorio donde tienes las imagenes tienes que poner esto
    Disalow:/nombrecarpteaimagenes/imagenarestingir.jpg

    Si continuan las dudas o ves que no te sale bien, entra al foro y podremos seguir un hilo personalizado.

    Saludos

    ResponderEliminar
  26. gracias por contestar

    por ejemplo asi

    User-agent: *
    Disallow:/portada del contenido/
    Disallow:/subir-fotos
    Disallow:/abastar de portadas/
    Disallow:/anuncio/
    Disallow:/email/
    Disallow:/enviar a un amigo/
    Disallow:/flash/
    Disallow:/fuera de servicuo
    Disallow:/GALERIAS/
    Disallow:/noticias/
    Disallow:/sabias que/

    ResponderEliminar
  27. Hola:

    Si son directorios y son los que quieres restringir, no deberias de tener problemas.
    Saludos

    ResponderEliminar
  28. ESTOY INTENDO BORRA robots.txt DE MI HOSTING Y SIGUE User-agent:*
    Disalow:
    Y NO ENCUENTRO EL ARCHIVO EN EL HOSTING

    ResponderEliminar
  29. Hola Joel:
    si escribes esto en la barra de direcciones http://www.wanamey.org/robots.txt comprobaras como el archivo lo tienes en la raiz del sitio, donde tienes el resto de los archivos de la web, index y demas.
    Saludos

    ResponderEliminar
  30. Ocurre esto si yo borro el archivo robots.txt Cuando cargo la url: wanamey.org/robots.txt se carga igual y lo que se carga por defecto es:

    User-agent: *
    Disallow: /

    Es como si hubiese un archivo robots.txt oculto que no lo encuentro en la raiz

    ResponderEliminar
  31. Hola:
    Creia que se trataba del otro blog que por cierto tambien muestra la "/" restringiendo el acceso. ??
    Son blogs de blogger y se supone que el archivo deben generarlo automaticamente ellos solitos y no se podian modificar manualmente.
    Pasate al foro y lo vemos mas detenidamente para no alargar demasiado esto porque tengo curiosidad de ver como lo hicistes.
    Saludos

    ResponderEliminar
  32. lo borro y suge el robots.txt en
    wanamey.org/robots.txt, lo busco en la raiz y no lo encuentro
    cual es la la url de tu foro
    gracias
    joel

    ResponderEliminar
  33. Hola:
    Tienes el acceso directo en la parte lateral derecha.
    De todas maneras:
    http://www.internavegacion.com/phpBB3/
    Aparte de esto para todos los problemas que puedas tener con el PC. Hay buenos amigos.

    Saludos

    ResponderEliminar
  34. muchas gracias el problema el robots.txt que no podia borrar, era en el .htaccess

    ResponderEliminar
  35. Bueno las gracias van para el foro de internavegacion y todos los amigos que alli estamos.
    Cuando quieras ya sabes donde encontrarnos.
    Saludos

    ResponderEliminar