
¿Que son?
Imaginate que internet es un campo de cultivo y todas las webs son lechugas.
Los buscadores (google, Lycos, yahoo, msn etc) son los recolectores que tienen herramientas (programas robots) y de vez en cuando se dan una vueltecita por el huerto y recolectan....¿Que recolectan? las lechugas (los ficheros robots .txt) .que tu previamente has instalado en tu web
Esta breve introducción es para los de mi pueblo, para vosotros que estáis mas espabilaos (en temas de cultivo a lo mejor no) os diré que de la información que he ido recopilando he sacado en conclusión lo siguiente:
Son archivos de texto con la extensión .txt.
Los buscadores se sirven de programas robots que le permiten leer, recuperar y guardar el contenido de una página. Estos robots están continuamente rastreando webs y saltando de enlace en enlace. Su labor es muy útil pero también puede perjudicarnos al indexar algunas páginas de contenido temporal o que no deseamos que indexen.
Podemos dar instrucciones a estos robots para que hagan una cosa u otra utilizando este tipo de archivos que incluiremos en el directorio raíz de nuestra web.
¿Como?
Mediante el archivo que vamos a crear "robots.txt".
Cuando un robot llega a tu página, lo primero que hace es dirigirse al archivo http://www.tudominio/robots.txt. y comprobar si existe algún tipo de restricción o no.
Si no tienes este archivo creado, entiende que puede indexar todo el contenido de tu web y asi lo hace.
¿Como se crea y que reglas utiliza?
Abres el bloc de notas y escribes en el documento lo que te indicó en los siguientes casos, después los guardas como robots.txt
Varios casos que se pueden dar:
- Primero un caso en el que se prohiben a todos los buscadores indexar tu pagina y su contenido:
(esto es lo que va dentro del archivo de texto que debes crear)
User-agent: *.....(aquí se indica el robot al que se hace referencia)(el * incluye a todos los buscadores)
Disallow: /....... (aquí el directorio o subdirectorio que quieres bloquear)(la / indica que se refiere a todo el directorio de la página)
- Segundo caso, en el que prohibimos que google indexe nuestro sitio pero el resto de buscadores no:
(esto es lo que va dentro del archivo de texto que debes crear)
Imaginate que internet es un campo de cultivo y todas las webs son lechugas.
Los buscadores (google, Lycos, yahoo, msn etc) son los recolectores que tienen herramientas (programas robots) y de vez en cuando se dan una vueltecita por el huerto y recolectan....¿Que recolectan? las lechugas (los ficheros robots .txt) .que tu previamente has instalado en tu web
Esta breve introducción es para los de mi pueblo, para vosotros que estáis mas espabilaos (en temas de cultivo a lo mejor no) os diré que de la información que he ido recopilando he sacado en conclusión lo siguiente:
Son archivos de texto con la extensión .txt.
Los buscadores se sirven de programas robots que le permiten leer, recuperar y guardar el contenido de una página. Estos robots están continuamente rastreando webs y saltando de enlace en enlace. Su labor es muy útil pero también puede perjudicarnos al indexar algunas páginas de contenido temporal o que no deseamos que indexen.
Podemos dar instrucciones a estos robots para que hagan una cosa u otra utilizando este tipo de archivos que incluiremos en el directorio raíz de nuestra web.
¿Como?
Mediante el archivo que vamos a crear "robots.txt".
Cuando un robot llega a tu página, lo primero que hace es dirigirse al archivo http://www.tudominio/robots.txt. y comprobar si existe algún tipo de restricción o no.
Si no tienes este archivo creado, entiende que puede indexar todo el contenido de tu web y asi lo hace.
¿Como se crea y que reglas utiliza?
Abres el bloc de notas y escribes en el documento lo que te indicó en los siguientes casos, después los guardas como robots.txt
Varios casos que se pueden dar:
- Primero un caso en el que se prohiben a todos los buscadores indexar tu pagina y su contenido:
(esto es lo que va dentro del archivo de texto que debes crear)
User-agent: *.....(aquí se indica el robot al que se hace referencia)(el * incluye a todos los buscadores)
Disallow: /....... (aquí el directorio o subdirectorio que quieres bloquear)(la / indica que se refiere a todo el directorio de la página)
- Segundo caso, en el que prohibimos que google indexe nuestro sitio pero el resto de buscadores no:
(esto es lo que va dentro del archivo de texto que debes crear)
User-agent: Googlebot
Disallow : /
- Tercer caso, se prohibe el acceso al robot de google y se permite a todos los demas el acceso excepto al directorio señalado
(esto es lo que va dentro del archivo de texto que debes crear)
User-agent: Googlebot
Disallow : /
User-agent: *
Disallow: /mipaginawuay/ejercicios.html
- Cuarto caso, todos los robots tienen prohibido el acceso a los directorios reseñados:
(esto es lo que va dentro del archivo de texto que debes crear)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /borrador/
- Quinto caso, no existe ninguna restricción, así que todos los robots indexaran tu sitio:
(esto es lo que va dentro del archivo de texto que debes crear)
User-agent: *
Disallow :
(este es el caso que normalmente se va a utizar)
¿Puedo ponerle la extensión que quiera?
NO.Su extensión debe de ser robots.txt y asi debes de guardarlo
¿Cuantos archivos robots se pueden poner?
Solo uno por sitio, de un plumazo solucionado
¿Porque es importante y en que te va a ayudar?
Porque facilita la tarea a los buscadores, lo recomiendan y además sirve para mejorar posicionamiento.
Además otra ventaja es indicar a los buscadores que páginas no deseas que indexen o que no existen restricciones sobre ellas y que por consiguiente no salgan o salgan respectivamente en los resultados de las busquedas que se realizan. Y todo de una vez y no pagina por pagina.
¿En que parte de la web se incrustan?
Pues en el directorio raíz principal de la web, no sirve de nada instalarlos en subdirectorios. Si se tiene que referir a una página de un subdirectorio, pues se pone la ruta del mismo y con eso basta.
Debes subirlo al servidor igual que subes los demás archivos.
¿Existen otros métodos?
Si. Usando las etiquetas metas que conocemos
Con las siguientes posibilidades: ALL, INDEX, NOFOLLOW, NOINDEX
(Estas etiquetas debes ponerlas en todas tus paginas).
Consejos:
No abusar de las restricciones, cuantas mas páginas se indexen mejor
Recordar respetar mayúsculas, minúsculas al escribir las instrucciones
Utilizar el bloc de notas para generarlo
Articulos que pueden interesarte:
1.- Que es un sitemap (ir al articulo)
2.- Etiquetas metatags (ir al articulo)
Esto esta abierto a todo tipo de comentarios, tanto para rectificar como para ampliar.
ResponderEliminarHola, soy nuevo en esto y no lo entiendo mucho.
ResponderEliminar¿¿¿¿Podrías poner un ejemplo de como se quedaria el archivo???
A otra cosa, que el direcctorio o subdirecctorio hay que ponerle http://.......
ResponderEliminarHay que poner extensión a los nombres de los archivos que pones en el robot??????
ResponderEliminarA y otra cosa ¿los archivos css se ponen tamien o no?
ResponderEliminarel archivo se llama robot.txt o robots.txt????
ResponderEliminarHola, gracias por los comentarios, voy a intentar responderte a todos:
ResponderEliminar1.- Podrias poner un ejemplo:
Mira en esta pagina como quedaria el archivo subido al servidor: http://www.psicologiaoma.com/robots.txt
2.- Al directorio hay que ponerle http://?
No, solo tienes que indicarle la ruta de los directorios que quieres restringir.
3.-Hay que ponerles extension de los archivos?
Si quieres restringir una pagina en concreto, sí: /mipaginawuay/ejercicios.html. Si es una carpeta puedes hacerlo asi: /photos/
Puedes bloquear archivos especifico o directorios completos
4.- Los archivos css se ponen tambien?
Puedes bloquear cualquier archivo que quieras
por ejemplo:
Disallow: /uno.css
Disallow: /dos.css
Disallow: /estilo.css
Disallow: /estilo-dos.css
5.- Como se llama el archivo?
robots.txt siempre
Como siempre, abierto a todo tipo de complementacion-rectificacion
Buena cosa me has dicho, es buena para el posicionamiento, pues ya estoy en ello. Unas cosillas:
ResponderEliminar-A la hora de guardad el bloc de notas con el nombre de robots.txt como que tipo de codificación hay que guardarlo?, UTF-8?.
-A la hora de subirlo a la web se sube de igual manera que se sube el sitemap?(por ejemplo) es decir, directamente por el servidor?, se que parece una pregunta tonta pero tengo que hacerla.
Un saludo. Buen artículo.
Hola sereisa:
ResponderEliminarGracias por tu comentario y por participar
En cuanto a la primera pregunta, una vez que crees el robot guardalo como robots.txt respetando minúsculas y como codificacion indica ANSI.
Sobre lo segundo, tienes que subir el archivo al directorio raiz, efectivamente al mismo lugar al que has subido tu archivo sitemap.xml y los demás archivos de tu web.
Si no tienes nada que restringir, como supongo sera tu caso de momento, mejor que hagas uno simple para permitir la entrada a todos los buscadores:
User-agent: *
Disallow :
O utilizando Allow como puede ser el caso si lo generas desde las herramientas de webmaster de google:
User-Agent: *
Allow: /
(La diferencia entre uno y otro realmente no existe porque los dos dicen lo mismo, el primero dice que ningun buscador tiene prohibido el acceso y el segundo dice que todos los buscadores tienen acceso permitido. Allow/Disallow)
Gracias kimapa, ya está hecho. Bueno lo he hecho normalmente pero es bueno saber que hay otra manera desde google.
ResponderEliminarUn saludo, gracias.
Bueno ahora a esperar resultados, pero esto junto con un sitemap te ayudaran con el posicionamiento.-
ResponderEliminarPerdona mi ignorancia pero ¿que es el directorio raiz? y, en el sitemap ¿meto el archivo robots?
ResponderEliminarHola gjulian gracias por el comentario:
ResponderEliminarCuando contratas un servidor, publico o privado, el proveedor del servicio te dara una carpeta de acceso publico que actuara como directorio raiz, siendo su denominacion "public_html" o algo similar.
Como sabras dentro de esa carpeta es donde tienen que ir alojados todos los archivos del sitio (index, demas paginas, carpeta de imagenes, etc...).
Pues dentro de esa carpeta es donde tienes que subir tu archivo robots.txt como si de otra pagina cualquiera se tratara.
En cuanto a la segunda pregunta, la respuesta es no, robots txt no hay que incluirlo en el sitemap.
En todo caso al contrario; me explico.
Desde el año pasado los principales buscadores se pusieron de acuerdo para que la indexacion fuera mas rápida y automatizada dando la posibilidad de indicar al buscador desde nuestro archivo robots.txt la ubicación de nuestro sitamap introduciendo dentro de el lo siguiente "Sitemap: http://www.nombredetuweb.com/sitemap.xml" (sin comillas).
Yo no lo menciono en este post porque prefiero mandar el sitemap desde siempre desde las herramientas de webmaster de google.
Gracias! muy bien explicado, espero ahora los resultados.
ResponderEliminarVAMPIRILLA.
Hola Vampirilla:
ResponderEliminarMe alegro te haya servido mis explicaciones, ese es el objetivo, que todos hagais las cosas necesarias para subir vuestros sitios.
Gracias.Nos vemos.
hola a todos
ResponderEliminarmi pregunta es si quisiera restringir varios archivos este serias el metodo a seguir.?
User-agent: *
Disallow :/archivo-1
Disallow :/archivo-2
Disallow :/archivo-1
etc.
Hola:
ResponderEliminarEsta bien hecho así como lo tienes.
Debes incluir un bloque de código para cada buscador a no ser que la orden sea general. Se pueden indicar los archivos prohibidos poniéndolos unos a continuación de otros
Saludos
Y como seria para un blog? Donde ubicaria ese archivo creado?
ResponderEliminarHola Mel:
ResponderEliminarEn el caso de tu blog ya esta configurado. Solo escribe tras la direccion de la pagina principal la extension robots.txt y comprobaras como ya lo tienes.
Google no deja modificar este archivo, se encargan ellos.
Saludos.
Muchas gracias y tambien gracias por tu visita. Ahora tengo un "problema" en google, que ya te contare. Hasta lueguito.
ResponderEliminarHola Mel:
ResponderEliminarRecuerda que puedes registrarte en nuestro foro si lo deseas y participar con los compañeros en la resolucion de todos los problemas que te plantee el sitio,diseño, navegabilidad, posicionamiento y lo que se te ofrezca.
La direccion la tienes a la derecha del blog.
Saludos
hola, sigo sin entender, en qué parte de la página debo pegar el código, cómo le hago para que mi página tenga terminación .txt si tiene terminación html? por favor ayudenme, no tengo idea de nada de esto gracias
ResponderEliminarHola Denisse:
ResponderEliminar1.- Abre el bloc de notas del pc y escribe esto:
User-agent:*
Disalow:
Esta es una instruccion generalizada por la que peromites el acceso a todo el sitio.
2.- Guardalo con el nombre robots.txt (recuerda escribirlo exactamente asi) en el escritorio para tenerlo localizado.
Con esto ya has creado un archivo para los robots que tienes en el escritorio y cuya extension es txt.
Vale, imaginate que este fichero que has creado es una pagina mas de tu sitio pero en vez de tener extension html, tiene extension txt ok?
Pues solo te queda subirlo al directorio raiz de la web donde tienes ubicadas las demas paginas html.
Y ya esta, no tienes que hacer nada mas. Para comprobar que esta todo en orden y subido al lugar que corresponde abre tu pagina y en la barra de navegacion donde aparece la direccion, a continuacion escribe robots.txt quedandote de esta manera:
http://www.eloinahp.com/robots.txt
Espero te sea de ayuda. Si sigues con problemas accede al foro y te atenderemos personalmente.
Saludos
agregue este caso
ResponderEliminarUser-agent: *
Disallow:/portada del contenido
Disallow:/subir-fotos
Disallow:/abastar de portadas
Disallow:/anuncio
Disallow:/email
Disallow:/enviar a un amigo
Disallow:/flash
Disallow:/fuera de servicuo
Disallow:/GALERIAS
Disallow:/noticias
Disallow:/sabias que
y los robots indexan tadas mis paginas en donde esta el problema los archivos que estan en restricción son carpectas
Hola:
ResponderEliminarPara bloquear un directorio y todo lo que contiene tienes que poner esto
Disalow:/directorio/ acabado en barra inclinada
Para bloquear una pagina tienes que hacer esto
Disalow:/paginabloquear.html
Para eliminar una imagen en concreto del directorio donde tienes las imagenes tienes que poner esto
Disalow:/nombrecarpteaimagenes/imagenarestingir.jpg
Si continuan las dudas o ves que no te sale bien, entra al foro y podremos seguir un hilo personalizado.
Saludos
gracias por contestar
ResponderEliminarpor ejemplo asi
User-agent: *
Disallow:/portada del contenido/
Disallow:/subir-fotos
Disallow:/abastar de portadas/
Disallow:/anuncio/
Disallow:/email/
Disallow:/enviar a un amigo/
Disallow:/flash/
Disallow:/fuera de servicuo
Disallow:/GALERIAS/
Disallow:/noticias/
Disallow:/sabias que/
Hola:
ResponderEliminarSi son directorios y son los que quieres restringir, no deberias de tener problemas.
Saludos
ESTOY INTENDO BORRA robots.txt DE MI HOSTING Y SIGUE User-agent:*
ResponderEliminarDisalow:
Y NO ENCUENTRO EL ARCHIVO EN EL HOSTING
Hola Joel:
ResponderEliminarsi escribes esto en la barra de direcciones http://www.wanamey.org/robots.txt comprobaras como el archivo lo tienes en la raiz del sitio, donde tienes el resto de los archivos de la web, index y demas.
Saludos
Ocurre esto si yo borro el archivo robots.txt Cuando cargo la url: wanamey.org/robots.txt se carga igual y lo que se carga por defecto es:
ResponderEliminarUser-agent: *
Disallow: /
Es como si hubiese un archivo robots.txt oculto que no lo encuentro en la raiz
Hola:
ResponderEliminarCreia que se trataba del otro blog que por cierto tambien muestra la "/" restringiendo el acceso. ??
Son blogs de blogger y se supone que el archivo deben generarlo automaticamente ellos solitos y no se podian modificar manualmente.
Pasate al foro y lo vemos mas detenidamente para no alargar demasiado esto porque tengo curiosidad de ver como lo hicistes.
Saludos
lo borro y suge el robots.txt en
ResponderEliminarwanamey.org/robots.txt, lo busco en la raiz y no lo encuentro
cual es la la url de tu foro
gracias
joel
Hola:
ResponderEliminarTienes el acceso directo en la parte lateral derecha.
De todas maneras:
http://www.internavegacion.com/phpBB3/
Aparte de esto para todos los problemas que puedas tener con el PC. Hay buenos amigos.
Saludos
muchas gracias el problema el robots.txt que no podia borrar, era en el .htaccess
ResponderEliminarBueno las gracias van para el foro de internavegacion y todos los amigos que alli estamos.
ResponderEliminarCuando quieras ya sabes donde encontrarnos.
Saludos