La incansable búsqueda de la información (II)

Ahora analizamos los motores de búsqueda robots, cómo funcionan y sus principales características para identificarlos.

Por Osvaldo Callegari*

Los buscadores de Internet: ¿Herramientas o Amenaza a la privacidad? Pareciera que la forma de la búsqueda de información es un secreto de estado bien guardado. Actualmente se utilizan técnicas de Inteligencia Artificial para descifrar búsquedas y también para establecer el comportamiento del usuario.

Motores de búsqueda robots
Un robot web, conocido por varias denominaciones (Araña, Crawler etc.) es una aplicación que realiza búsquedas en Internet para agendar una copia de la información de la página en un servidor o simplemente una copia del índice, para eso el propietario de una página web aloja en el directorio raíz un archivo robots.txt indicativo de que su página puede ser indexada por buscadores.

- Publicidad -

Los propietarios de sitios web utilizan el archivo /robots.txt para dar instrucciones sobre su sitio a robots web esto se llama en algunos casos Protocolo de Exclusión de Robots.

Funciona así: un robot quiere ver la URL de un sitio web, por ejemplo:
http://www.example.com/welcome.html.

Antes de hacerlo, primero verificar http://www.example.com/robots.txt y encuentre:
Agente de Usuario: *
No Permitir: /

El "agente de usuario: *" significa que esta sección se aplica a todos los robots.
El mensaje " No permitir: /" le dice al robot que no debe visitar ninguna página del sitio.
Hay dos consideraciones importantes al usar /robots.txt:

    • Los robots pueden ignorar tu /robots.txt.
        ◦ Especialmente los robots de malware que escanean la web en busca de vulnerabilidades de seguridad y los recolectores de direcciones de correo electrónico utilizados por los spammers no prestarán atención.
    • El archivo /robots.txt es un archivo disponible públicamente.
        ◦ Cualquiera puede ver qué secciones de su servidor no desea que utilicen los robots.

“ No es aconsejable usar /robots.txt para ocultar información”

Algunas definiciones adicionales
Un robot es un programa que atraviesa automáticamente la estructura de hipertexto de la Web recuperando un documento y recursivamente todos los documentos a los que se hace referencia.

- Publicidad -

Tenga en cuenta que "recursivo" aquí no limita la definición a ningún algoritmo transversal específico; incluso si un robot aplica cierta heurística a la selección y orden de los documentos para visitar y espacia las solicitudes durante un largo período de tiempo, todavía es un robot.

Los navegadores web normales no son robots, ya que son operados por un humano y no recuperan automáticamente los documentos de referencia (excepto las imágenes en línea).

Desarrollo ampliado de robots
“No existe voluntad de que prospere un Estándar final de Robots.txt”

No hay esfuerzos en este sitio para desarrollar /robots.txt, y no se sabe si organismos de estándares técnicos como el IETF o el W3C trabajan en esta área.

Hay algunos esfuerzos de la industria para extender los mecanismos de exclusión de robots. Vea por ejemplo los esfuerzos de colaboración anunciados enYahoo! Search Blog, Google Webmaster Central Blog y Microsoft Live Search Webmaster Team Blog, que incluye compatibilidad con comodines, mapas de sitio, etiquetas META adicionales, etc.

Por supuesto, es importante darse cuenta de que, otros robots más antiguos pueden no admitir estos nuevos mecanismos. Por ejemplo, si usa "No permitir: /*.pdf$", y un robot no trata '*' y '$' como caracteres comodín y de ancla, sus archivos PDF no se excluyen.

- Publicidad -

Los detalles:
/Robots.txt es un estándar de facto, y no es propiedad de ningún organismo de estándares.

Hay dos descripciones históricas:
    • El documento original de 1994 A Standard for Robot Exclusion.
    • una especificación de borrador de Internet de 1997: Un método para el control de robots web.

Recursos externos:
    • Especificación HTML 4.01, Apéndice B.4.1
        ◦ https://www.w3.org/TR/html4/appendix/notes.html#h-B.4.1.1
    • Wikipedia - Estándar de exclusión de robots
        ◦ https://en.wikipedia.org/wiki/Robots_exclusion_standard

Descripción general, recetas simples de cómo usar /robots.txt en su servidor.
En este ejemplo, se excluyen tres directorios.

Tenga en cuenta que necesita una línea separada "No permitir" para cada prefijo de URL que desea excluir; no puede decir "No permitir: / cgi-bin / / tmp /" en una sola línea.

Además, es posible que no tenga líneas en blanco en un registro, ya que se utilizan para delimitar varios registros. Tenga en cuenta también que el globbing y la expresión regular no se admiten en las líneas de User-agent o Disallow.

El '*' en el campo User-agent es un valor especial que significa "cualquier robot".

Específicamente, no puede tener líneas como "User-agent: * bot *", "Disallow: / mp / *" o "Disallow: * .gif".

Lo que quieras excluir depende de tu servidor. Todo lo que no está explícitamente desestimado se considera un juego justo para recuperar.

Aquí siguen algunos ejemplos:
- Para excluir todos los robots de todo el servidor.
Agente de usuario: *
No permitir: /

- Para permitir que todos los robots tengan acceso completo.
Agente de usuario: *
Rechazar:
(o simplemente cree un archivo "/robots.txt" vacío, o no use uno en absoluto)

- Para excluir todos los robots de parte del servidor.
Agente de usuario: *
No permitir: / cgi-bin /
No permitir: / tmp /
No permitir: / basura /

- Para excluir un solo robot
Usuario-agente: BadBot
No permitir: /

- Para permitir un solo robot
Usuario-agente: Google
Rechazar:
Agente de usuario: *
No permitir: /

- Para excluir todos los archivos excepto uno
Esto es actualmente un poco incómodo, ya que no hay un campo "Permitir". La forma más fácil es colocar todos los archivos para que sean rechazados en un directorio separado, decir "cosas", y dejar el único archivo en el nivel superior a este directorio:
Agente de usuario: *
No permitir: / ~ joe / stuff /
Alternativamente, puede rechazar explícitamente todas las páginas no permitidas:
Agente de usuario: *
No permitir: /~joe/junk.html
No permitir: /~joe/foo.html
No permitir: /~joe/bar.html

Robots.txt (continuación)
Si un webmaster no desea que su página sea analizada por un Bot, puede insertar un método llamado robots.txt , el cual evita que GoogleBot (u otros bots) investiguen una o varias páginas (o incluso todo el contenido) del sitio web.

Google Bot
Google usa una gran cantidad de computadoras para enviar sus rastreadores a cada rincón de la red para encontrar estas páginas y ver qué hay en ellas. Googlebot es el robot o rastreador web de Google y otros motores de búsqueda tienen el suyo propio.

Cómo funciona Googlebot
Googlebot utiliza sitemaps y bases de datos de enlaces descubiertos durante los rastreos anteriores para determinar dónde ir a continuación. Cada vez que el rastreador encuentra nuevos enlaces en un sitio, los agrega a la lista de páginas para visitar a continuación. Si Googlebot encuentra cambios en los enlaces o enlaces rotos, tomará nota de eso para que se pueda actualizar el índice. El programa determina con qué frecuencia rastreará las páginas. Para asegurarse de que Googlebot pueda indexar correctamente su sitio, debe verificar su capacidad de rastreo. Si su sitio está disponible para los rastreadores, estos vienen a menudo.

GoogleBot descubre enlaces a otras páginas, y se dirige hacia ellos también, así puede abarcar toda la web fácilmente. Es el robot que utiliza Google para 'rastrear' los sitios de Internet. No solamente indexa páginas webs (HTML,HTML5) sino que también extrae información de ficheros PDF, PS, XLS, DOC y algunos otros más.

La frecuencia con la que Googlebot accede a un sitio web depende del PageRank de éste. Mientras mayor sea este valor, el robot accederá más asiduamente a sus páginas.
Por ejemplo, podemos probar que los sitios con PR10 (el valor más alto), como yahoo.com o usatoday.com, han sido 'rastreados' por GoogleBot ayer o incluso hoy mismo, mientras que otros han sido accedidos hace varias semanas. Esto se puede comprobar accediendo al 'cache' de esta página.

DeepBot
Googlebot tiene dos versiones, DeepBot y FreshBot. DeepBot investiga profundamente tratando de seguir cualquier enlace de una página, además de poner tal página en el caché, y dejarla disponible para Google. En marzo del 2006, le tomaba un mes en completar el proceso.

FreshBot
Freshbot investiga la web buscando contenido nuevo. Visita sitios que cambian frecuentemente. Idealmente, el FreshBot visitará la página de un periódico todos los días, mientras que la de una revista cada semana, o cada 15 días. Así, por ejemplo, puede captar noticias que recién hayan ocurrido, sin tener que esperar semanas.

Comprobación
Para comprobar si GoogleBot ha accedido a nuestro sitio web, deberemos echar un vistazo a los logs de nuestro servidor. En ellos, deberemos observar si hay registros de accesos en los que aparezca 'GoogleBot'. Generalmente aparecerá el nombre del servidor, el cual podrá ser alguno de estos:
Servidor Dirección IP's

crawl1.googlebot.com   216.239.46.20
crawl2.googlebot.com   216.239.46.39
crawl3.googlebot.com   216.239.46.61
crawl4.googlebot.com   216.239.46.82
crawl9.googlebot.com   216.239.46.234
crawler1.googlebot.com 64.68.86.9
crawler2.googlebot.com 64.68.86.55
crawler14.googlebot.com        64.68.82.138

Una vez que Googlebot haya 'rastreado' nuestra página, seguirá los enlaces que en ella encuentre (los HREF y los SRC). Por lo tanto, si quieres que GoogleBot indexe tu página web, solamente es necesario que algún otro sitio tenga un enlace al tuyo. Si no es así, siempre puedes añadir directamente tu URL desde Google.

Diferentes robots
Hay varios tipos diferentes de robots. Por ejemplo, AdSense y AdsBot verifican la calidad de los anuncios, mientras que Mobile Apps Android verifica las aplicaciones de Android.

Algunos de los robots mas importantes
Nombre
Agente de usuario
Googlebot (escritorio)
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Googlebot (móvil)
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Googlebot Video
Googlebot-Video/1.0
Imágenes de Googlebot
Googlebot-Image/1.0
Googlebot Noticias
Googlebot-News

Cómo Googlebot visita su sitio
Para saber con qué frecuencia Googlebot visita su sitio y qué hace allí, puede sumergirse en sus archivos de registro o abrir la sección Rastreo de la Consola de búsqueda de Google.
Si desea hacer cosas realmente avanzadas para optimizar el rendimiento de rastreo de su sitio, puede usar herramientas como Kibana o el Analizador de registro SEO de Screaming Frog.

Conclusión
Siempre es necesario usar distintos buscadores, muchas veces nos encontramos con que un buscador nos entrega escasa información acerca de algo y al elegir otro encontramos lo deseado. Por ello siempre es bueno utilizar distintas herramientas, como así también usar las opciones avanzadas de los mismos, algunos llegan hasta la Deep Web, lo cual no es aconsejable por la calidad de información espúrea que reside, esto no significa que no haya consumidores.

Un tip interesante: antes que el buscador se nos adelante escribamos la pagina que deseamos ver en forma completa, de manera que la publicidad no se nos adose.

Los robots, los buscadores y el manejo de la información hacen que seamos cada vez más dependientes de ellos, la manera es informarse con distintas fuentes, experimentar en lo personal y obtener referencias de personas de carne hueso. La independencia de la información nos hace libres.

* Los nombres y marcas mencionadas son nombres y marcas de sus respectivos autores. Conceptos y fuentes consultadas Google ® sources, Wikipedia, Dns Queries, Robotstxt.org y Yoast.com

* Para contactarse con el autor de este artículo escriba a [email protected]

Author: Duván Chaverra Agudelo

Jefe Editorial en Latin Press, Inc,.

Comunicador Social y Periodista con experiencia de más de 16 años en medios de comunicación. Apasionado por la tecnología y por esta industria. [email protected]