conoZe.com » Proyectos » PyE » utilidades

agricola, Semantic Web Robot: User-Agent

Si está leyendo ésta página es muy probable que haya sido dirigido aquí al ver la dirección del user-agent en los accesos de su log.

agricola, Semantic Web Robot es un proyecto de conoZe.com. Si desea hacernos llegar alguna pregunta o queja por el funcionamiento del robot en su sitio por favor diríjala a agricola@conoze.com.

agricola es un robot no agresivo que tiene distintos modos de funcionamiento según la información que recupera.

agricola no trafica con la información que obtiene, si no que es un apoyo al desarrollo de proyectos relacionados con la web semántica que se desarrollan por y para conoZe.com.

User-Agent.

El user-agent de agricola tiene la siguiente forma:

agricola/0.91 ( mod:AAA; http://www.conoze.com/agricola ),

donde agricola identifica al agente, 0.91 es la versión actual y AAA es el modo en el que actúa.

En la actualidad existen cuatro modos de funcionamiento:

  • RSS: recolecta archivos en formato rss, rdf o xml, que estén bien formados (valida la estructura) para proyectos relacionados con la agregación de contenidos. Funciona de modo similar a un agregador de rss. Una muestra de éste proyecto puedes encontrarla en blogsconoZe.com .
  • LSI: obtiene e indexa websites enteros para la categorización, clusterización y análisis, tanto de la información del site como de las relaciones con otros.
  • OAI: recolecta descripción y registros en formato oai para el proyecto oai-explorer.
  • RBT: búsca información en la red y la indexa. El robot funciona como cualquier otro de propósito general.

Exclusiones.

El funcionamiento estándar de agricola respeta las normas de los robots según: http://www.robotstxt.org/wc/exclusion.html#robotstxt , tanto el fichero robots.txt como las exclusiones de los metatags, con lo que cualquier webmaster puede limitar el alcance de rastreo de agricola tanto como desee, excepto en la modalidad de RSS y OAI, que se dirigen a recolectar archivos específicos y públicos que residen en nuestra base de datos.

agricola obedece a las exclusiones respondiendo al User-Agent agricola o *. De tal manera que Vd puede configurar su fichero robots.txt de la siguiete manera:

- para todos los robots

User-agent: * Disallow: /

- exclusivamente para agricola

User-agent: agricola Disallow: /

Si no dispone de acceso a la raiz del servidor o desea proteger páginas específicas agricola también responde a los metatags, tal como se especifica en http://www.robotstxt.org/wc/meta-user.html.

Ahora en...

About Us (Quienes somos) | Contacta con nosotros | Site Map | RSS | Buscar | Privacidad | Blogs | Access Keys
última actualización del documento http://www.conoze.com/doc.php?doc=2130 el 2006-01-19 16:57:48