» Proyectos » PyE » utilidades
agricola, Semantic Web Robot: User-Agent
Si está leyendo ésta página es muy probable que haya sido dirigido aquí al ver la dirección del user-agent en los accesos de su log.
agricola, Semantic Web Robot es un proyecto de conoZe.com. Si desea hacernos llegar alguna pregunta o queja por el funcionamiento del robot en su sitio por favor diríjala a agricola@conoze.com.
agricola es un robot no agresivo que tiene distintos modos de funcionamiento según la información que recupera.
agricola no trafica con la información que obtiene, si no que es un apoyo al desarrollo de proyectos relacionados con la web semántica que se desarrollan por y para conoZe.com.
User-Agent.
El user-agent de agricola tiene la siguiente forma:
agricola/0.91 ( mod:AAA; http://www.conoze.com/agricola ),
donde agricola identifica al agente, 0.91 es la versión actual y AAA es el modo en el que actúa.
En la actualidad existen cuatro modos de funcionamiento:
- RSS: recolecta archivos en formato rss, rdf o xml, que estén bien formados (valida la estructura) para proyectos relacionados con la agregación de contenidos. Funciona de modo similar a un agregador de rss. Una muestra de éste proyecto puedes encontrarla en blogsconoZe.com .
- LSI: obtiene e indexa websites enteros para la categorización, clusterización y análisis, tanto de la información del site como de las relaciones con otros.
- OAI: recolecta descripción y registros en formato oai para el proyecto oai-explorer.
- RBT: búsca información en la red y la indexa. El robot funciona como cualquier otro de propósito general.
Exclusiones.
El funcionamiento estándar de agricola respeta las normas de los robots según: http://www.robotstxt.org/wc/exclusion.html#robotstxt , tanto el fichero robots.txt como las exclusiones de los metatags, con lo que cualquier webmaster puede limitar el alcance de rastreo de agricola tanto como desee, excepto en la modalidad de RSS y OAI, que se dirigen a recolectar archivos específicos y públicos que residen en nuestra base de datos.
agricola obedece a las exclusiones respondiendo al User-Agent agricola o *. De tal manera que Vd puede configurar su fichero robots.txt de la siguiete manera:
- para todos los robots
User-agent: * Disallow: /
- exclusivamente para agricola
User-agent: agricola Disallow: /
Si no dispone de acceso a la raiz del servidor o desea proteger páginas específicas agricola también responde a los metatags, tal como se especifica en http://www.robotstxt.org/wc/meta-user.html.
Del director
- Islandia: primer país sin nacimientos Síndrome de Down, el 100% son abortados
- 9 cosas que conviene saber sobre el Miércoles de Ceniza
- Juan Claudio Sanahuja, in memoriam
- Trumpazo: la mayoría de los católicos USA votaron por Trump (7 puntos de diferencia)
- Mons. Chaput recuerda y reitera en su diócesis la necesidad de vivir la castidad a los divorciados que se acerquen a la Confesión y la Eucaristía
- Cardenal Sarah, prefecto para el Culto Divino, sugiere celebrar cara a Dios a partir de Adviento
- Medjugorje: Administrador Apostólico Especial. Por ahora no parece.
- Turbas chavistas vejan y humillan a seminaristas menores