jueves, 5 de enero de 2012

Presentación

Esta página esta dedicada a la investigación y elaboración de estadísticas originales, es decir, que no podemos encontrar en otro sitio, ( que yo sepa ) cuyos datos puedan recuperarse de manera automática a partir de consultas de páginas disponibles en internet.

Esta definición es muy amplia. Los datos disponibles y la manera de combinarlos de manera que se obtengan vistas con valor añadido es un conjunto enorme.  A parte de mis ideas, espero recibir vuestras propuestas.

Estas estadísticas pueden ser originales por dar una visión alternativa de datos ya conocidos o por darla en plazos temporales diferentes ( más cortos ) que las estadísticas disponibles. Por ejemplo, ¿ Cuanto ha variado el precio medio del m2 residencial en España entre ayer y hoy ?

Como objetivo secundario se podría añadir el reprocesar datos estadísticos ya disponibles en otras maneras más convenientes, pero lo que me interesa particularmente es, desde los datos 'en bruto' no estadísticos poder elaborar estadísticas originales que resulten útiles en la toma de decisiones.

Como primer campo de recolección de datos me he fijado el mercado inmobiliario. Complejo, fascinante,  y que ocupa una parte del pensamiento y de las decisiones de muchas personas. Hay varios portales, varias fuentes de información sobre las ofertas... suficientes datos para intentar extraer información y darle 'cuerpo', y siendo un asunto que interesa a tantas personas parece un buen comienzo.

Una dificultad que se presenta en la extracción en bruto de datos es la del tiempo y la infraestructura necesaria para recolectarlos diariamente. Queda fuera de objetivo de esta presentación entrar en detalles técnicos, pero como muestra del coste en recursos de la extracción masiva de datos de internet os adelanto unas cifras. Mi primer 'agente' recolector necesita unas 5 horas al día para descargar unas 700.000 ofertas del mercado inmobiliario español, muestra que considero suficiente. La descarga de datos, dividida en miles de páginas, requiere una transferencia de 2.3GB. En realidad, una página que en bruto mide unos 200Kb luego se transforma, una vez parseada, en unos pocos registros en la base de datos. Con mi limitada infraestructura actual solo podría mantener actualizados 2 o 3 conjuntos de datos estadísticos de similar complejidad.

Este tipo de actividad intensiva de descarga puede ser interpretada por las webs como un 'ataque' o un 'abuso', lo que puede obligar a repartir las comunicaciones entre diferentes lineas, de momento solo dispongo de los lineas de datos para alternar la descarga. Hasta la fecha he tenido suerte, pero es perfectamente posible que mi agente se encuentre con problemas más adelante. Eso me aconseja cierta discreción en cuanto a las fuentes de datos.

A modo de ejemplo de las dificultades que pueden surgir: Hace algún tiempo quise contestar la pregunta, ¿ Cual es la palabra más corta, que alterna vocal y consonantes y de menor orden alfabético que no devuelve ningún resultado al buscarla en google ? Automatizé una serie de búsquedas y la cosa funcionaba bastante bien, pero al cabo de un rato... me salio un mensaje de que no podía seguir usando el buscador hasta pasado un cierto tiempo. ( Lástima, no me guarde copia del mensaje ) Así que para cierto tipo de trabajos intensivos, disponer de varias lineas y alternar entre ellas puede ser necesario. Desconozco si tal vez otras técnicas de ocultación de la IP pueden ayudar, pero dado que el volumen de datos es muy grande y de todas formas puede ser necesario disponer de varias lineas para cada objetivo concreto puede ser suficiente alternar entre las lineas disponibles.

Próximanente añadiré los primeros resultados de mi investigaciones...así como otras cuestiones de tipo técnico.

No hay comentarios:

Publicar un comentario