Buscar en este blog y otros asociados

domingo, 6 de septiembre de 2015

El viejo problema del BIG DATA en la estadística pública

De acuerdo con la Wikipedia, Big Data o Datos masivos es un concepto que hace referencia a la acumulación masiva de datos y a los procedimientos usados para identificar patrones recurrentes dentro de esos datos. También según la Wikipedia, la disciplina dedicada a los datos masivos se enmarca en el sector de las tecnologías de la información y la comunicación. Esta disciplina se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos. Las dificultades más habituales vinculadas a la gestión de estas cantidades de datos se centran en la captura, almacenamiento, búsqueda, compartición, análisis, y visualización.

Tal como afirma el diario ElEconomista.es en su artículo La moda del Big Data: ¿En qué consiste en realidad? escrito por José Carlos López López:
Big Data es uno de los conceptos de moda en el mundo informático (...). Sin embargo, observamos una gran confusión sobre "en qué consiste realmente". Empecemos entonces por tratar de aclarar "qué es Big Data".
Denominamos Big Data a la gestión y análisis de enormes volúmenes de datos que no pueden ser tratados de manera convencional, ya que superan los límites y capacidades de las herramientas de software habitualmente utilizadas para la captura, gestión y procesamiento de datos.

El problema viene de viejo, por lo menos desde 1880


Como vemos el término Big Data está de moda, sin embargo el problema de gestión de grandes volúmenes de datos es un problema al que se ha tenido que enfrentar la estadística pública desde hace muchos años. En ese sentido no es un problema nuevo, y el camino de la solución siempre ha sido tecnológico.

En 1880 comenzó a realizarse el censo en EEUU y debido a la cantidad de personas que lo formaba tardó 8 años en finalizarse, incluso habían variables que no se llegaron a tabular. Por este motivo, la US Census Bureau llevó a cabo un concurso en 1888 para encontrar un método más eficiente para procesar y tabular el gran volumen de datos que recopilaba. Se pidió a los concursantes que procesaran los datos del censo de 1880 de cuatro áreas en St Louis, MO, de tal manera que quien capturara y procesara los datos más rápido ganaría un contrato para el censo de 1890.

Tres concursantes aceptaron el reto de la US Census Bureau. Los dos primeros concursantes capturaron los datos en 144,5 horas y 100,5 horas respectivamente. El tercer contendiente, un exempleado de la US Census Bureau llamado Herman Hollerith, completó el proceso de captura de datos en 72,5 horas. A continuación, los participantes tuvieron que demostrar que sus diseños podrían preparar los datos para la tabulación (es decir tabular los datos por categorías de edades, razas, sexos, etc.). Dos de los concursantes necesitaron 44,5 horas y 55,5 horas respectivamente, en cambio Hollerith asombró a los funcionarios de la US Census Bureau al completar la tarea en tan sólo 5,5 horas.

Los impresionantes resultado de Herman Hollerith le supuso que el Gobierno de los Estados Unidos seleccionara su máquina tabuladora (considerada por algunos como la primera computadora) para elaborar el censo de 1890. Se tardaron sólo 3 años en perforar unos 56 millones de tarjetas. Esto permitió que el censo de ese país se realizara de una manera más fácil. Versiones modificadas de su tecnología se usaron en la oficina del censo americano hasta su sustitución por las computadoras en la década de 1950.

Herman Hollterith, las tarjetas perforadas e IBM

En 1885 Herman Hollerith construye la máquina censadora o tabuladora, que por medio de tarjetas perforadas reducía el tiempo de realización del censo.

Herman Hollerith (1860-1929) trabajó brevemente para la US Census Bureau en el período previo al censo de 1880. Esta experiencia, junto con algunos consejos de mentor de John Shaw Billings, lo convenció de que la US Census Bureau necesitaba desesperadamente una alternativa al conteo manual para tabular los datos del censo. Hollerith fue capaz de inventar un dispositivo que hizo exactamente eso: una tabuladora eléctrica.

Hollerith observó que la mayor parte de las preguntas contenidas en los censos se podían contestar con un SÍ o un NO. Entonces ideó una tarjeta perforada, una cartulina en la que, según estuviera perforada o no en determinadas posiciones, se contestaba este tipo de preguntas. La tarjeta tenía 80 columnas. Hollerith patentó su máquina en 1889, un año después incluyó la operación de sumar con el fin de utilizarla en la contabilidad de los Ferrocarriles Centrales de Nueva York.

En 1896, Hollerith fundó la empresa Tabulating Machine Company, con el fin de explotar comercialmente su invento. En 1911, dicha compañía se fusionó con Computing Scale Company, International Time Recording Company y Bundy Manufacturing Company, para crear la Computing Tabulating Recording Corporation (CTR). El 14 de febrero de 1924, CTR cambió su nombre por el de International Business Machines Corporation (IBM).

El permanente problema de tabular un censo como motor de la tecnología de procesamiento de datos

A medida que la población de Estados Unidos crece, la US Census Bureau ha buscado continuamente estrategias para mejorar la velocidad y la precisión del proceso de levantamiento de censos. Cuando los Estados Unidos contaban con 3,9 millones de residentes en el primer censo en 1790, el gran volumen de trabajo de tabular a mano los resultado era uno de los mayores retos. A medida que el país creció, también lo hizo el desafío. Cuando contar los resultados del censo se hizo tan largo que casi duraba una década, la búsqueda de soluciones condujo necesariamente a la creación de la moderna tecnología de procesamiento de datos.

El primer dispositivo para acelerar el conteo del censo fue creado en 1872 por el Oficial Mayor del Censo Charles W. Seaton. La máquina utilizaba rodillos para sumar las pulsaciones de teclado introducidas manualmente. Sin embargo, incluso con la máquina Seaton el censo se llevó casi la década completa para su procesamiento.

Tal como conté anteriormente en 1888 la US Census Bureau celebró un concurso para encontrar la manera más eficiente para procesar y tabular tdatos. El tabulador electrónico de Herman Hollerith resultó vencedor en la captura y procesamiento mediante la lectura de los agujeros en tarjetas perforadas. Con este tabulador los empleados del censo podían transferir la información de los cuestionarios censales a tarjetas perforadas, permitiendo la creación de cerca de 500 tarjetas perforadas al día.

La oficina del censo de EEUU mantuvo la actualización y el uso de los tabuladores electrónicos de Hollerith hasta el censo de 1950, cuando fueron reemplazados por UNIVAC I, el primer ordenador moderno instalado por una agencia del gobierno civil. Por lo tanto la US Census Bureau se convirtió en el primer cliente de civil de la computadora digital moderna. Construido por la Eckert-Mauchley Computer Corporation a un costo de $400,000, UNIVAC procesaba los datos a un ritmo muy por delante de las antiguas máquinas de Hollerith, con datos introducidos con cinta magnética.

En la década de 1970, la agencia americana desarrolló los ficheros Dual Independent Map Encoding (DIME) y el sistema TIGER diseñado en la década de 1980 sentó las bases para la industria de sistema de información geográfica de hoy.

viernes, 21 de agosto de 2015

Reflexiones sobre el análisis del turismo en España a partir de las transacciones con tarjeta


Esta semana BBVA ha presentado su estudio del turismo en España a partir de las transacciones con tarjetas. El BBVA ha analizado 5,4 millones de transacciones anonimizadas en un informe sobre el gasto de los turistas en España los meses de julio y agosto de 2014.

Los resultados del estudio se presentan en forma de visualización interactiva. En la nota de prensa se afirma que esta visualización de datos, basada en las transacciones con tarjeta procedentes por las TPVs de BBVA, proporciona una inédita cantidad de información y una resolución espacial -se dan datos por ciudades y regiones autonómicas- que no permiten las actuales metodologías basadas en encuestas.

Desde luego, el estudio de nuevas fuentes de datos es un camino a investigar por parte de la estadística pública, y en esa línea se viene trabajando por parte de la unidad de estadística de NNUU, y por supuesto desde Eurotat, tal como establece el Scheveningen Memorandum sobre Big Data and Official Statistics.

Si bien parece interesante e importante estudiar nuevas fuentes de datos para la estadística pública, también es imprescindible hacerlo desde la rigurosidad científica y administrativa que caracteriza la función pública estadística; lejos de las proclamas victoriosas de las grandes corporaciones poseedoras de datos o vendedoras de software. En ese sentido ya se han dado algunos pasos por parte de la comunidad estadística internacional, de tal manera que en abril de este año la Conferencia de Estadísticos Europeos ha publicado el informe Structuring risks and solutions in the use of big data sources for producing official statistics – Analysis based on a quality framework en el que se abordan los posibles riesgos y soluciones del uso de nuevas fuentes de datos (conocidas como fuentes Big Data, aunque algunas tienen poco de "big"); comenzando con el riesgo de disponibilidad de acceso a datos de fuentes no públicas.

Algunos de estos asuntos los presenté, en clave positiva pero crítica, en la jornada #BigDataCanarias. Esta presentación es previa al documento anteriormente señalado y puede consultarse en:



En la presentación menciono un estudio previo a la visualización ahora presentada por BBVA, con datos de 2012 tanto de Telefónica como de BBVA, denominado Big Data y Turismo: Nuevos indicadores para la gestión turística. En este documento se realizan algunas advertencias metodológicas que es bueno recordar para poder situar bien qué información nos ofrece esta fuente de datos:
Una característica a tener en cuenta es que el pago a través de tarjetas de crédito o débito supone una parte de los pagos totales realizados en un comercio, dado que aproximadamente el 50% del gasto en comercios se realiza mediante dinero en efectivo. Este porcentaje fluctúa, entre otros, en función de la categoría del comercio y su entorno, pero también por sesgos culturales inherentes a la nacionalidad del usuario. En este informe ninguno de los resultados presentados es una extrapolación para deducir el gasto total llevado a cabo por los turistas extranjeros, las cifras reflejadas son en todo caso las recabadas por los medios de pago electrónico BBVA, y no deben tomarse como cifras absolutas de gasto realizado por cualquier medio de pago. 
Esta nota metodológica es importante y refleja uno de los problemas que ya señalé en su momento en la presentación anteriormente indicada: BIG no es ALL, en todo caso es más; por lo tanto sólo reduce uno de los elementos del error cuadrático medio (ECM) que es la varianza, pero el método de recogida de datos puede afectar seriamente al otro componente: el sesgo (recordemos que ECM = varianza + sesgo^2 y que la varianza disminuye con el tamaño muestral, pero el sesgo puede aumentar debido a errores ajenos al muestreo).

En este mismo estudio también se indica cómo se han identificado a los turistas a través de las tarjetas, pero no se establece cómo relacionar esa identificación con el criterio internacional que permite establecer que un viajero es un turista (establecido por la Organización Mundial del Turismo):
Para distinguir turistas extranjeros de extranjeros expatriados residentes en nuestro país, sólo se han incluido en el dataset aquellas tarjetas extranjeras 
Asimismo, el estudio del gasto turístico realizado utilizando los TPV no puede clasificarse según productos, sino en todo caso según la clasificación de la actividad económica del establecimiento proveedor del producto/servicio asignada por la entidad bancaria. Así, por ejemplo, la compra de cervezas en una gasolinera posiblemente se asocie a compras de combustibles. Además tampoco es posible determinar algunos estimadores importantes en el estudio del gasto turístico, tales como el gasto medio por turista (en todo caso se puede calcular gasto medio por transacción) y por ende tampoco el gasto medio por turista y día; por lo tanto titulares como ¿Cuánto se gasta un turista inglés en Málaga a la hora de comer? (El País) no son correctos.

Por otra parte en la nota de prensa del BBVA se anuncia que esta nueva fuente de datos
proporciona una inédita cantidad de información y una resolución espacial - se dan datos por ciudades y regiones autonómicas- que no permiten las actuales metodologías basadas en encuestas.
En ese sentido, seguramente los redactores no conocen la Encuesta sobre Gasto Turístico que realiza el Instituto Canario de Estadística (ISTAC), que ofrece datos municipales de gasto turístico con frecuencia trimestral e información con más detalle con frecuencia anual:


En definitiva, si bien estos ejercicios son útiles y hay que seguir investigando en esta línea; aún están lejos de ofrecer datos de calidad según los criterios del Código de Buenas Prácticas de la Estadísticas Europeas. Finalmente señalar la curiosidad de que la colaboración del BBVA e INE en este tipo de iniciativas no haya sido informada en el Comité Interterritorial de Estadística del que formo parte y en cuya última sesión del pasado mes de junio, para la aprobación del Anteproyecto del Real Decreto del Plan Estadístico Nacional 2017-2020, se introduce la investigación del uso de Big Data dentro de la estrategia de la estadística pública nacional; hubiera sido un placer realizar algunas aportaciones en ese sentido.


Anexo sobre varianza y sesgo

Como quizás a algunas personas les resulten lejanos o desconocidos conceptos como el de varianza y sesgo de un estimador, adjunto una representación gráfica donde se visualizan mejor las dos fuentes de error a la hora de estimar una variable.

En color rojo representamos el valor real y no conocido, o sea el valor que queremos estimar a través de una muestra de datos. A la izquierda está representado un procedimiento por el que obtenemos una estimaciones insesgadas pero con mucha variabilidad, en el gráfico de la derecha está representado un procedimiento que genera estimaciones muy concentradas, pero lejanas del valor objetivo, es lo que se conoce como estimaciones sesgadas.  


En el caso del estudio presentado por BBVA nos encontramos ante el segundo caso, estimaciones con posibilidad de alto sesgo, que habría que estimar para conocer la bondad del estudio. No debemos perder la perspectiva de que el conjunto de datos utilizado es una muestra, no un censo, con el inconveniente de no poder conocer la probabilidad de inclusión de un suceso dentro de la muestra.

jueves, 22 de noviembre de 2012

Data Journalism Handbook

Desde hace algún tiempo está disponible en la web el magnífico libro Data Journalism Handbook en que se abordan los principales aspectos del periodismo de datos con un lenguaje sencillo y con ejemplos significativos.



Introduction



In The Newsroom



Case studies



Getting Data



Understanding data



Delivering Data