Buscar en este blog y otros asociados

domingo, 25 de septiembre de 2016

El reto Big Data para la estadística pública (I): Introducción

1. El viejo-nuevo problema Big Data en la estadística pública

La sociedad de finales de Siglo XX y principios del Siglo XXI está cambiando rápidamente en muchos aspectos, entre ellos los vinculados al mundo de la información. Vivimos en la época SMAC (Social, Mobile, Analytics, Cloud) donde las personas, muchas de ellas denominadas nativas digitales, no conciben su vida sin un dispositivo móvil a través del que se relacionan con el mundo. Este estilo de vida, al que ya se llama digital, genera un tsunami de cambios y una verdadera montaña de datos en flujo constante.

A esto se suma lo que Kevin Ashton denominó Internet de las Cosas (IoT, por sus siglas en inglés), concepto que se refiere a la interconexión digital de objetos cotidianos con internet. La idea subyacente es que los objetos se equipan con sensores, que generan datos que se comunican por Internet. La Internet de las Cosas tiene un fuerte demandante de equipos conectados en las ciudades inteligentes, en las que los sistemas de iluminación, la señalización y otros servicios públicos automatizados representarán millones de objetos conectados a Internet.

El nacimiento de estos nuevos fenómenos es producto del advenimiento de las computadoras, que trajo consigo equipos de medida y almacenaje que hicieron sumamente más eficiente el proceso de datificación. La incorporación de ordenadores a las empresas y a las administraciones públicas extendió el almacenamiento y tratamiento de datos durante los años ochenta y noventa del siglo pasado, dando lugar a la inteligencia de negocios aplicada tanto a la empresa como al sector público (Business Intelligence), y dando lugar también a implicaciones en la estadística pública con el surgimiento de la estadística basada en registros administrativos. Este avance también se facilitó gracias al tratamiento y análisis matemático de datos, permitiendo descubrir su valor oculto y dando lugar a términos comerciales como Data Mining que describe el uso de la estadística y de métodos matemáticos en el análisis de los datos empresariales.

Por lo tanto las empresas vienen desarrollando desde hace años sistemas de extracción, tratamiento y análisis de datos de sus sistemas de gestión. Además con el tiempo se ha extendido el acceso y la disponibilidad de datos, convirtiéndose en la base de nuevos modelos de negocio más allá del negocio tradicional -como por ejemplo el proyecto Smart Step de Telefónica-,  de negocios nuevos basados en datos a cambio de servicios -Google sería el ejemplo paradigmático-, o de negocios fundamentados en datos abiertos de origen público o privado -PriceStat sería un buen ejemplo-.

De acuerdo con la Wikipedia, Big Data es un concepto que hace referencia a la acumulación masiva de datos y a los procedimientos usados para identificar patrones recurrentes dentro de esos datos. También según la Wikipedia, la disciplina dedicada a los datos masivos se enmarca en el sector de las tecnologías de la información y la comunicación. Esta disciplina se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos. Las dificultades más habituales vinculadas a la gestión de estas cantidades de datos se centran en la captura, almacenamiento, búsqueda, compartición, análisis, y visualización.

Este tipo de definiciones, con una perspectiva tecnológica, describen al Big Data como la gestión y el análisis de enormes volúmenes de datos que no pueden ser tratados de manera convencional, ya que superan los límites y capacidades de las herramientas de software habitualmente utilizadas para la captura, gestión y procesamiento de datos.

Sin embargo el problema de gestión de grandes volúmenes de datos es un problema al que ha tenido que enfrentarse la estadística pública desde hace muchos años. Por ejemplo, a medida que la población de Estados Unidos crecía, la US Census Bureau fue buscando continuamente estrategias para mejorar la velocidad y la precisión del proceso de levantamiento de censos. Cuando los Estados Unidos contaban con 3,9 millones de residentes en el primer censo en 1790, el gran volumen de trabajo de tabular a mano los resultado era uno de los mayores retos. A medida que el país creció, también lo hizo el desafío. Cuando contar los resultados del censo se hizo tan largo que casi duraba una década, la búsqueda de soluciones condujo necesariamente a la creación de la moderna tecnología de procesamiento de datos. El primer dispositivo para acelerar el conteo del censo fue creado en 1872 por el Oficial Mayor del Censo Charles W. Seaton. La máquina utilizaba rodillos para sumar las pulsaciones de teclado introducidas manualmente. Sin embargo, incluso con la máquina Seaton el censo se llevó casi la década completa para su procesamiento. Unos años después, en 1880 comenzó a realizarse nuevamente el censo en EEUU y debido a la cantidad de personas que lo formaba tardó 8 años en finalizarse, incluso hubo variables que no se llegaron a tabular. Por este motivo, la US Census Bureau llevó a cabo un concurso en 1888 para encontrar un método más eficiente para procesar y tabular el gran volumen de datos que recogía. El resultado fue la tabuladora de  Herman Hollerith, génesis de la fichas perforadas y de la empresa IBM.

Tal como señala Caballero en el libro Las bases de Big Data el almacenamiento y procesamiento de datos ha sido una de las tareas asociadas a los ordenadores desde su aparición. El primer ordenador comercial, UNIVAC I, construido en 1951, fue adquirido por la Oficina del Censo de Estados Unidos para tratar la ingente cantidad de información obtenida en los censos, a la que había que sumar los datos que comenzaban a recopilarse a través de muchas otras fuentes: hospitales, escuelas, etc. Pronto, UNIVAC reveló su potencia a la hora de realizar cálculos y predicciones estadísticas imposibles hasta el momento. Uno de sus mayores éxitos fue la predicción del resultado de las elecciones presidenciales en 1952. A partir de un recuento de tan solo un 1% del total de votos, UNIVAC predijo que el siguiente presidente sería Eisenhower, mientras que la mayoría de los comentaristas políticos daban por ganador a su rival, el hoy olvidado Stevenson.

Entonces, como diría el Bugs Bunny traducido “¿Qué hay de nuevo, viejo?”. En 2001 Douglas Laney propuso tres características que distinguían a lo que ahora denominamos Big Data: volumen, velocidad y variedad. Tradicionalmente, como hemos visto, las Oficinas de Estadísticas se han enfrentado a los problemas de volumen, pero en la actualidad aparecen dos elementos nuevos: la velocidad y la variedad. Siguiendo esta dirección, el primer documento (UNECE, 2013) que estudia el problema Big Data en la estadística pública What Does ‘Big Data’ Mean for Official Statistics? lo define como una variante de la propuesta de Douglas Laney:

“Big Data son las fuentes de datos que generalmente pueden ser descritas como de alto volumen, velocidad y variedad, que requieren formas rentables e innovadoras de procesamiento con el fin de mejorar los análisis y de apoyar las tomas de decisiones”

Por lo tanto, para la estadística pública el problema Big Data se aborda como un problema de nuevas fuentes de datos. En esa dirección el problema se enfrenta considerando que estas fuentes de datos podrían complementar o sustituir las fuentes tradicionales utilizadas en la estadística pública, las encuestas y los registros administrativos, pero con algunas características peculiares:

  1. La propiedad sobre las fuentes de datos generalmente no es pública, con los problemas derivados para el acceso, uso y mantenimiento de las fuentes.

  1. La fuentes de datos no están pensadas para fines estadísticos con los problemas derivados de conceptualización y sesgos.

En el documento anteriormente citado se enumeran algunos de los retos derivados de las características señaladas: (1) Legislativo, p.e. respecto al acceso y uso de los datos (2) Privacidad, p.e. gestión de la confianza pública para la aceptación del uso de esas fuentes y su enlace con otras fuentes de datos (3) Financiero, p.e. coste-beneficio potencial de acceso a las fuentes de datos (4) Gestión, p.e. políticas y directivas sobre la gestión y protección de los datos (5) Metodológico, p.e. calidad de los datos e idoneidad de los métodos estadísticos (6) Tecnológico, p.e. temas relacionados con la tecnología de la información.

2. La estadística pública en la sociedad datificada

2.1. La estadística pública en la encrucijada de la pérdida de hegemonía

El cambio de contexto en el mundo de la información, que hemos señalado en el apartado anterior, tiene implicaciones directas en la Oficinas de Estadística. Entre ellas encontramos muchas cuestiones prácticas, pero también existe una importante y estratégica: ¿Qué posición quieren ocupar las Oficinas de Estadística en el futuro sociedad de la información?

Hasta alrededor de la década de los 80 los datos fueron esencialmente un bien escaso por el alto precio de su adquisición. Antes de la era de la datificación, mucha información no estaba disponible y debía ser recogida para un propósito particular. La información estadística oficial, basada fundamentalmente en datos de encuestas o censos, tenía un valor único pues simplemente no había otra alternativa. Por ejemplo, los datos de los censos de población, recogidos puerta a puerta, eran inmensamente valiosos para los responsables políticos, investigadores y otros usuarios.

A partir de las década de los 90 los datos recogidos por las Administraciones Públicas fueron cada vez más accesibles para fines estadísticos, como consecuencia de la informatización de sus procedimientos. En este escenario, la recopilación de datos estadísticos por medio de cuestionarios se complementó, e incluso se sustituyó, por fuentes de datos administrativas, con el fin de reducir costes y reducir la carga sobre los encuestados. Hoy en día algunos países no llevan a cabo amplios estudios poblacionales, y realizan su censo mediante la combinación y el análisis de datos de varias fuentes administrativas. Aún en este contexto, la información proporcionada por las Oficinas de Estadística seguía siendo única. Esta posición se reforzaba ante la posibilidad de combinar los datos de diferentes fuentes, ya que en muchos países no hay otra organización autorizada para realizar esas combinaciones.

Sin embargo la datificación está cambiando el entorno de las Oficinas de Estadística, dando lugar a que la escasez de datos se convierta en un problema menor. Para las Oficinas de Estadística hay beneficios potenciales en estas nuevas fuentes de datos, de las que surgen nuevas posibilidades tanto en la reducción de cargas a los encuestados y costes de producción, como en la producción de nueva información. Pero también da lugar a la pérdida de la hegemonía de sus datos, ya que otros jugadores en el mercado de la información pueden empezar, y de hecho han comenzado a hacerlo, a producir estadísticas que hasta el momento solo ejecutaban las Oficinas de Estadística.

Por ejemplo el Billion Prices Project del Massachusetts Institute of Technology (MIT) dirigido por Alberto Cavallo y Roberto Rigobon, que en la actualidad se ha convertido en una propuesta comercial a través de la empresa PriceStats, nació como una iniciativa académica que utilizaba los precios recogidos diariamente en cientos de tiendas en línea de todo el mundo para llevar a cabo investigación económica. Este proyecto se fundamentó en la tesis doctoral de Cavallo, A (2009) en la Universidad de Harvard, y también dió lugar en 2007 a la aparición del proyecto InflacionVerdadera.com creado para proveer índices de precios alternativos a los oficiales en Argentina, publicados por el Instituto Nacional de Estadística y Censos (INDEC).

Desde 2007 hasta 2012 se publicó un índice de alimentos y bebidas y otro de la Canasta Básica Alimentaria, utilizando los precios diarios en dos grandes supermercados de Buenos Aires y utilizando las mismas metodologías del INDEC. Los resultados del trabajo, cuyo objetivo era demostrar la manipulación de las estadísticas oficiales en Argentina, fueron publicados en el artículo académico Online and official price indexes: Measuring Argentina’s inflation. En Agosto del 2012 reemplazaron los índices originales de InflacionVerdadera.com por un Indice de Precios al Consumidor producido por PriceStats, comparable al IPC general del INDEC. El índice es publicado semanalmente en la revista The Economist como alternativa a las estadísticas oficiales del INDEC.

Este un claro ejemplo de cómo las fuentes Big Data pueden ser un instrumento al servicio del control externo del cumplimiento de los principios y valores de las Oficinas Estadísticas reconocidos internacionalmente. En esta nueva situación surgen diversas cuestiones fundamentales para una Oficina de Estadística y el futuro de la estadística pública:

  1. ¿Cómo garantizar que las Oficinas de Estadística aportan valor añadido único en el futuro? y en ese sentido ¿las Oficinas de Estadística deben seguir haciendo estadísticas para las que existe una alternativa de mercado?

  1. ¿Pueden las Oficinas de Estadística asumir nuevas funciones o capacidades, en base a su posición institucional y a los conocimientos que han acumulado? Por ejemplo ¿se puede garantizar el acceso a fuentes de datos de propiedad privada?

  1. ¿Sería mejor cambiar el papel de las Oficinas de Estadística pasando de la producción de información estadística hacia la validación de la información producida por los demás?

Desde un punto de vista práctico también surgen preguntas importantes respecto al uso potencial de las fuentes Big Data:

  1. ¿En qué medida son útiles las fuentes Big Data para la producción y la mejora de las estadísticas públicas actuales? y ¿qué nueva información puede producir una Oficina Estadística mediante el uso de estas nuevas fuentes de datos?

  1. ¿Cuál debe ser el marco jurídico de acceso a las fuentes Big Data para fines estadísticos? y si se tuviera acceso ¿cuáles son los riesgos de usar datos sobre los que no se controla su generación por parte de las Administraciones Públicas? además de ¿cómo asegurar la seguridad y confidencialidad de dichos datos?

  1. ¿Cuáles son los requerimientos metodológicos y tecnológicos para el uso de fuentes Big Data?

  1. El uso de estas fuentes ¿significa cambios de procedimientos? ¿es necesario aumentar la velocidad de producción/difusión de datos para aprovechar una de las principales características de estas fuentes?

2.2. Misión, principios y valores de la estadística pública en el contexto Big Data

Naciones Unidas reconoce a las estadísticas oficiales como un elemento indispensable en el sistema de información de una sociedad democrática pues proporcionan a los gobiernos, a la economía y a la ciudadanía datos de la situación económica, demográfica, social y ambiental de un país o de una región. En ese sentido considera que la información estadística es esencial para el desarrollo, pero también para el conocimiento mutuo y el comercio entre los Estados y los pueblos del mundo. Con este fin, NNUU indica que las Oficinas de Estadística han de compilar y facilitar, de forma imparcial, estadísticas oficiales de comprobada utilidad práctica para que los ciudadanos puedan ejercer su derecho a mantenerse informados.

Pero para que los ciudadanos confíen en las estadísticas oficiales, los organismos estadísticos deben contar con un conjunto de valores y principios fundamentales. De acuerdo con Naciones Unidas, los principios generales son la (1) independencia, (2) la pertinencia o relevancia, (3) la credibilidad, así como (4) el respeto a los derechos de los informantes. Estos principios han sido desarrollados en los principios fundamentales de las estadísticas oficiales.

En coherencia con las líneas trazadas por Naciones Unidas, en el ámbito europeo, el Reglamento (CE) nº 223/2009, del Parlamento Europeo y del Consejo de 11 de marzo de 2009 relativo a la estadística europea, señala los siguientes principios en su artículo 2: (1) Independencia profesional, (2) imparcialidad, (3) fiabilidad, (4) secreto estadístico, (5) rentabilidad. Estos principios estadísticos se desarrollaron posteriormente en el Código de Buenas Prácticas de la Estadística Europea, que tiene por finalidad garantizar la confianza de la población en las estadísticas europeas mediante la determinación de la forma en que deben desarrollarse, elaborarse y difundirse las estadísticas con arreglo a los principios estadísticos europeos y a las mejores prácticas internacionales.

Las normas citadas desempeñan un papel vital en la obtención de la confianza en las estadísticas oficial. A su vez estas normas se refuerzan con los códigos éticos de los estadísticos, destacando la Declaración sobre Ética Profesional del Instituto Internacional de Estadística (ISI), que además se complementan con diferentes códigos éticos elaborados por los distintos sistemas estadísticos nacionales.

En ese sentido, la pregunta que nos debemos hacer en un principio desde la estadística oficial es cómo el nuevo contexto Big Data encaja dentro de la misión, principios y valores que guía nuestra actividad pública. Para ellos vamos a realizar una revisión sintética a partir de la agrupación de los principios en tres grandes bloques:

  1. Big Data y los principios asociados a las fuentes de datos para fines estadísticos
  2. Big Data y los principios asociados al derecho de acceso y la protección de la intimidad
  3. Big Data y los principios de objetividad política y científico-técnica

2.2.1. Big Data y los principios asociados a las fuentes de datos para fines estadísticos

En la Resolución sobre los Principios Fundamentales de las Estadísticas Oficiales aprobada por la Asamblea General de NNUU el 29 de enero de 2014,  indica que los datos para fines estadísticos pueden obtenerse de todo tipo de fuentes, ya sea encuestas estadísticas o registros administrativos. Sorprende que no haya mención explícita a las fuentes Big Data, siendo una resolución del año 2014, pero de la esencia del principio podríamos extraer que la intención es establecer que la estadística pública pueda realizarse no sólo a partir de encuestas, sino con cualquier tipo de fuente de datos útil para sus fines.

Esta propuesta de pluralismo de fuentes se ordena en el principio mencionado, indicando que éstas se deben seleccionar considerando: su calidad, oportunidad, costo y carga que impondrá a los encuestados. Los criterios de oportunidad, costo y carga a los encuestados son también considerados en el Código de Buenas Prácticas de las Estadísticas Europeas y son fácilmente comprensibles; sin embargo el criterio de calidad necesita ser explicitado cuando se trabaja con datos no recopilados con fines estadísticos como pueden son los datos administrativos o las fuentes Big Data. En ese sentido debemos referenciar una propuesta sobre marco de calidad para el uso de fuentes Big Data en la estadística pública, elaborada por UNECE Big Data Quality e inspirada en el documento Checklist for the Quality Evaluation of Administrative Data Sources. Este marco se estructura en tres hiperdimensiones, cada una con sus dimensiones de calidad, que a su vez se organizan en factores a considerar.

Dimensiones del marco de calidad para el uso de fuentes Big Data
Hiperdimensión
Dimensiones de calidad
Factores a considerar
Fuente
Entorno institucional
Sostenibilidad de la entidad proveedora de datos
Confiabilidad general de los datos
Transparencia e interpretabilidad de la entidad proveedora y de los datos
Privacidad y seguridad
Legislación que afecta a los datos
Restricciones de privacidad, seguridad y  confidencialidad
Percepción ciudadana sobre el uso de los datos
Metadatos
Complejidad
Restricciones técnicas
Datos estructurados, semiestructurados o no estructurados
Legibilidad de los datos
Presencia de jerarquías y anidamientos
Completitud
Metadatos disponibles, interpretables y completos
Usabilidad
Recursos adicionales necesarios para el tratamiento de los datos
Análisis de los riesgos
Tiempo
Oportunidad
Periodicidad
Cambios a través del tiempo
Enlazamiento
Presencia y calidad de variables de enlace
Niveles al que se puede realizar enlazamiento
Coherencia y consistencia
Estandarización
Disponibilidad de metadatos para variable clave
Validez
Transparencia de métodos y procesos
Solvencia de métodos y procesos
Datos
Exactitud y selectividad
Error total de la muestra
Datos de referencia con los que comparar
Selectividad. Problemas de cobertura
Enlazamiento
Calidad de las variables de enlace
Coherencia y consistencia
Coherencia entre los metadatos y los datos
Validez
Coherencia de los procesos y métodos con los datos observados

2.2.2. Big Data y los principios asociados al derecho de acceso y la protección de la intimidad

El Código de Buenas Prácticas de las Estadísticas Europeas indica claramente, en su principio sobre  recogida de datos, que las autoridades estadísticas deben tener un mandato jurídico claro para recoger la información destinada a la elaboración de estadísticas. Asimismo señala que a petición de las autoridades estadísticas, se puede obligar por ley a las administraciones, las empresas, los hogares y el público en general a permitir el acceso a los datos destinados a la elaboración de estadísticas europeas o a facilitar dichos datos.

En el apartado primero de este capítulo señalamos que una de las características peculiares de las fuentes Big Data es que generalmente la propiedad sobre las mismas no es pública. Asimismo, tal como veremos más adelante, muchas empresas han encontrado en estos datos un nuevo nicho de mercado que hasta el momento no habían explotado; donde los clientes potenciales identificados son tanto el sector privado como el sector público. Estos nichos de mercados se definen no tanto como acceso a datos sino como acceso a servicios a partir de datos, así tenemos por ejemplo el proyecto Smart Step de Telefónica.

Evgeny Morozov, investigador sobre estudios políticos e implicaciones sociales de la tecnología, en una entrevista de presentación de su último libro La locura del solucionismo tecnológico en el diario El País señala que “los datos son una de las más preciadas mercancías”. A lo largo de la entrevista Morozov insiste en que en las últimas cinco décadas los datos se han convertido en una de las más preciadas mercancías:

“Tu seguro quiere saber qué posibilidades tienes de enfermar; tu banco quiere saber qué probabilidades tienes de no pagar tu hipoteca. Hay un mercado gigante de la venta de datos, no solo de tipo digital: si no miras lo que firmas cuando ofreces datos, es más que posible que acaben siendo agregados en una base administrada por un puñado de firmas norteamericanas.”

¿Y qué es lo que se debería hacer con ellos?, Evgeny Morozov plantea tres opciones:

  1. Una es el statu quo: que un par de monopolios, Google y Facebook, continúen recopilando aún más información sobre nuestra vida para que pueda ser integrada en dispositivos inteligentes: mesas inteligentes, termostatos inteligentes; cualquier cosa que tenga un sensor generará un dato. Google Now es el paradigma de un sistema que intenta hacer acopio de todos esos datos para hacer predicciones y darte ideas. Si sabe que vas a volar te recuerda que hagas el check in y te dice el tiempo que te va a hacer en destino, como un asistente virtual. Es el discurso de Google en términos de movilidad social: dar a los pobres los servicios que los ricos ya reciben.

  1. La segunda es seguir a los disruptores. Hay compañías que chupan nuestros datos y los convierten en dinero. Una solución es que cada cual capture sus propios datos y los integre en un perfil, dando acceso a quien quiera y cobrando por ello. De ese modo, cada persona se convierte en un empresario.

  1. Y la tercera opción aún no está muy articulada, pero debería ser perseguida según Morozov. Los datos, en un buen marco político, económico y legal, pueden llevarnos a servicios fantásticos. El único futuro del transporte público es una combinación de datos, algoritmos y sensores que determinan dónde está la gente y adónde quiere ir.

En ese sentido Evgeny Morozov indica que habría que oponerse a que el paradigma de la propiedad privada se extienda a los datos:

“Ha habido esfuerzos de comercializar hasta el aire, y hay que oponerse. Los datos, sin la capacidad de analizarlos, no son gran cosa. Hoy en día solo algunas grandes empresas son capaces de estudiarlos. Esa información debería estar bajo un control público, que no significa un control del Estado, sino de los ciudadanos. La reciente fascinación en Europa por esa idea del común, que no tiene nada que ver con la de los comunes, es un marco sano. La gente podría ceder esos datos voluntariamente, pero siendo propietaria de estos.”

Esta perspectiva contrasta con la aportaciones del European Big Data Value Partnership en sus informes European Big Data Value Strategic Research & Innovation Agenda en los que se ponen en valor la potencialidad económica de las fuentes Big Data y se define una agenda estratégica de investigación e innovación europea para su desarrollo.

Como vemos, hay un debate intenso sobre los datos, su propiedad y el derecho de acceso para fines públicos. Si bien la legislación estadística puede obligar a facilitar el acceso a las Oficinas Estadísticas, esta capacidad tendrá que convivir en la tensión de intereses público-privado contrapuestos; tensión que necesitará de espacios de cooperación con los proveedores. En esa línea se sitúan seminarios como el Joint OECD - PARIS21 Workshop - Access to New Data Sources for Statistics: Business Models for Private-Public Partnerships para cuya preparación se elaboró el informe Public-Private Partnerships for Statistics (Klein, Jütting, and Robin, 2016) que es un buen análisis sobre el problema aquí planteado.

Por otra parte, el Manual de organización estadística nos recuerda que la potestad que confiere la legislación a las Oficinas de Estadística para recabar información no es de mayor utilidad a menos que todos los sectores de la sociedad estén dispuestos a cooperar. En ese sentido es importante señalar que la confidencialidad de la información individual es, probablemente, la mayor preocupación de los informantes; especialmente cuando se trata de gran acumulación de datos por parte del Estado, datos que en un principio han sido generados por los ciudadanos para otros fines distintos a los estadísticos.

Ante lo expuesto es importante señalar que existe el peligro de que entre la sociedad se genere una visión de las Oficinas de Estadísticas como instituciones orwellianas. Por ejemplo, tras la publicación del artículo denominado Las operadoras seguirán el rastro de tu móvil para alimentar el censo de 2021 en el que se hace público por parte del Instituto Nacional de Estadística (INE) de España el uso de datos de telefonía móvil para los estudios de movilidad del Censo de 2021, se desató un amplio debate en Menéame contrario a su uso. Paralelamente se publicaron varios artículos en blogs especializados sobre la legalidad de la medida, como por ejemplo el artículo titulado La ilegalidad de usar los datos del móvil para completar el censo.

2.2.3. Big Data y los principios de objetividad política y científico-técnica

El Manual de Organización Estadística elaborado por NNUU advierte que para tener credibilidad y desempeñar su función es preciso que las Oficinas de Estadística tengan una posición de independencia ampliamente reconocida. Sin la credibilidad derivada de un alto grado de independencia, los usuarios perderán la confianza en la exactitud y la objetividad de la información del organismo y quienes le proporcionan los datos estarán menos dispuestos a cooperar con él. Esta credibilidad se desarrolla en varios Principios Fundamentales de las Estadísticas Oficiales:

  1. Relevancia, imparcialidad y acceso equitativo: Las estadísticas oficiales constituyen un elemento indispensable en el sistema de información de una sociedad democrática y proporcionan al gobierno, a la economía y al público datos acerca de la situación económica, demográfica, social y ambiental. Con este fin, los organismos oficiales de estadística han de compilar y facilitar en forma imparcial estadísticas oficiales de comprobada utilidad práctica para que los ciudadanos puedan ejercer su derecho a la información pública.

  1. Patrones profesionales, principios científicos y ética: Para mantener la confianza en las estadísticas oficiales, las Oficinas de Estadística han de decidir con arreglo a consideraciones estrictamente profesionales, incluidos los principios científicos y la ética profesional, acerca de los métodos y procedimientos para la reunión, el procesamiento, el almacenamiento y la presentación de los datos estadísticos.

  1. Responsabilidad y transparencia: Para facilitar una interpretación correcta de los datos, las Oficinas de Estadística han de presentar información conforme a normas científicas sobre las fuentes, métodos y procedimientos de la estadística.

  1. Uso de patrones internacionales: La utilización por las Oficinas de Estadística de cada país de conceptos, clasificaciones y métodos internacionales fomenta la coherencia y eficiencia de los sistemas estadísticos a nivel oficial.

El Código de Buenas Prácticas de las Estadísticas Europeas es más exhaustivo respecto al conjunto de principios relacionados con la objetividad política y científico-técnica:

  1. Independencia profesional. La independencia profesional de las autoridades estadísticas frente a otros departamentos y organismos políticos, reguladores o administrativos, y frente a los operadores del sector privado, garantiza la credibilidad de las estadísticas europeas.

  1. Imparcialidad y objetividad. Las autoridades estadísticas desarrollan, elaboran y difunden estadísticas europeas respetando la independencia científica y de forma objetiva, profesional y transparente, de modo que todos los usuarios reciben el mismo trato.

  1. Metodología sólida. Las estadísticas de calidad se apoyan en una metodología sólida, que requiere herramientas, procedimientos y conocimientos adecuados.

  1. Procedimientos estadísticos adecuados. Las estadísticas de calidad se apoyan en procedimientos estadísticos adecuados, aplicados desde la recogida de los datos hasta la validación de los mismos.

  1. Precisión y fiabilidad. Las estadísticas europeas reflejan la realidad de manera precisa y fiable.

  1. Coherencia y comparabilidad. Las estadísticas europeas son consistentes internamente a lo largo del tiempo y comparables entre regiones y países; es posible combinar y utilizar conjuntamente datos relacionados procedentes de fuentes diferentes.

Revisando los principios y considerando que las fuentes Big Data, tal como hemos señalado anteriormente, en buena medida son de origen privado y que además no están diseñadas para fines estadísticos, se pueden dar algunos problemas que las Oficinas Estadísticas deben saber abordar. Por ejemplo:

  1. Desconfianza de la ciudadanía en los resultados estadísticos, como producto de su desconfianza en las empresas cedentes de los datos y en la no manipulación de los mismos por parte de dichas empresas a favor de sus intereses económicos, o la ruptura de los acuerdos de cesión si los datos no les son favorables. En definitiva no es más que una nueva figura de desconfianza sobre la  independencia profesional de la Oficinas Estadísticas frente a los operadores del sector privado.

  1. Dificultad para armonizar distintas fuentes con diferentes objetivos, con la finalidad de poder proporcionar datos comparables entre regiones y países; y consistentes internamente a lo largo del tiempo.

  1. Problemas metodológicos no triviales, al estar habitualmente ante grandes volúmenes de datos que no son datos censales, sino en todo caso muestras de una población o más genéricamente de eventos de una población. Por lo tanto nos encontramos ante la suma de las dificultades metodológicas producto de muestras no probabilísticas, a las que se deben sumar los problemas habituales de las estadísticas basadas en registros administrativos.

3. Los retos a los que se enfrenta la estadística pública

3.1. La respuesta de la estadística pública

En 2010, la Oficina de la Conferencia de Estadísticos Europeos creó el Grupo de Alto Nivel Modernisation of Statistical Production and Services (HLG) para supervisar y coordinar el trabajo internacional sobre modelos de negocio dentro de las oficinas de estadística. Dentro de este grupo se formó un equipo de trabajo de expertos, coordinados por la Secretaría de la UNECE, con el objetivo de producir un documento que explicara los problemas relacionados sobre el uso del Big Data por las Oficinas Estadísticas.

El Grupo de Trabajo publicó en marzo de 2013 el documento What does “Big Data” for Official Statistics? que es el primer documento estratégico que analiza los principales desafíos en materia de legislación, privacidad, cuestiones financieras, gestión,  metodologías y tecnología y que además ofrece algunas recomendaciones básicas para las Oficinas de Estadística. El documento señala desde un primer momento que la recolección de datos de fuentes Big Data y su incorporación al proceso de producción de estadísticas no es tarea fácil, y en ese sentido intenta abordar dos cuestiones elementales:

  1. En qué conjuntos de datos deben centrar su atención las Oficinas de Estadística.

  1. Cómo una Oficina de Estadística puede utilizar la fuentes Big Data y los retos asociados a su uso.

En esta dirección, la Comisión de Estadística de Naciones Unidas acordó, en su 45ª sesión de marzo de 2014, crear el Grupo de Trabajo Global (GTG) sobre Big Data y  Estadísticas Oficiales. Este grupo de trabajo nació tras la celebración del seminario previo a la 44ª sesión de la Comisión de Estadística en 2013 sobre Big Data for Policy, Development and Official Statistics. En este seminario oradores del sector privado y de Oficinas de Estadística llegaron a la conclusión de que las fuentes Big Data constituyen una fuente de información que no puede ser ignorada por la estadística pública y que los estadísticos oficiales debían organizarse y tomar medidas urgentes para explotar las posibilidades y abordar los retos asociados con eficacia.

Con la aprobación del grupo de trabajo, la comunidad estadística internacional reconoce el potencial de las fuentes Big Data para las estadísticas oficiales. Las labores del grupo y sus comisiones de trabajo se han ido complementando con seminarios y conferencias internacionales, hasta la fecha han sido los siguientes:

2014 Octubre (Beijing) - International Conference on Big Data for Official Statistics
2015 Marzo (Nueva York) - Big Data Seminar at the 46th UN Statistical Commission
2015 Octubre (Abu Dhabi) - 2nd Global International Conference on Big Data for Official Statistic
2016 Septiembre (Dublin) - 3rd Global International Conference on Big Data for Official Statistics


El nacimiento del Grupo de Trabajo Global de Naciones Unidas vino precedido por el Scheveningen Memorandum sobre Big Data and Official Statistics adoptado por el European Statistical System Committee (ESSC). Los acuerdos incluidos en el memorandum son los siguientes:

  1. Reconocimiento. Reconocer que el Big Data representa nuevas oportunidades y desafíos para las estadísticas oficiales, y por lo tanto animar al Sistema Estadístico Europeo y sus socios a examinar el potencial del Big Data en ese sentido.

  1. Necesidad de estrategia. Reconocer que el Big Data es un fenómeno que está afectando a muchos ámbitos. Por tanto, es esencial desarrollar una “Estrategia de estadísticas oficiales basadas en Big Data” y examinar el lugar y las interdependencias de esta estrategia en el contexto más amplio de una estrategia global del gobierno a nivel nacional, así como a nivel de la UE.

  1. Legislar el acceso de datos. Reconocer las implicaciones del Big Data en la legislación de protección de datos y derechos de las personas (por ejemplo, acceso a fuentes de datos en poder de terceros), implicaciones que deben ser abordadas apropiadamente como un asunto prioritario.

  1. Compartir experiencias. Tener en cuenta que varios institutos nacionales de estadística están iniciando actualmente o considerando los diferentes usos del Big Data en un contexto nacional. Es necesario compartir las experiencias obtenidas en los proyectos Big Data concretos y colaborar dentro del Sistema Estadístico Europeo y a escala internacional.

  1. Formación. Reconocer que el desarrollo de las capacidades y habilidades necesarias para explorar con eficacia los Big Data es esencial para su incorporación en el Sistema Estadístico Europeo. Esto requiere esfuerzos sistemáticos, con cursos de formación adecuados y el establecimiento de comunidades de intercambio de experiencias y buenas prácticas.

  1. Cooperación. Reconocer el carácter multidisciplinar del Big Data, lo que requiere sinergias y asociaciones entre los expertos y las partes interesadas de diversos dominios, incluyendo gobierno, universidades y titulares de las fuentes de datos privadas.

  1. Innovación metodológica y tecnológica.. Reconocer que el uso de grandes volúmenes de datos en el contexto de las estadísticas oficiales requiere nuevos desarrollos metodológicos, de evaluación de la calidad y de abordaje de los problemas tecnológicos relacionados. El Sistema Estadístico Europeo debería hacer un esfuerzo especial para apoyar esos desarrollos.

  1. Plan de acción. Los Directores coinciden en la importancia de dar seguimiento a la implementación del memorando, y por lo consideran que es necesario adoptar un plan de acción y plan de trabajo del Sistema Estadístico Europeo para el uso de fuentes Big Data.

La European Statistical System - Vision 2020 es una respuesta estratégica común del Sistema Estadístico Europeo a los desafíos a lo que se enfrentan las estadísticas oficiales. En ella se identifica como uno de los elementos clave para el sistema la incorporación de nuevas fuentes de datos, en ese aspecto el sistemas se visiona para el 2020 de la siguiente manera:

“Basamos nuestros productos y servicios estadísticos en encuestas tradicionales y nuevas fuentes, incluyendo datos administrativos, geoespaciales y, cuando sea posible, fuentes Big Data. Las nuevas fuentes de datos complementan las ya existentes y nos ayudan a mejorar la calidad de nuestros productos. Vamos a trabajar juntos para conseguir el acceso a nuevas fuentes de datos, crear métodos y encontrar la tecnología adecuada con el fin de utilizar nuevas fuentes de datos para elaborar estadísticas europeas de una manera fiable.”

La necesidad de elaborar un plan de acción fue uno de los elementos considerados en la convocatoria del 2014 ESS Big Data Event: Big Data in Official Statistics. Posteriormente en la 22ª Sesión del European Statistical System Committee (ESSC) se aprobó el documento Big Data Action Plan and Roadmap 1.0 en el que se se plantea una visión para 2020 y post-2020.

3.2. Los retos identificados por la estadística pública

Como resumen podríamos decir que es evidente que el desafío del uso de datos de fuentes Big Data dentro de la estadística pública significa necesariamente la modernización de las Oficinas Estadísticas. Ese desafío requiere al abordaje de diferentes retos, que sintéticamente podemos resumir en los siguientes puntos:

Estrategia: Es necesario definir cómo integrar las nuevas fuentes Big Data en la actividad de las Oficinas Estadísticas. Esta estrategia puede estar dirigida tanto a la integración de las nuevas fuentes en la producción habitual de las Oficinas, como en la identificación de nueva información estadística basada en dichas fuentes.

Acceso: Existe un debate intenso sobre los datos, su propiedad y el derecho de acceso para fines públicos. Si bien la legislación estadística puede obligar a facilitar el acceso a las Oficinas Estadísticas, esta capacidad tendrá que convivir en la tensión de intereses público-privado contrapuestos; tensión que necesitará de espacios de cooperación con los proveedores.

Privacidad: La datificación de buena parte de nuestras vidas genera actitudes diversas en la opinión pública sobre el derecho a la intimidad. Sin embargo cuando se trata de gran acumulación de datos por parte del Estado la confidencialidad, proporcionalidad y fin de los mismos pasan a ser una importante preocupación ciudadana. En ese sentido existe el peligro de que entre la sociedad se genere una visión de las Oficinas de Estadísticas como instituciones orwellianas.

Por otra parte, la generación de gran cantidad de datos a gran velocidad pone sobre la mesa nuevos retos tecnológicos para cumplir el mandato del deber de secreto estadístico, que impide que a través de la información publicada por las Oficinas Estadísticas se pueda identificar directa o indirectamente a las unidades de observación.

Calidad: La dimensiones de evaluación de la calidad de las fuentes Big Data para su integración en la actividad de las Oficinas Estadísticas deben ser identificadas, especialmente debido a que son datos recopilados para fines no estadísticos.

Metodología: Con las fuentes Big Data nos encontramos ante la dificultad de datos recopilados para fines no estadísticos, por lo tanto estamos ante problemas similares a los planteados con los registros administrativos, al menos en lo que respecta a los conceptos usados en la recolección de datos y su relación con las definiciones internacionalmente armonizadas. Además muchas de las fuentes Big Data son muestras, con el problema añadido de ser muestras no probabilísticas y posiblemente sesgadas por el método o por las cuotas de mercado del agente recolector.

Tecnología: La incorporación de fuentes Big Data a la actividad estadística requerirá de la incorporación de tecnología Big Data a las Oficinas Estadísticas. Definir arquitecturas, hardware y software requeridos es uno de los retos que debe ser abordado.

Formación: El desarrollo de las capacidades y habilidades necesarias para explorar con eficacia los Big Data es esencial para su incorporación a la actividad de la Oficinas Estadísticas. Esto requiere esfuerzos sistemáticos, como cursos de formación adecuados y el establecimiento de comunidades de intercambio de experiencias y buenas prácticas.

Bibliografía


Big Data Value Europe. “European Big Data Value Strategic Research & Innovation Agenda.” Big Data Value Association, January 2015. http://www.bdva.eu/sites/default/files/europeanbigdatavaluepartnership_sria__v1_0_final.pdf#overlay-context=downloads%26page%3D1%3Fq%3Ddownloads%26page%3D1.

Big Data Value Europe. “European Big Data Value Strategic Research & Innovation Agenda.” Big Data Value Association, January 2016. http://www.bdva.eu/sites/default/files/EuropeanBigDataValuePartnership_SRIA__v2.pdf.

Borgman, Christine L. Big Data, Little Data, No Data: Scholarship in the Networked World. Cambridge, Massachusetts: The MIT Press, 2015.

Caballero Roldán, Rafael, and Enrique Martín Martín. Las bases de Big Data. Madrid: Los Libros de la Catarata : Universidad Complutense de Madrid, 2015.

Cavallo, A. Scraped Data and Sticky Prices: Frequency, Hazards, and Synchronization [recurso Electrónico]. Harvard University, 2009. https://books.google.es/books?id=3r_-ZwEACAAJ.

Cavallo, A. “Online and Official Price Indexes: Measuring Argentina’s Inflation.” Journal of Monetary Economics 60, no. 2 (2013): 152–65. doi:http://dx.doi.org/10.1016/j.jmoneco.2012.10.002.

Conference of European Statisticians. “What Does ‘Big Data’ Mean for Official Statistics?” UNECE, March 10, 2013. http://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx?version=1&modificationDate=1362939424184.

Eurostat. “European Statistical System - Vision 2020.” Eurostat. Accessed November 6, 2016. http://ec.europa.eu/eurostat/documents/10186/756730/ESS-Vision-2020.pdf/8d97506b-b802-439e-9ea4-303e905f4255.

Klein, Thilo, Johannes Jütting, and Nicholas Robin. “Public-Private Partnerships for Statistics: Lessons Learned, Future Steps.” OECD Development Co-operation Working Papers, February 29, 2016. http://www.oecd-ilibrary.org/development/public-private-partnerships-for-statistics-lessons-learned-future-steps_5jm3nqp1g8wf-en.

Letouzé, E. “Big Data for Development: Challenges & Opportunities.” UN Global Pulse, May 2012. http://www.unglobalpulse.org/sites/default/files/BigDataforDevelopment-UNGlobalPulseJune2012.pdf.

Maeztu, David. “La ilegalidad de usar los datos del móvil para completar el censo.” Del derecho y las normas. Accessed May 4, 2016. http://derechoynormas.blogspot.com.es/2016/03/la-ilegalidad-de-usar-los-datos-del.html?spref=tw.

Mayer-Schönberger, Viktor, and Kenneth Cukier. Big Data: A Revolution That Will Transform How We Live, Work, and Think. Boston: Houghton Mifflin Harcourt, 2013.

Morozov, Evgeny. La locura del solucionismo tecnológico. Madrid; Móstoles, Madrid; Buenos Aires: Clave Intelectual ; Katz, 2015.

Piet Daas, Saskia Ossen, Rachel Vis-Visschers, and Judit Arends-Tóth. “Checklist for the Quality Evaluation of Administrative Data Sources.” Discussion Paper. The Hague/Heerlen: Statistics Netherlands, 2009. http://ec.europa.eu/eurostat/documents/64157/4374310/45-Checklist-quality-evaluation-administrative-data-sources-2009.pdf/24ffb3dd-5509-4f7e-9683-4477be82ee60.

Reimsbach-Kounatze, Christian. “The Proliferation of ‘Big Data’ and Implications for Official Statistics and Statistical Agencies.” OECD Digital Economy Papers, January 12, 2015. http://www.oecd-ilibrary.org/science-and-technology/the-proliferation-of-big-data-and-implications-for-official-statistics-and-statistical-agencies_5js7t9wqzvg8-en.

Struijs, Peter, Barteld Braaksma, and Piet JH Daas. “Official Statistics and Big Data.” Big Data & Society 1, no. 1 (June 10, 2014). doi:10.1177/2053951714538417.

UNECE Big Data Quality Task Team. “A Suggested Big Data Quality Framework.” UNECE, December 2014.

United Nations. Manual de Organización Estadística. El Funcionamiento y la Organización de una Oficina de Estadística. New York: United Nations Publications, 2005. http://www.cepal.org/publicaciones/xml/7/15497/lcw6e.pdf.

Unión Europea. Directiva 2013/37/EU del Parlamento Europeo y del Consejo de 26 de Junio, por la que se modifica la Directiva 2003/98/EC relativa a la reutilización de la información del sector público. Accessed February 20, 2016. http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=OJ:L:2013:175:0001:0008:ES:PDF.

Wallgren, Anders, and Britt Wallgren. Register-Based Statistics: Administrative Data for Statistical Purposes. Wiley Series in Survey Methodology. Chichester, England ; Hoboken, NJ: John Wiley & Sons Ltd, 2007.