Buscar en este blog y otros asociados

viernes, 25 de septiembre de 2015

El Sistema de Información Turística de Canarias en el contexto Smart Destination

De acuerdo con la definición de la International Network on Regional Economics, Mobility and Tourism (INRouTe) el diseño adecuado de un Regional Tourism Information System (R-TIS) estaría justificado bajo dos condiciones: la importancia del turismo en la región y la disponibilidad de un conjunto básico de fuentes estadísticas nacionales, debido al hecho de que su diseño -según lo recomendado por INRouTe- es muy exigente datos.

En este artículo hago un pequeño acercamiento a la estrategia de desarrollo del sistema regional de estadísticas de turismo de Canarias, situándola en el contexto de la necesidad de gestión de los destinos turísticos para la constitución de lo que se ha venido a llamar Smart Destinations. El artículo no es más que un relato a la presentación utilizada en la difusión de dicha estrategia; para el cual he reutilizado buena parte de la documentación aportada a la Organización Mundial del Turismo (OMT) para la elaboración del manual internacional de recomendaciones en la elaboración de R-TIS.




R-TIS de Canarias


El sector turístico es de vital importancia para la economía de las Islas Canarias. Los resultados que arroja la Cuenta Satélite de Turismo de 2002, elaborada por el Instituto Canario de Estadística (ISTAC), señalan que el turismo que visita las islas genera el 32% del PIB de Canarias y el 30% de los puestos de trabajo. Al comparar las cifras obtenidas con la información suministrada por la Organización Mundial del Turismo (OMT) sobre ingresos por turismo en el año 2003, Canarias se encuentra entre los primeros quince países, ocupando de la undécima a la decimoquinta posición en función de la medida utilizada. Países como Grecia, Canadá o México y regiones como América del Sur obtienen ingresos por turismo similares a Canarias. En ese mismo sentido, de acuerdo con las cifras aportadas por Eurostat, en el documento Tourism statistics at regional level, Canarias fue la región europea que en 2012 lideró el número de pernoctaciones en establecimientos de alojamiento turístico, alcanzando los 87,5 millones de noches.


Hasta hace muy poco tiempo los países y regiones con un sistema estadístico desarrollado aportaban datos muy pobres sobre el turismo. La información se reducía a cifras de entradas y salidas de viajeros, número de pernoctaciones, gasto realizado por los turistas extranjeros, etc. Estos indicadores eran a todas luces insuficientes para describir y analizar el turismo en una región o para comparar cifras entre regiones o países. Ante esta situación, varios organismos internacionales, destacando la Organización Mundial del Turismo  (OMT) y la Oficina Estadística de la Comisión de las Comunidades Europeas (Eurostat), han publicado varios manuales de referencia para el desarrollo de las estadísticas turísticas nacionales.

El Instituto Canario de Estadística (ISTAC), tomando como referencia las citadas recomendaciones internacionales, ha desarrollado su estrategia investigadora con la finalidad de ofrecer más y mejor información en materia turística regional. Sin embargo, las administraciones y agentes económicos, solicitan información con mayor grado de especialización y desagregación territorial para poder abordar tanto las actividades de promoción turística como los planes excelencia turística a nivel micro.

En ese sentido el R-TIS del Gobierno de Canarias se enfoca no solo en aportar datos macroeconómicos turísticos regionales, sino en ofrecer datos para la gestión del destino turístico en todas sus dimensiones, como input necesario para la conformación de Canarias como destino turístico inteligente; entendiendo por destino turístico inteligente aquel destino que es innovador, consolidado sobre una infraestructura tecnológica de vanguardia, que garantiza el desarrollo sostenible del territorio turístico, accesible para todos, que facilita la interacción e integración del visitante en el entorno e incrementa la calidad de su experiencia en el destino. Asimismo el R-TIS de Canarias está alineado con las prioridades de la Estrategia de Especialización Inteligente de Canarias 2014-2020 que apuesta por el liderazgo inteligente del turismo, enumerando dos objetivos generales: (1) Mejora de la competitividad y productividad del producto turístico canario; (2) Diversificación productiva de la economía basada en el turismo. 

Componentes del R-TIS de Canarias


El R-TIS de Canarias se compone de diferentes operaciones estadísticas. Estas operaciones combinan diferentes métodos de recogida de datos: encuestas, censos y registros administrativos; sin descartar nuevos métodos como son los de sensorización u otras fuentes conocidas como BigData. Una clasificación de las operaciones estadísticas según dimensiones de análisis y métodos de recogida la encontramos en la siguiente tabla:

Operaciones estadísticas
Métodos de recogida de datos
Operaciones de demanda turística
Encuestas / Registros administrativos
Operaciones de oferta turística
Censos / Registros administrativos / Sensores
Operaciones sobre empleo turístico
Registros administrativos
Operaciones de síntesis
Información secundaria

Como comentaba anteriormente, el R-TIS está dirigido no sólo a ofrecer cifras macroeconómicas del turismo en Canarias sino principalmente a resolver diferentes preguntas que se plantean en la gestión de un destino turístico en todas sus dimensiones, tales como: ¿Dónde obtienen información los turistas y qué les motiva a viajar a Canarias? ¿qué canales de compra utilizan? ¿cómo viajan y qué tipo de compañía utilizan? ¿dónde se alojan y qué determina su elección? ¿qué actividades realizan en el destino y cómo se mueven en el destino? ¿cuánto se gastan los turistas y excursionistas y cómo se distribuye ese gasto? ¿qué imagen del destino tienen los turistas y cómo la proyectan a terceros? ¿cómo valoran los turistas el destino y cuántos lo recomendarían? ¿cuál es la presión del turismo sobre el entorno social y ambiental?. 

Para responder a muchas de estas preguntas se necesita desplegar un conjunto amplio de instrumentos de captación de datos, instrumentos en constante mejora y expansión que conforman un R-TIS de Canarias que se desarrolla de acuerdo a las recomendaciones internacionales:

  • Incluye información estadística que se obtiene como desagregación de las operaciones oficiales llevadas a cabo con cobertura nacional. 
  • Incluye operaciones estadísticas oficiales llevadas a cabo por los organismos regionales.
  • Esta abierto a incluir datos de un tercer grupo de operaciones, no necesariamente de carácter oficial, como el consumo de electricidad en los hogares, registros de gastos de tarjetas de crédito, control de las autoridades de transporte, indicadores del ciclo económico, indicadores de alerta temprana, etc.

Una relación detallada del conjunto de operaciones estadísticas, tanto principales como secundarias, y las diferentes dimensiones de análisis se pueden consultar en un anexo al final del artículo. Todo este conjunto de operaciones tiene dos características principales:

  • Alta capacidad de desagregación territorial de los datos, pudiendo ofrecer información inframunicipal, como por ejemplo aportar datos para lo que hemos denominado microdestinos turísticos.
  • Integración de las operaciones y coherencia de los datos aportados.

Imagen 1. R-TIS de Canarias, con alta capacidad de desagregación territorial, integrado y coherente.

 


R-TIS: Sistema integrado

Las diferentes operaciones estadísticas del R-TIS se vinculan con el elemento central del sistema que es el Directorio de Alojamientos Turísticos Colectivos de Canarias (ALOJATUR) debidamente georeferenciado. Este directorio se elaboró inicialmente a través de fuentes administrativas, pero posteriormente se ha mantenido complementariamente con información aportada por las operaciones estadísticas de demanda -a través de las cuales se detectan ofertas no registradas oficialmente o cambios de categorías respecto a la oferta oficializada- así como con las propias operaciones estadísticas de oferta -a través de las fuentes administrativas se detectan ofertas no registradas por la Oficina Autonómica de Turismo, y mediante las encuestas se detectan cambios no oficializados de plazas-.

Imagen 2. Ejemplo de georeferenciación de ALOJATUR en la Infraestructura de Datos Espaciales de Canarias (IDECanarias)

La vinculación de las principales operaciones estadísticas de demanda con ALOJATUR se realizada incluyendo en los cuestionarios una pregunta de identificación del alojamiento turístico colectivo en el que ha pernoctado el turista encuestado. A través de dicha pregunta se consiguen identificar los alojamientos turísticos no incluidos en el directorio, y a su vez permite georeferenciar las encuestas; para con ello ofrecer información desde la perspectiva de la demanda turística por municipios o por microdestinos. 

Por parte de las operaciones estadísticas de oferta, la relación con ALOJATUR se realiza de forma directa para las encuesta de alojamiento y a través de los números de identificación fiscal para las estadísticas de empresas así como para las de empleo. Todas estas operaciones ofrecen información de todas las unidades de análisis, al recoger datos por métodos censales o a través de registros administrativos, lo que facilita la desagregación territorial de los datos. 

Asimismo, el sistema de operaciones aporta información integrada y coherente. Así por ejemplo los datos de pasajeros en puertos y aeropuertos son coherentes con los de número de turistas y éstos a su vez son coherentes con los datos de viajeros alojados en establecimientos alojativos. En esa misma línea los datos de empleo aportados por los establecimientos alojativos son coherentes con las fuentes administrativas.


Anexo. Relación detalla de las operaciones principales y secundarias del R-TIS de Canarias


Las actividades estadísticas, tanto principales como secundarias, que en la actualidad están en la hoja de ruta del R-TIS de Canarias son las que se detallan en el siguiente cuadro:

RELACIÓN DE OPERACIONES PRINCIPALES Y SECUNDARIAS DEL R-TIS DE CANARIAS.
Operación estadística
Método de recogida de datos
Dimensiones de análisis
Desagregaciones temporales y espaciales
DEMANDA
Encuesta de Seguimiento de la Marca Turística de Canarias (TRACKING-Canarias)
Encuesta
Mercado turístico
Posición de la marca turística de Canarias
Aperiódica

Canarias, 20 mercados emisores
Recopilación de Estadísticas de Transporte Aéreo

Recopilación de Estadísticas de Transporte Marítimo
Registros administrativos
Pasajeros
Cruceristas
Meses

Islas, aeropuertos, puertos
Encuesta de Movimientos Turísticos en Fronteras de Canarias (FRONTUR-Canarias)
Encuesta mensual
Turistas
Turistas (proyecciones)
Excursionistas
Cruceristas
Meses, años

Islas
Encuesta sobre Gasto Turístico
Encuesta mensual
Gasto turístico
Perfil
Satisfacción
Características del viaje
Módulos anuales específicos (compras, turismo activo, turismo deportivo, turismo de salud, etc)
Meses, trimestres, años

Microdestinos, municipios turísticos, islas
OFERTA
Encuesta de Alojamiento Turístico en Establecimientos Hoteleros

Encuesta de Alojamiento Turístico en Establecimientos Extrahoteleros
Censo, todos los establecimientos, todos los días

Sensores
Ocupación (viajeros entrados, viajeros alojados, estancias medias, tasas de ocupación)
Precios (ADR, RevPar, Ingresos)
Empleo
Población turística equivalente
Uso del suelo
Energía
Agua
Residuos
Renovación alojativa
Infraestructuras Equipamientos
Servicios
Días, periodos especiales, meses, años

Microdestinos, municipios turísticos, islas
Encuesta de Expectativas Hoteleras
Censo, todos los establecimientos
Confianza
Expectativas
Situación
Trimestres

Islas
Estadística de Empresas Inscritas a la Seguridad Social (empresas turísticas)
Registro administrativo, último día del trimestre
Empresas con trabajadores en actividades características del turismo
Trimestres

Municipios, islas
Directorio de Unidades Económicas de Canarias (DUE)

Directorio de Alojamiento Turístico Colectivo (ALOJATUR)
Censo elaborado por métodos combinados
Empresas y establecimientos en actividades características del turismo
Mes, año

Georeferenciado
EMPLEO
Estadística de Afiliación a la Seguridad Social
Registro administrativo, último día del trimestre
Empleo registrado
Trimestres

Municipios, islas
Estadística de Movimiento Laboral Registrado
Registro administrativo, último día del mes
Paro registrado
Contratos registrados
Mes

Municipios, islas
SINTESIS
Indicador Sintético de Actividad Turística
Información secundaria
Indicadores
Trimestre

Islas
Sistema de Indicadores de Coyuntura Turística
Información secundaria
Indicadores
Trimestre

Municipios, islas
Cuenta Simplificada del Turismo
Información secundaria
VAB
PIB
Empleo
Aperiódica

Canarias

sábado, 19 de septiembre de 2015

El Scheveningen Memorandum sobre Big Data y estadística oficial


El Scheveningen Memorandum sobre "Big Data and Official Statistics"  fue adoptado por el European Statistical System Committee (ESSC), el 27 de septiembre de 2013. En el memorando, la Conferencia de Directores Generales de Institutos Nacionales de Estadística (DGINS) reconoce que las fuentes de datos Big Data representan nuevas oportunidades y retos para las estadísticas oficiales y anima al Sistema Estadístico Europeo y sus socios a examinar el potencial de dichas fuentes. Los acuerdos incluidos en el memorandum son los siguientes:

RECONOCIMIENTO

Reconocer que el Big Data representa nuevas oportunidades y desafíos para las estadísticas oficiales, y por lo tanto fomentar al Sistema Estadístico Europeo y sus socios a examinar efectivamente el potencial del BIG DATA en ese sentido.  

NECESIDAD DE ESTRATEGIA

Reconocer que Big Data es un fenómeno que está afectando a muchos ámbitos. Por tanto, es esencial desarrollar una “Estrategia de estadísticas oficiales basadas en Big Data” y examinar el lugar y las interdependencias de esta estrategia en el contexto más amplio de una estrategia global del gobierno a nivel nacional, así como a nivel de la UE. 

LEGISLAR EL ACCESO A DATOS

Reconocer las implicaciones del Big Data en la legislación de protección de datos y derechos de la persona (por ejemplo, acceso a fuentes de datos en poder de terceros), implicaciones que deben ser abordadas apropiadamente como un asunto prioritario.

COMPARTIR EXPERIENCIAS

Tener en cuenta que varios institutos nacionales de estadística están iniciando actualmente o considerando los diferentes usos del Big Data en un contexto nacional. Es necesario compartir las experiencias obtenidas en los proyectos Big Data concretos y colaborar dentro de la ESS y a escala internacional.

FORMACIÓN

Reconocer que el desarrollo de las capacidades y habilidades necesarias para explorar con eficacia los Big Data es esencial para su incorporación en el Sistema Estadístico Europeo. Esto requiere esfuerzos sistemáticos, como los cursos de formación adecuados y el establecimiento de comunidades dedicadas para el intercambio de experiencias y mejores prácticas.

COOPERACIÓN

Reconocer el carácter multidisciplinar del Big Data, lo que requiere sinergias y asociaciones entre los expertos y las partes interesadas de diversos dominios, incluyendo gobierno, universidades y titulares de las fuentes de datos privadas.

INNOVACIÓN METODOLÓGICA

Reconocer que el uso de grandes volúmenes de datos en el contexto de las estadísticas oficiales requiere nuevos desarrollos metodológicos, de evaluación de la calidad y de abordaje de los problemas IT relacionados. EL Sistema Estadístico Europeo debería hacer un esfuerzo especial para apoyar esos desarrollos.

PLAN DE ACCIÓN

Coinciden en la importancia de dar seguimiento a la implementación de este memorando, y por lo tanto se adopta un plan de acción y plan de trabajo del SEE.


domingo, 6 de septiembre de 2015

El viejo problema del BIG DATA en la estadística pública

De acuerdo con la Wikipedia, Big Data o Datos masivos es un concepto que hace referencia a la acumulación masiva de datos y a los procedimientos usados para identificar patrones recurrentes dentro de esos datos. También según la Wikipedia, la disciplina dedicada a los datos masivos se enmarca en el sector de las tecnologías de la información y la comunicación. Esta disciplina se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos. Las dificultades más habituales vinculadas a la gestión de estas cantidades de datos se centran en la captura, almacenamiento, búsqueda, compartición, análisis, y visualización.

Tal como afirma el diario ElEconomista.es en su artículo La moda del Big Data: ¿En qué consiste en realidad? escrito por José Carlos López López:
Big Data es uno de los conceptos de moda en el mundo informático (...). Sin embargo, observamos una gran confusión sobre "en qué consiste realmente". Empecemos entonces por tratar de aclarar "qué es Big Data".
Denominamos Big Data a la gestión y análisis de enormes volúmenes de datos que no pueden ser tratados de manera convencional, ya que superan los límites y capacidades de las herramientas de software habitualmente utilizadas para la captura, gestión y procesamiento de datos.

El problema viene de viejo, por lo menos desde 1880


Como vemos el término Big Data está de moda, sin embargo el problema de gestión de grandes volúmenes de datos es un problema al que se ha tenido que enfrentar la estadística pública desde hace muchos años. En ese sentido no es un problema nuevo, y el camino de la solución siempre ha sido tecnológico.

En 1880 comenzó a realizarse el censo en EEUU y debido a la cantidad de personas que lo formaba tardó 8 años en finalizarse, incluso habían variables que no se llegaron a tabular. Por este motivo, la US Census Bureau llevó a cabo un concurso en 1888 para encontrar un método más eficiente para procesar y tabular el gran volumen de datos que recopilaba. Se pidió a los concursantes que procesaran los datos del censo de 1880 de cuatro áreas en St Louis, MO, de tal manera que quien capturara y procesara los datos más rápido ganaría un contrato para el censo de 1890.

Tres concursantes aceptaron el reto de la US Census Bureau. Los dos primeros concursantes capturaron los datos en 144,5 horas y 100,5 horas respectivamente. El tercer contendiente, un exempleado de la US Census Bureau llamado Herman Hollerith, completó el proceso de captura de datos en 72,5 horas. A continuación, los participantes tuvieron que demostrar que sus diseños podrían preparar los datos para la tabulación (es decir tabular los datos por categorías de edades, razas, sexos, etc.). Dos de los concursantes necesitaron 44,5 horas y 55,5 horas respectivamente, en cambio Hollerith asombró a los funcionarios de la US Census Bureau al completar la tarea en tan sólo 5,5 horas.

Los impresionantes resultado de Herman Hollerith le supuso que el Gobierno de los Estados Unidos seleccionara su máquina tabuladora (considerada por algunos como la primera computadora) para elaborar el censo de 1890. Se tardaron sólo 3 años en perforar unos 56 millones de tarjetas. Esto permitió que el censo de ese país se realizara de una manera más fácil. Versiones modificadas de su tecnología se usaron en la oficina del censo americano hasta su sustitución por las computadoras en la década de 1950.

Herman Hollterith, las tarjetas perforadas e IBM

En 1885 Herman Hollerith construye la máquina censadora o tabuladora, que por medio de tarjetas perforadas reducía el tiempo de realización del censo.

Herman Hollerith (1860-1929) trabajó brevemente para la US Census Bureau en el período previo al censo de 1880. Esta experiencia, junto con algunos consejos de mentor de John Shaw Billings, lo convenció de que la US Census Bureau necesitaba desesperadamente una alternativa al conteo manual para tabular los datos del censo. Hollerith fue capaz de inventar un dispositivo que hizo exactamente eso: una tabuladora eléctrica.

Hollerith observó que la mayor parte de las preguntas contenidas en los censos se podían contestar con un SÍ o un NO. Entonces ideó una tarjeta perforada, una cartulina en la que, según estuviera perforada o no en determinadas posiciones, se contestaba este tipo de preguntas. La tarjeta tenía 80 columnas. Hollerith patentó su máquina en 1889, un año después incluyó la operación de sumar con el fin de utilizarla en la contabilidad de los Ferrocarriles Centrales de Nueva York.

En 1896, Hollerith fundó la empresa Tabulating Machine Company, con el fin de explotar comercialmente su invento. En 1911, dicha compañía se fusionó con Computing Scale Company, International Time Recording Company y Bundy Manufacturing Company, para crear la Computing Tabulating Recording Corporation (CTR). El 14 de febrero de 1924, CTR cambió su nombre por el de International Business Machines Corporation (IBM).

El permanente problema de tabular un censo como motor de la tecnología de procesamiento de datos

A medida que la población de Estados Unidos crece, la US Census Bureau ha buscado continuamente estrategias para mejorar la velocidad y la precisión del proceso de levantamiento de censos. Cuando los Estados Unidos contaban con 3,9 millones de residentes en el primer censo en 1790, el gran volumen de trabajo de tabular a mano los resultado era uno de los mayores retos. A medida que el país creció, también lo hizo el desafío. Cuando contar los resultados del censo se hizo tan largo que casi duraba una década, la búsqueda de soluciones condujo necesariamente a la creación de la moderna tecnología de procesamiento de datos.

El primer dispositivo para acelerar el conteo del censo fue creado en 1872 por el Oficial Mayor del Censo Charles W. Seaton. La máquina utilizaba rodillos para sumar las pulsaciones de teclado introducidas manualmente. Sin embargo, incluso con la máquina Seaton el censo se llevó casi la década completa para su procesamiento.

Tal como conté anteriormente en 1888 la US Census Bureau celebró un concurso para encontrar la manera más eficiente para procesar y tabular tdatos. El tabulador electrónico de Herman Hollerith resultó vencedor en la captura y procesamiento mediante la lectura de los agujeros en tarjetas perforadas. Con este tabulador los empleados del censo podían transferir la información de los cuestionarios censales a tarjetas perforadas, permitiendo la creación de cerca de 500 tarjetas perforadas al día.

La oficina del censo de EEUU mantuvo la actualización y el uso de los tabuladores electrónicos de Hollerith hasta el censo de 1950, cuando fueron reemplazados por UNIVAC I, el primer ordenador moderno instalado por una agencia del gobierno civil. Por lo tanto la US Census Bureau se convirtió en el primer cliente de civil de la computadora digital moderna. Construido por la Eckert-Mauchley Computer Corporation a un costo de $400,000, UNIVAC procesaba los datos a un ritmo muy por delante de las antiguas máquinas de Hollerith, con datos introducidos con cinta magnética.

En la década de 1970, la agencia americana desarrolló los ficheros Dual Independent Map Encoding (DIME) y el sistema TIGER diseñado en la década de 1980 sentó las bases para la industria de sistema de información geográfica de hoy.

viernes, 21 de agosto de 2015

Reflexiones sobre el análisis del turismo en España a partir de las transacciones con tarjeta


Esta semana BBVA ha presentado su estudio del turismo en España a partir de las transacciones con tarjetas. El BBVA ha analizado 5,4 millones de transacciones anonimizadas en un informe sobre el gasto de los turistas en España los meses de julio y agosto de 2014.

Los resultados del estudio se presentan en forma de visualización interactiva. En la nota de prensa se afirma que esta visualización de datos, basada en las transacciones con tarjeta procedentes por las TPVs de BBVA, proporciona una inédita cantidad de información y una resolución espacial -se dan datos por ciudades y regiones autonómicas- que no permiten las actuales metodologías basadas en encuestas.

Desde luego, el estudio de nuevas fuentes de datos es un camino a investigar por parte de la estadística pública, y en esa línea se viene trabajando por parte de la unidad de estadística de NNUU, y por supuesto desde Eurotat, tal como establece el Scheveningen Memorandum sobre Big Data and Official Statistics.

Si bien parece interesante e importante estudiar nuevas fuentes de datos para la estadística pública, también es imprescindible hacerlo desde la rigurosidad científica y administrativa que caracteriza la función pública estadística; lejos de las proclamas victoriosas de las grandes corporaciones poseedoras de datos o vendedoras de software. En ese sentido ya se han dado algunos pasos por parte de la comunidad estadística internacional, de tal manera que en abril de este año la Conferencia de Estadísticos Europeos ha publicado el informe Structuring risks and solutions in the use of big data sources for producing official statistics – Analysis based on a quality framework en el que se abordan los posibles riesgos y soluciones del uso de nuevas fuentes de datos (conocidas como fuentes Big Data, aunque algunas tienen poco de "big"); comenzando con el riesgo de disponibilidad de acceso a datos de fuentes no públicas.

Algunos de estos asuntos los presenté, en clave positiva pero crítica, en la jornada #BigDataCanarias. Esta presentación es previa al documento anteriormente señalado y puede consultarse en:



En la presentación menciono un estudio previo a la visualización ahora presentada por BBVA, con datos de 2012 tanto de Telefónica como de BBVA, denominado Big Data y Turismo: Nuevos indicadores para la gestión turística. En este documento se realizan algunas advertencias metodológicas que es bueno recordar para poder situar bien qué información nos ofrece esta fuente de datos:
Una característica a tener en cuenta es que el pago a través de tarjetas de crédito o débito supone una parte de los pagos totales realizados en un comercio, dado que aproximadamente el 50% del gasto en comercios se realiza mediante dinero en efectivo. Este porcentaje fluctúa, entre otros, en función de la categoría del comercio y su entorno, pero también por sesgos culturales inherentes a la nacionalidad del usuario. En este informe ninguno de los resultados presentados es una extrapolación para deducir el gasto total llevado a cabo por los turistas extranjeros, las cifras reflejadas son en todo caso las recabadas por los medios de pago electrónico BBVA, y no deben tomarse como cifras absolutas de gasto realizado por cualquier medio de pago. 
Esta nota metodológica es importante y refleja uno de los problemas que ya señalé en su momento en la presentación anteriormente indicada: BIG no es ALL, en todo caso es más; por lo tanto sólo reduce uno de los elementos del error cuadrático medio (ECM) que es la varianza, pero el método de recogida de datos puede afectar seriamente al otro componente: el sesgo (recordemos que ECM = varianza + sesgo^2 y que la varianza disminuye con el tamaño muestral, pero el sesgo puede aumentar debido a errores ajenos al muestreo).

En este mismo estudio también se indica cómo se han identificado a los turistas a través de las tarjetas, pero no se establece cómo relacionar esa identificación con el criterio internacional que permite establecer que un viajero es un turista (establecido por la Organización Mundial del Turismo):
Para distinguir turistas extranjeros de extranjeros expatriados residentes en nuestro país, sólo se han incluido en el dataset aquellas tarjetas extranjeras 
Asimismo, el estudio del gasto turístico realizado utilizando los TPV no puede clasificarse según productos, sino en todo caso según la clasificación de la actividad económica del establecimiento proveedor del producto/servicio asignada por la entidad bancaria. Así, por ejemplo, la compra de cervezas en una gasolinera posiblemente se asocie a compras de combustibles. Además tampoco es posible determinar algunos estimadores importantes en el estudio del gasto turístico, tales como el gasto medio por turista (en todo caso se puede calcular gasto medio por transacción) y por ende tampoco el gasto medio por turista y día; por lo tanto titulares como ¿Cuánto se gasta un turista inglés en Málaga a la hora de comer? (El País) no son correctos.

Por otra parte en la nota de prensa del BBVA se anuncia que esta nueva fuente de datos
proporciona una inédita cantidad de información y una resolución espacial - se dan datos por ciudades y regiones autonómicas- que no permiten las actuales metodologías basadas en encuestas.
En ese sentido, seguramente los redactores no conocen la Encuesta sobre Gasto Turístico que realiza el Instituto Canario de Estadística (ISTAC), que ofrece datos municipales de gasto turístico con frecuencia trimestral e información con más detalle con frecuencia anual:


En definitiva, si bien estos ejercicios son útiles y hay que seguir investigando en esta línea; aún están lejos de ofrecer datos de calidad según los criterios del Código de Buenas Prácticas de la Estadísticas Europeas. Finalmente señalar la curiosidad de que la colaboración del BBVA e INE en este tipo de iniciativas no haya sido informada en el Comité Interterritorial de Estadística del que formo parte y en cuya última sesión del pasado mes de junio, para la aprobación del Anteproyecto del Real Decreto del Plan Estadístico Nacional 2017-2020, se introduce la investigación del uso de Big Data dentro de la estrategia de la estadística pública nacional; hubiera sido un placer realizar algunas aportaciones en ese sentido.


Anexo sobre varianza y sesgo

Como quizás a algunas personas les resulten lejanos o desconocidos conceptos como el de varianza y sesgo de un estimador, adjunto una representación gráfica donde se visualizan mejor las dos fuentes de error a la hora de estimar una variable.

En color rojo representamos el valor real y no conocido, o sea el valor que queremos estimar a través de una muestra de datos. A la izquierda está representado un procedimiento por el que obtenemos una estimaciones insesgadas pero con mucha variabilidad, en el gráfico de la derecha está representado un procedimiento que genera estimaciones muy concentradas, pero lejanas del valor objetivo, es lo que se conoce como estimaciones sesgadas.  


En el caso del estudio presentado por BBVA nos encontramos ante el segundo caso, estimaciones con posibilidad de alto sesgo, que habría que estimar para conocer la bondad del estudio. No debemos perder la perspectiva de que el conjunto de datos utilizado es una muestra, no un censo, con el inconveniente de no poder conocer la probabilidad de inclusión de un suceso dentro de la muestra.