Buscar en este blog y otros asociados

viernes, 21 de agosto de 2015

Reflexiones sobre el análisis del turismo en España a partir de las transacciones con tarjeta


Esta semana BBVA ha presentado su estudio del turismo en España a partir de las transacciones con tarjetas. El BBVA ha analizado 5,4 millones de transacciones anonimizadas en un informe sobre el gasto de los turistas en España los meses de julio y agosto de 2014.

Los resultados del estudio se presentan en forma de visualización interactiva. En la nota de prensa se afirma que esta visualización de datos, basada en las transacciones con tarjeta procedentes por las TPVs de BBVA, proporciona una inédita cantidad de información y una resolución espacial -se dan datos por ciudades y regiones autonómicas- que no permiten las actuales metodologías basadas en encuestas.

Desde luego, el estudio de nuevas fuentes de datos es un camino a investigar por parte de la estadística pública, y en esa línea se viene trabajando por parte de la unidad de estadística de NNUU, y por supuesto desde Eurotat, tal como establece el Scheveningen Memorandum sobre Big Data and Official Statistics.

Si bien parece interesante e importante estudiar nuevas fuentes de datos para la estadística pública, también es imprescindible hacerlo desde la rigurosidad científica y administrativa que caracteriza la función pública estadística; lejos de las proclamas victoriosas de las grandes corporaciones poseedoras de datos o vendedoras de software. En ese sentido ya se han dado algunos pasos por parte de la comunidad estadística internacional, de tal manera que en abril de este año la Conferencia de Estadísticos Europeos ha publicado el informe Structuring risks and solutions in the use of big data sources for producing official statistics – Analysis based on a quality framework en el que se abordan los posibles riesgos y soluciones del uso de nuevas fuentes de datos (conocidas como fuentes Big Data, aunque algunas tienen poco de "big"); comenzando con el riesgo de disponibilidad de acceso a datos de fuentes no públicas.

Algunos de estos asuntos los presenté, en clave positiva pero crítica, en la jornada #BigDataCanarias. Esta presentación es previa al documento anteriormente señalado y puede consultarse en:



En la presentación menciono un estudio previo a la visualización ahora presentada por BBVA, con datos de 2012 tanto de Telefónica como de BBVA, denominado Big Data y Turismo: Nuevos indicadores para la gestión turística. En este documento se realizan algunas advertencias metodológicas que es bueno recordar para poder situar bien qué información nos ofrece esta fuente de datos:
Una característica a tener en cuenta es que el pago a través de tarjetas de crédito o débito supone una parte de los pagos totales realizados en un comercio, dado que aproximadamente el 50% del gasto en comercios se realiza mediante dinero en efectivo. Este porcentaje fluctúa, entre otros, en función de la categoría del comercio y su entorno, pero también por sesgos culturales inherentes a la nacionalidad del usuario. En este informe ninguno de los resultados presentados es una extrapolación para deducir el gasto total llevado a cabo por los turistas extranjeros, las cifras reflejadas son en todo caso las recabadas por los medios de pago electrónico BBVA, y no deben tomarse como cifras absolutas de gasto realizado por cualquier medio de pago. 
Esta nota metodológica es importante y refleja uno de los problemas que ya señalé en su momento en la presentación anteriormente indicada: BIG no es ALL, en todo caso es más; por lo tanto sólo reduce uno de los elementos del error cuadrático medio (ECM) que es la varianza, pero el método de recogida de datos puede afectar seriamente al otro componente: el sesgo (recordemos que ECM = varianza + sesgo^2 y que la varianza disminuye con el tamaño muestral, pero el sesgo puede aumentar debido a errores ajenos al muestreo).

En este mismo estudio también se indica cómo se han identificado a los turistas a través de las tarjetas, pero no se establece cómo relacionar esa identificación con el criterio internacional que permite establecer que un viajero es un turista (establecido por la Organización Mundial del Turismo):
Para distinguir turistas extranjeros de extranjeros expatriados residentes en nuestro país, sólo se han incluido en el dataset aquellas tarjetas extranjeras 
Asimismo, el estudio del gasto turístico realizado utilizando los TPV no puede clasificarse según productos, sino en todo caso según la clasificación de la actividad económica del establecimiento proveedor del producto/servicio asignada por la entidad bancaria. Así, por ejemplo, la compra de cervezas en una gasolinera posiblemente se asocie a compras de combustibles. Además tampoco es posible determinar algunos estimadores importantes en el estudio del gasto turístico, tales como el gasto medio por turista (en todo caso se puede calcular gasto medio por transacción) y por ende tampoco el gasto medio por turista y día; por lo tanto titulares como ¿Cuánto se gasta un turista inglés en Málaga a la hora de comer? (El País) no son correctos.

Por otra parte en la nota de prensa del BBVA se anuncia que esta nueva fuente de datos
proporciona una inédita cantidad de información y una resolución espacial - se dan datos por ciudades y regiones autonómicas- que no permiten las actuales metodologías basadas en encuestas.
En ese sentido, seguramente los redactores no conocen la Encuesta sobre Gasto Turístico que realiza el Instituto Canario de Estadística (ISTAC), que ofrece datos municipales de gasto turístico con frecuencia trimestral e información con más detalle con frecuencia anual:


En definitiva, si bien estos ejercicios son útiles y hay que seguir investigando en esta línea; aún están lejos de ofrecer datos de calidad según los criterios del Código de Buenas Prácticas de la Estadísticas Europeas. Finalmente señalar la curiosidad de que la colaboración del BBVA e INE en este tipo de iniciativas no haya sido informada en el Comité Interterritorial de Estadística del que formo parte y en cuya última sesión del pasado mes de junio, para la aprobación del Anteproyecto del Real Decreto del Plan Estadístico Nacional 2017-2020, se introduce la investigación del uso de Big Data dentro de la estrategia de la estadística pública nacional; hubiera sido un placer realizar algunas aportaciones en ese sentido.


Anexo sobre varianza y sesgo

Como quizás a algunas personas les resulten lejanos o desconocidos conceptos como el de varianza y sesgo de un estimador, adjunto una representación gráfica donde se visualizan mejor las dos fuentes de error a la hora de estimar una variable.

En color rojo representamos el valor real y no conocido, o sea el valor que queremos estimar a través de una muestra de datos. A la izquierda está representado un procedimiento por el que obtenemos una estimaciones insesgadas pero con mucha variabilidad, en el gráfico de la derecha está representado un procedimiento que genera estimaciones muy concentradas, pero lejanas del valor objetivo, es lo que se conoce como estimaciones sesgadas.  


En el caso del estudio presentado por BBVA nos encontramos ante el segundo caso, estimaciones con posibilidad de alto sesgo, que habría que estimar para conocer la bondad del estudio. No debemos perder la perspectiva de que el conjunto de datos utilizado es una muestra, no un censo, con el inconveniente de no poder conocer la probabilidad de inclusión de un suceso dentro de la muestra.