Las oficinas nacionales de estadísticas son los organismos que por ley se encargan de recolectar, procesar, almacenar y difundir información estadística de manera oficial proveniente de las fuentes de datos tradicionales como los censos, las encuestas y los registros administrativos. En México, la oficina nacional de estadística es el INEGI quien aparte de realizar sus actividades cotidianas, ha estado explorando los diferentes mecanismos para extraer información de temas de interés nacional proveniente de otras fuentes de datos, como es el caso de la red social de Twitter que por las características que tiene entra dentro de la categoría de Big Data, y así poder determinar si se cuenta con los recursos necesarios para trabajar en este tipo de proyectos.
La presente investigación propone y prueba un método para trabajar con los datos recolectados de la red social de Twitter para darle un orden y llevar un control del proceso de generación de información de lo que se publica en México mediante la identificación de los elementos involucrados y sus características, la forma en la que interactúan, las actividades relacionadas con el proceso y el conjunto de conocimientos y habilidades de las personas que estarán trabajando en los proyectos. Para la realización del método se estudió la literatura del estado del arte, las técnicas y herramientas (estas últimas utilizando un proceso de prueba y error), y las experiencias y el conocimiento adquirido tras desarrollar otras soluciones dentro del mismo dominio en el INEGI para determinar qué elementos son considerados importantes en el análisis de Big Data. El método integra dichos aspectos con la finalidad de enriquecerlo y perfeccionarlo para poder utilizarlo en nuevos proyectos de manera que pueda ajustarse y ser útil en diferentes entornos organizacionales.
Para probar el método propuesto se diseñaron dos casos prácticos, el primero fue un análisis de movilidad cotidiana de los usuarios de Twitter que publican dentro del territorio nacional mediante el que cual se puede obtener los patrones de desplazamiento que han tenido en un determinado tiempo. Y por otro lado, se realizó un análisis de impacto de eventos de la vida real que permitió conocer la forma en la que un evento impacta en la sociedad mediante el estudio del número de menciones que tienen en las publicaciones de los usuarios de Twitter contra el tiempo de duración de dichos eventos.
National statistical offices are agencies which by law are responsible for collecting, processing, storing and disseminating statistical information gathered officially from traditional data sources such as censuses, surveys and administrative records. In Mexico, the NSO is INEGI who besides performing daily activities, has been exploring different mechanisms for extracting useful information about national interest topics from other data sources, such as the social network Twitter having features that fit within the category of Big Data, in order to determine if it has the resources needed to work in thus kind of projects.
This research proposes and evaluates a method for working with data collected from the social network Twitter to arrange and control the process of generating statistics of what is published in Mexico by identifying the elements involved and their characteristics, the way they interact among them, the activities related to the process and the knowledge and skills of people who will be working on these projects. To accomplish the method it was needed to study the literature of the state of art, techniques and tools (the latter using a test and error process), and the experiences and knowledge gained from developing other solutions within the same domain in INEGI in order to determine which elements are considered important in the analysis of Big Data. The method integrates these aspects in order to enrich and perfect to use in new projects so that it can adjust and be useful in different organizational environments.
To test the method proposed there were designed two case studies, the first was an analysis of daily mobility of Twitter users who publish within the national territory obtaining displacement patterns that have taken in a given time. On the other hand, an impact analysis of events was developed and in order to know how an event of real life impacts on society by studying the number of mentions that are published by Twitter users against duration of these events.