El rol de las ciencias de datos en la Estadística
Por: Dioel Hernández Cassó
Licenciado en Estadística
Master en Big Data & Business Analytics
Con el pasar de los años, la importancia de la estadística ha aumentado de manera exponencial, y esto se debe al constante aumento de datos, ya sea capturados por una empresa u organización (telefónica, bancaria, estatal, etc.) o auto proporcionados a través de redes sociales, resultando que cada día haya más información de cada persona o usuario de un servicio.
Para citar un ejemplo, cuando una persona un servicio en una empresa de telecomunicaciones, con solo dar su cédula de identidad y electoral, la empresa tiene acceso a información básica como la dirección de donde reside, edad, fecha y lugar de nacimiento, etc. Esta información es cruzada con la información crediticia (útil para determinar si será un cliente de alto valor o no), y esa información cruzada es enviada a la base de datos de clientes de esta empresa. Luego de cierto tiempo con el servicio, con la ejecución de diversos modelos estadísticos a través de ETL’s1, la misma puede saber el comportamiento del cliente, los lugares que frecuenta, si es viajero o no, si asiste a actividades deportivas, si estudia, si asiste a actividades nocturnas y así ofrecer nuevos productos o servicios, o simplemente predecir si este cliente cancelará el servicio para migrar a la competencia.
La misma aplicación tiene para las instituciones gubernamentales, donde muchas de las problemáticas socioeconómicas pueden ser solucionadas con el uso de las estadísticas y las ciencias de datos. Ya muchas naciones están normalizando sus registros administrativos y mejorando la calidad y recurrencia de las encuestas que realizan para poder desarrollar modelos que brinden solución a una problemática, y, por consiguiente, realizar una buena gestión de los recursos de dicha nación. Un claro ejemplo es la enorme base de datos del US Census Data Bureau, de los Estados Unidos de América, que posee un enorme banco de datos con información actualizada tanto de la población, como de aspectos económicos y de comercio exterior que posteriormente es explotada con modelos estadísticos que arrojan luz de los próximos pasos que las autoridades deben ejecutar.
Gracias a las ciencias de datos estadísticas, las empresas sobreviven a un entorno que se encuentra en constante movimiento, adelantándose en la búsqueda de nuevas oportunidades. Sin embargo, cada vez hay más datos y menos tiempo para analizarlos, lo que ha provocado el surgimiento del Big data, una nueva área de especialización donde converge la estadística y la ingeniería informática, para crear procesos interactivos de exploración y explotación de información estructurada sobre un área (normalmente almacenada en un DataWarehouse) para descubrir tendencias o patrones, a partir de los cuales se derivan ideas y conclusiones estratégicas en las empresas y organizaciones.
Un caso práctico es la explotación de la Encuesta Nacional Continua de Fuerza de Trabajo (ENCFT) ya que esta encuesta se realiza de manera recurrente, con un periodo de actualización semestral de los datos, por lo que si se utiliza la arquitectura IBM Lotus, que es un sistema de Bases de Datos NoSQL de tipo documental, muy utilizada por gobiernos y empresas debido a la robustez del ecosistema IBM con su gama de soluciones de sistemas de ETLs, paquetes estadísticos y la alta compatibilidad con la gran mayoría de plataformas de recolección de datos, tanto en PDAs, smartphones y data-entries locales, siendo el formato .sav el principal de esta arquitectura. Los datos son analizados y estratificados, alimentando un lago de datos (Data Lake) que será la base del modelado analítico.
Al final, los datos salientes será una muestra representativa de la población desempleada que está buscando trabajo y con la rama de actividad económica de mayor probabilidad de éxito ajustada a su perfil sociodemográfico y la tasa de probabilidad de éxito de establecer un negocio o emprender un empleo tendrá cada perfil tiene en esta demarcación geográfica.
Captura del proceso de minería de datos y modelado analítico en pleno desarrollo del modelo probabilístico.
Finalmente, el modelo genera una base de datos lista para ser procesada, analizada e integrada con los sistemas de georreferenciación de información desde la plataforma Tableau Desktop, pues esta permite establecer una conexión en tiempo real y actualizar los dashboards estadísticos generados previamente.
Captura de uno de los dashboards estadísticos elaborados con la información resultante del modelo.