Articulos
UPCN Digital
Profesionales

BIG DATA Y LA REVOLUCI

 10/07/2018   14

BIG DATA Y LA REVOLUCIÓN DIGITAL:

 

El uso de datos masivos y sus técnicas analíticas para el diseño e implementación de políticas públicas en Latinoamérica y el Caribe La nota técnica en que se basa este resumen fue realizada por el Banco Interamericano de Desarrollo y estuvo a cargo de Patricio Rodríguez, Norma Palomino y Javier Mondaca.

Introducción Los datos han crecido de manera exponencial en los últimos años. Los datos masivos (muchas veces llamados por su término en inglés, Big Data) se refieren a conjuntos de datos cuyo tamaño excede al que pueden manejar los programas y equipos estándares disponibles para capturarlos, almacenarlos y analizarlos. Su análisis está creando valor en muchos sectores de la economía y el gobierno; y suele requerir la presencia de personas con habilidades en estadística y programación, así como hardware o servicios de nube (cloud computing) para el procesamiento de la información. Las técnicas avanzadas de análisis de datos masivos mejoran la toma de decisiones de los gobiernos, al aportar información que permite diseñar, implementar y monitorizar en tiempo real las políticas públicas.

 El acceso a los datos masivos y el uso de técnicas analíticas adecuadas permite identificar y medir problemas que hasta hace poco estaban ocultos. Las aplicaciones de Big Data pueden beneficiar no solo a las empresas privadas, sino también a las administraciones públicas, mejorando las economías de cada país. Estos beneficios mejoran la productividad, como se 1 Estimaciones de McKinsey Global Institute (2017); McAffee (2012) y Forbes (2017) espera en el caso de Uruguay con un aumento de productividad entre 0.8% y 1.4% anual (2015- 2065), aumentando el valor de la economía mundial.

1 Marco conceptual Las llamadas “Tres V’s” –volumen, velocidad y variedad– sirven como características que definen el término Big Data. Sin embargo, con el continuo avance de la tecnología, el modelo tiene que ser revisado. Por lo tanto, el estudio propone incorporar cuatro dimensiones cualitativas respecto a los datos: 1. Variabilidad: en el mundo de datos masivos, la cantidad de anomalías es tan abundante que forman parte del fenómeno a analizar. Es decir, es importante no solo estudiar los patrones; sino también las excepciones a la regla.

2. Complejidad: nace de la múltiple y variada cantidad de fuentes de datos existentes.

3. Veracidad: la calidad, confiabilidad y la certeza asociada a los datos.

4. Representación: cuando se trabaja con muestras, es fundamental considerar responsablemente la representatividad de las mismas respecto a la población en general. Los datos masivos aportan valor cuando son procesados. La disciplina que trata con el procesamiento y el análisis de los datos masivos, a base de la interacción entre la programación y la estadística, se denomina Ciencia de Datos. El ciclo de vida del procesamiento y análisis de datos no es lineal. Procesamiento de los datos masivos. En términos generales hay dos etapas principales del procesamiento de los datos masivos: la gestión de los datos y la analítica de los datos. La gestión de los datos está compuesta por tres pasos cruciales:

1. La adquisición y el almacenamiento de los datos 2. La limpieza y la depuración de los datos 3. La preparación para su análisis Se trabaja sobre datos nuevos que varían en formato y origen: texto, audio, video, redes sociales, etc. Por su parte, la analítica de los datos trata de responder a las preguntas y/o hipótesis formuladas a través de técnicas de modelamiento y observación. Para cada conjunto de datos (texto, audio, video, etc.) se aplican metodologías particulares de análisis. Métodos. Hay varios métodos para analizar los datos masivos. Uno de ellos es el análisis espacial o los sistemas de información geográfica (SIG), con el que se examinan las propiedades geométricas, topológicas y geográficas de un conjunto de datos. Este método es el que utiliza aplicaciones como Google Maps o Uber. Otro método, que es una subespecialidad de la Ciencia de la Computación, es el aprendizaje automático (Machine Learning).

Esta subespecialidad se compone de técnicas de programación de algoritmos que aprenden a desarrollar tareas, sin necesariamente recibir indicaciones específicas en el código. Dicho aprendizaje puede ser supervisado y se basa en dar al algoritmo una serie de ejemplos positivos y negativos de algo para que identifique los patrones que caracterizan a cada uno (por ejemplo: un algoritmo que aprende a distinguir un humano en una foto). A su vez, el aprendizaje puede ser no supervisado, tal que los algoritmos no aprenden a base de ejemplos positivos y negativos, sino que identifican grupos de unidades o patrones por su cuenta (por ejemplo: un algoritmo que analiza un grupo poblacional para identificar subgrupos y las características que los hacen afines).

También se usa la inteligencia territorial, un análisis espacial que a través de tecnologías de información combina enfoques cualitativos, cuantitativos y espaciales. Por ejemplo, puede usarse para analizar equidad de acceso espacial a servicios públicos y privados según variables socioeconómicas y demográficas. Otros métodos detallados en el documento incluyen: la optimización (localización óptima de hospitales, escuelas, centros productivos, bodegas), pruebas A/B (probar la efectividad de un tratamiento médico o un tipo de educación), simulación (pronósticos bajo circunstancias de El análisis de los datos masivos aumenta la productividad y habilita nuevos modelos de negocio, optimizando procesos y mejorando capacidades de monitoreo y predicción. incertidumbre), análisis de redes (modelamiento del sistema de transporte) y la visualización de datos (infografías y tableros de mando o dashboards). Tecnología.

El procesamiento de los datos masivos también requiere de tecnología, software y hardware, que puede analizar grandes volúmenes de información. La inteligencia de negocios es un tipo de aplicación diseñada para reportar, analizar y presentar datos. Mashup es otra aplicación que utiliza y combina la presentación de datos o la funcionalidad de dos o más fuentes para crear nuevos servicios. También se usa el software de MapReduce para procesar enormes conjuntos de datos sobre ciertos tipos de problemas en un sistema distribuido. Datos masivos en Latinoamérica y el Caribe Caso 1: Movilidad urbana sostenible en Argentina En Rosario, Argentina, usaron los datos masivos capturados a través de dispositivos de georreferenciación (GPS) para analizar los movimientos de los ciclistas en la ciudad. El objetivo del proyecto era entender la relación entre los ciclistas, la infraestructura vial existente y los siniestros de tránsito con el fin de mejorar la infraestructura del sistema. Se obtuvieron datos relativos a la cantidad de viajes, los tiempos, las distancias o velocidad promedio y las calles más usadas. Los datos se exploraron visualmente, creando mapas que muestran los principales corredores utilizados por ciclistas, la velocidad del tránsito de bicicletas, los lugares donde se concentraban los siniestros y la gravedad de los mismos.

 El análisis de los datos ha permitido al gobierno, por ejemplo, identificar las calles especialmente problemáticas. En este caso, el procesamiento y análisis de los datos fue realizado externamente, lo cual puede reflejar un déficit de infraestructura de procesamiento o capital humano especializado dentro del gobierno que impide al mismo afrontar este tipo de proyectos. Caso 2: Ciudades inteligentes en Argentina y Brasil Un estudio del BID (Townsend & ZambranoBarragan, 2016) evaluó la capacidad de algunas ciudades de Argentina y Brasil para implementar iniciativas innovadoras basadas en el análisis de datos masivos. En Bahía Blanca, Argentina, el gobierno instaló sensores que informaban sobre los índices de contaminación del aire y contaminación acústica producida por las plantas industriales y puso esta información a disposición del público en una plataforma online y una aplicación móvil.

En Córdoba, Argentina, se desarrolló un sistema de seguimiento de la flota del transporte público que es operado por diferentes empresas privadas. Con ello, se mejoró la exactitud de la información a los pasajeros y aumentó el uso del transporte público.

En São Bernardo do Campo, Brasil, se creó Vo?e SBC una aplicación móvil que permite recolectar quejas y sugerencias de los ciudadanos relacionadas de servicios no-urgentes (e.g., baches, ruidos molestos, árboles a punto de caer, basura) para la infraestructura detrás de los servicios. · La analítica de datos masivos ofrece una tremenda oportunidad para mejorar la toma de decisiones y generar evidencia para el diseño, desarrollo y evaluación de políticas públicas. · Hay que desarrollar un marco conceptual y una inteligencia de valor pública en los distintos niveles de gobierno para instalar una cultura de toma de decisiones basada en evidencia. · Los casos en Argentina y Brasil y el proyecto de las PTF de empresas sirven como ejemplos del uso de datos masivos.

Demuestran la importancia de desarrollar una institucionalidad para la analítica de datos masivos, que tiene en cuenta la representatividad de los datos. En Fortaleza, Brasil, se llevó a cabo el proyecto “Fortaleza Inteligente” para mejorar la gobernanza de la ciudad. Como parte del proyecto, se creó CITINOVA, una fundación pública cuya misión es promover la ciencia, tecnología e innovación en el gobierno para mejorar los servicios entregados a los ciudadanos. Estas experiencias de ciudades inteligentes ofrecen tres lecciones importantes para el uso de los datos masivos en el mejoramiento de un país:

1.       La construcción de una institucionalidad permite generar y administrar los recursos para la infraestructura y el personal dedicado a la inteligencia de valor público. 2. Es necesario lograr una comunicación transparente y fluida entre el sector público, el sector privado y la ciudadanía de cada país. 3. Hace falta personas preparadas para trabajar con datos, especialmente los científicos de datos. Caso 3: La utilización de datos masivos para estudiar el crecimiento y dispersión de la productividad El proyecto utiliza datos masivos para estimar el crecimiento y dispersión en la productividad total de los factores (PTF) en empresas de diversos países. La PTF es la proporción de la producción que no está explicada por las cantidades de insumos que necesita para ser producida; y su nivel estará determinado por cuán eficiente e intensivamente se usan los insumos en la producción.

Se revisó la PTF de cerca de 20 millones de empresas en alrededor de 30 países durante ocho años, entregando un panorama más general respecto al estado y evolución de dicho indicador. Los resultados demuestran que no hay una relación clara con la combinación entre PTF promedio y países. Sin embargo, respecto a las perspectivas de evolución futura del PTF, se observa que en casi todas las medidas muestran una tendencia a disminuir. Este caso abre una discusión sobre un desafío importante en el trabajo con datos: la representatividad. Pese al gran crecimiento de los datos disponibles, al analizarlos es importante tener en mente que muchos siguen sin representar a todas las empresas existentes. Este es un resumen ejecutivo adaptado de nota técnica “

El uso de datos masivos y sus técnicas analíticas para el diseño e implementación de políticas públicas en Latinoamérica y el Caribe” escrito por Patricio Rodríguez, Norma Palomino y Javier Mondaca. Puedes leerlo en su totalidad aquí: Using Big Data and its Analytical Techniques for Public Policy Design and Implementation in Latin America and the Caribbean

    Publicaciones

    HISTORIA DE MUJERES ARGENTINAS


     Versión Digital