Instituto de Robótica de la Universidad de Carnegie Mellon (CMU), en Pittsburgh EE.UU. Dos ingenieros están desarrollando una herramienta que pueda analizar grandes volúmenes de datos relacionados con la demografía o la educación y su relación con aspectos económicos como sector productivo o nivel de ingresos. En octubre de 2015 varios medios publican lo que ya es una realidad: un explorador web de datos de alta densidad en tiempo real.
Saman Amirpour Amraii es ingeniero de sistemas. Amir Yahyavi es investigador. Los dos han pasado tres años en CREATE Lab, el centro de innovación de la CMU, buscando una alternativa eficaz para visualizar y analizar datos de alta densidad, es decir, datos que contienen tal cantidad de parámetros que su análisis se convierte en una misión casi imposible. El fruto de su trabajo es EVA (Explorable Visual Analytics), una herramienta de código abierto desarrollada en JavaScript y que está disponible en Github.
EVA es una plataforma online para “visualizar y analizar grandes volúmenes de datos de alta dimensión que permite a los usuarios navegar intuitivamente por terabytes de datos con cientos de dimensiones”. Así la define Amraii, uno de los padres de la herramienta. La idea de esta solución de analítica compleja es que el usuario pueda construir representaciones geográficas simples o complejas con datos de cinco dimensiones, que puedan ser compartidas mediante un enlace o descargadas en formato imagen PNG.
<
EVA – Introduction from CREATE Lab on Vimeo.
El plan de desarrollo de EVA se planteaba seis puntos clave:
● EVA debía ser una herramienta escalable.
● Una solución de alta resolución.
● De navegación intuitiva.
● Responsive.
● Totalmente accesible.
● Herramienta para extraer conclusiones que se pudieran compartir.
Por qué EVA es una gran herramienta de análisis
Los expertos hablan siempre de las tres grandes V de los Big Data: Volumen, Variedad y Velocidad. Realmente existe una cuarta, que da sentido al conjunto y que debería ser imprescindible en cualquier proceso o solución de análisis de datos. Esa variable es el Valor. No sirve de nada disponer de grandes volúmenes de datos, enormemente variados y ser capaces de procesarlos a gran velocidad, si de todo ese proceso no extraemos conclusiones de valor.
EVA es una herramienta que gestiona gran volumen de datos, información que dispone de muchas variables y además es capaz de hacerlo a gran velocidad porque solo carga en tiempo real los datos que son requeridos por el usuario. Pero su aspecto diferencial es que es capaz de aportar valor del análisis de los Big Data. Acceso fácil a los datos a través del navegador, exploración relacional de la información, extracción sencilla del análisis comparativo de los datos… Con eso el usuario extrae parámetros claros.
Los datos que se muestran en el mapa se pueden ver en detalle gracias al zoom. EVA va procesando y cargando los datos de alta densidad que reclama el usuario y solo esa información. No carga lo que queda fuera de la ventana de visualización. Esto es posible gracias a:
● El pre-procesamiento de datos.
● El almacenamiento de datos en caché en los servidores.
● El almacenamiento de datos en caché en el equipo del cliente para mejorar la capacidad de respuesta cuando se producen peticiones.
● La compresión de los datos para limitar el ancho de banda.
Esta ilustración muestra los procesos que quedan por el lado del servidor y cuáles se cargan en el lado del cliente. Por el lado del servidor, EVA carga el CSV original con todos los datos y lleva a cabo la limpieza y la compresión de toda esa información, mientras que por el lado del cliente se carga el archivo ArrayBuffer en JavaScript, el análisis local de los datos y la gráfica (GPU).
Para mejorar el comportamiento de la herramienta, Amraii y Yahyavi usaron una base de datos de 100 gigabites con información multidimensional a partir del dataset de programa LEHD (Longitudinal Employer-Household Dynamics) de la Oficina del Censo de los Estados Unidos. La oficina del censo es una fuente inagotable de datos de carácter social con millones de datasets.
Sin dependencia del conocimiento técnico
Uno de los aspectos que los dos investigadores de EVA destacan de la herramienta es que representa todo lo contrario a Excel, el programa de hoja de cálculo de Microsoft y, posiblemente, la herramienta más utilizada en el procesamiento y análisis de datos. Según Amraii y Yahyavi, Excel es un programa que permite la gestión de conjuntos de datos pequeños, para una infraestructura pequeña: ordenadores personales y conexiones lentas.
Para que el usuario medio pudiera manejar grandes volúmenes de datos necesitaría obligatoriamente un superordenador o un clúster de computadoras para el procesamiento de los datos y conocimientos técnicos en programación para tratarlos y visualizarlos de forma correcta. Para los creadores de EVA su herramienta soluciona ambos problemas porque el usuario dispone de un buscador y varias funcionalidades intuitivas y además esta solución está disponible online y economiza el ancho de banda. EVA es una herramienta accesible para la mayoría del público de la Red.
Los dos expertos del CREATE Lab extrajeron fundamentalmente dos conclusiones de todo el proceso de investigación en torno a EVA:
● Alta resolución: el descubrimiento del conocimiento por parte del usuario depende en gran medida de su capacidad para explorar la mayor cantidad de datos posible. Más datos, más conocimiento.
● Exploración: al tener la posibilidad de explorar los datos desde distintos puntos de vista, diferentes variables y combinarlos a su antojo, el usuario tiene mayor capacidad para encontrar nuevos patrones.
Casos de uso de EVA
Existen varios vídeos del funcionamiento de la herramienta a través del canal de EVA en Vimeo. Vemos cómo el explorador permite hacer comparaciones a través de una visualización basada en mapas de aspectos económicos como la distribución de ingresos o la creación de empleo por sectores productivos o ambientales como el avance de la deforestación en Sumatra durante los últimos 12 años a través del dataset Global Forest Watch, una página web que se encarga de monitorizar los bosques en tiempo real.
EVA, Deforestation from CREATE Lab on Vimeo.
Un caso paradigmático de las potencialidades de EVA es el estudio de cómo el huracán Katrina afectó al empleo y la distribución de la riqueza en Nueva Orleans entre 2005 y 2006. Existe un vídeo práctico en su canal de Vimeo.
EVA, New Orleans and Hurricane Katrina from CREATE Lab on Vimeo.
Explorable Visual Analytics no es el único caso de ejercicio de exploración de datos que los miembros de CREATE Lab han llevado a cabo en sus trabajos de investigación. También han visualizado información en otros proyectos relacionados con los incendios a nivel mundial, con el uso de mapas y una línea del tiempo como en EVA, la desigualdad, la calidad del aire, la conexión entre los terremotos y el fracking en Arkansas… Lo cierto es que EVA y el resto de proyectos de CREATE Lab aportan valor a la visualización de datos en el campo de la investigación y su acceso para el común de los mortales.
Síguenos en @BBVAAPIMarket