¿Cuál es el futuro del análisis de datos?

Hace un tiempo escribí sobre esto en Modelización estadística, inferencias causales y ciencias sociales. Mis conclusiones fueron que necesitamos avances en:

  1. Bases de datos de Internet con ontologías de conjuntos de datos y variables destinadas a gestionar el conocimiento de fondo y conjuntos de datos relacionados, donde aparece la misma variable y el mismo fenómeno aparece en varias tablas, lo que permite que los antecedentes se basen en más de un único conjunto de datos. La investigación se debe presentar como datos sin procesar en una forma estandarizada, no como informes y agregados que impiden que otros construyan sobre el trabajo terminado.
  2. Visualización escalable y entornos de modelado que facilitan la limpieza y transformación de datos, experimentan con modelos, presentan perspectivas, reducen el tiempo necesario para convertir los datos en un modelo que se puede comunicar. (ver Proyecto R, Procesamiento, Gapminder)
  3. Compiladores estadísticos confiables del modelo bayesiano que permiten especificar un modelo estadístico en un lenguaje de modelo declarativo de nivel superior y trabajar con grandes bases de datos (ver FALLOS). Esta es la razón principal por la que los métodos bayesianos no se usan tan ampliamente como lo serían de otra manera. Aprender a máquina con un lenguaje de programación se siente como codificar en ensamblaje, paso a paso, cuando en realidad los modelos son independientes y la computadora puede descubrir cómo encajarlos bien.
  4. El modelado interpretable es importante para acercar los modelos formales a la intuición humana. Aún no está claro cuál es la importancia de un predictor para el resultado: el coeficiente de regresión es cercano, pero a menudo confuso. Con marcos de modelado más potentes, será posible centrarse en esto: no preocuparse por lo que se puede ajustar, sino por la elección del modelo, la selección del modelo, el lenguaje del modelo y el lenguaje visual.
  5. Soporte para nuevos tipos de datos y nuevos tipos de problemas de predicción.

Mi suposición, y esto es solo una suposición, por supuesto, es que los grandes avances en el análisis de datos no provendrán de avances en métodos estadísticos ni de cálculos cada vez más complejos en conjuntos de datos cada vez más grandes.

Creo que las mayores ganancias provendrán de las herramientas que permitirán a los analistas y otros buscar, consultar, resumir, filtrar, agregar, desagregar y ver sus datos de manera interactiva. Las tablas y tablas estáticas o mínimamente interactivas que son el punto final de la mayoría de los análisis que veo parecen muy primitivas, dada la tecnología que tenemos hoy a nuestra disposición.

Gran parte del trabajo que veo en la visualización de datos me parece en el camino equivocado, centrándome demasiado en hacer que las cosas se vean bien en lugar de responder preguntas. Estoy con Andrew Gelman en esto (vea Infovis, infografía y visualización de datos: de dónde vengo y adónde me gustaría ir). Pero sigo pensando que esta es el área con mayor potencial para cambiar la forma en que se realiza el análisis de datos reales.

1. Aparición de sistemas que pueden reconciliar mejor la capacidad de escalar con la capacidad de manejar el análisis de datos vinculados.

2. Las tecnologías analíticas podrán abstraer gran parte del esfuerzo que se debe poner en la elección de los mejores algoritmos a usar para modelar y visualizar los datos, convirtiéndolos en optimizaciones computacionales, permitiendo a los analistas centrarse más en las preguntas de nivel superior , como lo que quieren preguntar de los datos, cómo quieren fusionar y agrupar los datos, y qué quieren eliminar de los datos, lo que puede dar más valor a los analistas con conocimiento del dominio que aquellos con conocimiento estadístico.

3. La mejora en la velocidad, la escala y la confiabilidad de las tecnologías de análisis, junto con el aumento en el grado de conectividad del mundo, donde en algún momento cualquier entidad identificable de manera atómica en el mundo tendrá una equivalencia representativa en Internet, permitirá el estrechamiento. la brecha entre cuando los datos se recopilan, analizan y actúan en el mundo sin conexión no solo en línea. Lo ideal es crear un círculo virtuoso en el que las ideas extraídas de los datos puedan ser devueltas inmediatamente para tomar decisiones, que cambien la naturaleza de esos datos sobre la marcha, y así sucesivamente (eso puede ser el caso en los mercados financieros, pero otras áreas aún están por venir hacerse popular). Si ese fuera el caso, la capacidad de tomar decisiones será una habilidad crítica para los científicos de datos, no solo la capacidad de manejar, analizar, visualizar y entregar datos.