Hace un tiempo escribí sobre esto en Modelización estadística, inferencias causales y ciencias sociales. Mis conclusiones fueron que necesitamos avances en:
- Bases de datos de Internet con ontologías de conjuntos de datos y variables destinadas a gestionar el conocimiento de fondo y conjuntos de datos relacionados, donde aparece la misma variable y el mismo fenómeno aparece en varias tablas, lo que permite que los antecedentes se basen en más de un único conjunto de datos. La investigación se debe presentar como datos sin procesar en una forma estandarizada, no como informes y agregados que impiden que otros construyan sobre el trabajo terminado.
- Visualización escalable y entornos de modelado que facilitan la limpieza y transformación de datos, experimentan con modelos, presentan perspectivas, reducen el tiempo necesario para convertir los datos en un modelo que se puede comunicar. (ver Proyecto R, Procesamiento, Gapminder)
- Compiladores estadísticos confiables del modelo bayesiano que permiten especificar un modelo estadístico en un lenguaje de modelo declarativo de nivel superior y trabajar con grandes bases de datos (ver FALLOS). Esta es la razón principal por la que los métodos bayesianos no se usan tan ampliamente como lo serían de otra manera. Aprender a máquina con un lenguaje de programación se siente como codificar en ensamblaje, paso a paso, cuando en realidad los modelos son independientes y la computadora puede descubrir cómo encajarlos bien.
- El modelado interpretable es importante para acercar los modelos formales a la intuición humana. Aún no está claro cuál es la importancia de un predictor para el resultado: el coeficiente de regresión es cercano, pero a menudo confuso. Con marcos de modelado más potentes, será posible centrarse en esto: no preocuparse por lo que se puede ajustar, sino por la elección del modelo, la selección del modelo, el lenguaje del modelo y el lenguaje visual.
- Soporte para nuevos tipos de datos y nuevos tipos de problemas de predicción.