¿Es la estadística un campo más rápido que la informática?

Ciertamente, ambos se están moviendo muy rápidamente, y los estadísticos con los que trabajo mencionaron que el aprendizaje automático es un nuevo subcampo para las estadísticas.

Sin embargo….


(Imagen cortesía de Jack Dongarra)

Con el tiempo, está viendo el rendimiento de las 500 supercomputadoras del planeta. La línea negra es el rendimiento de lo peor de los 500 mejores. La línea azul es el rendimiento de la máquina # 1. La línea verde es la suma del rendimiento en todo el top-500.

El eje y es el rendimiento. Escala de registro . Cada paso es un aumento de un factor de 10x.

Algunas cosas para pensar:

1) Si construyes la máquina más rápida del planeta, en 8 años probablemente no esté entre las 500 mejores.

2) Una computadora portátil actual estaría en el top-500 en 2000.

3) Un teléfono celular actual hubiera estado en el top-500 en 1994.

4) El progreso hacia un rendimiento cada vez mayor es implacable.

Tomemos esa máquina # 500 2000. Usted y su equipo han trabajado durante meses para que su código de física se sintonice para poder obtener el máximo rendimiento de esta supercomputadora. Pasan 15 años y ahora puede obtener el mismo rendimiento de una computadora portátil, y la máquina # 500 en el pasillo es 1000 veces más rápida que la que estaba trabajando antes.

Tu amigo tiene razón en que las herramientas que utilizamos tienden a seguir siendo las mismas. En HPC toma un pedido de $ 100 para obtener una única línea de código escrita y depurada. Y tenemos muchos códigos de física que nadie pagará para volver a escribir. Por lo tanto, los sistemas operativos, los sistemas de tiempo de ejecución, los programadores de tareas y las herramientas de rendimiento deben tomar el código que fue escrito para un conjunto de suposiciones muy diferente y hacer que se ejecute bien en las nuevas máquinas. Y hay un flujo constante de nuevas máquinas.

Este es solo un aspecto de la informática. Podría argumentar que los dispositivos de Internet están evolucionando aún más rápido. Entonces, en mi humilde opinión, la tasa de cambio en CompSci deja las estadísticas en el polvo.

Hay mucha confusión y muchos conceptos erróneos en tu texto. El aprendizaje automático y la minería de datos abordan problemas muy diferentes y, aunque hay muchas mejoras tecnológicas en los últimos años, las estadísticas subyacentes (cuando hay estadísticas, muchas veces no hay estadísticas involucradas) están, en su mayor parte, lejos de ser innovador.

Como mencionó Peter Flom, ambos conjuntos de habilidades son probablemente más relevantes. Escribí mi primera línea de código hace 29 años (joder, me sentía viejo ahora) y las habilidades que adquirí más tarde en la escuela son tan relevantes ahora como lo fueron. Lo mismo para las estadísticas (aunque no lo estudié).

Lo que podría estar afectando a tu amigo es que está tecnológicamente desactualizado. Lo que significa que no está al tanto de los lenguajes de programación actuales, la computación en la nube, los modelos, etc., e incluso muchos de ellos tienen más de una década. Trabajo con muchos programadores que no tienen idea de los algoritmos que uso a diario y están programando en juegos multijugador altamente complejos y sofisticados donde las estadísticas, el aprendizaje automático y la extracción de datos son completamente irrelevantes.

Lo que cambió y bastante, como lo veo, es la tecnología que soporta todo esto. Computación en la nube y dispositivos móviles en su mayor parte.

Por supuesto, eso es si agrupa el aprendizaje automático y la minería de datos bajo estadísticas en lugar de CS.

Mucha gente lo considera como parte de CS, también. También hay cosas como la visión por ordenador que todavía son bastante nuevas.

Los principios fundamentales de CS son, por supuesto, muy antiguos, pero también lo son los principios fundamentales de las estadísticas (distribución gaussiana, media, mediana, etc.).

No estoy seguro de que la pregunta tenga sentido.

“Habilidad de programación” – bueno, probablemente no use los mismos lenguajes que usó hace 20 años, y seguramente tiene acceso a computadoras mucho más rápidas, y (dependiendo de su trayectoria profesional) podría estar programando en dispositivos que no Hace 20 años existen. Pero las ideas centrales de cómo programar probablemente aún sean relevantes.

“Habilidad estadística”: aprendí la mayoría de mis estadísticas hace 20 años y sigue siendo relevante y probablemente lo será durante mucho tiempo, pero en el mismo sentido que la habilidad de programación. Hay métodos que son nuevos (o, al menos, que ahora están disponibles y no solían estarlo) pero las ideas centrales siguen ahí.

Tengo que estar de acuerdo con Matthew en que esto es un asunto de clasificación. Muchas universidades tienen aprendizaje automático en sus departamentos de informática, y también hay muchos investigadores en aprendizaje automático de esos departamentos.

Sin embargo, diría que las estadísticas han crecido en relevancia en los últimos años debido al aprendizaje automático (en particular) y al big data (en general). En realidad, es un gran candidato de segundo o posgrado.