¿Cuánto de aprendizaje automático es ciencia computacional vs. estadística?

No se trata de estadísticas frente a informática en el aprendizaje automático, sino de informática y estadística.

Bueno, viniendo a la pregunta en la mano, me gustaría dar un pequeño preludio:

Las matemáticas se desarrollaron para dar un sentido cuantificable al fenómeno que ocurre a nuestro alrededor. Por ejemplo, las áreas clásicas de las matemáticas aplicadas, incluidas las ecuaciones diferenciales parciales, se desarrollaron a partir del estudio de procesos físicos como el flujo de fluidos.

Las estadísticas existían antes de la llegada de las computadoras, pero estaban muy limitadas y no estaban muy desarrolladas ni utilizadas debido a su naturaleza computacional intensiva. Ingrese a las computadoras (para hacer los cálculos que son demasiado manuales e intensivos y que son propensos a una alta tasa de error para nosotros, perezosos) que facilitó nuestras vidas al mismo tiempo que generaron un fenómeno (datos) mucho más cuantificable para que los estudiemos y analicemos. dar sentido a. Así comenzó el auge del campo de las estadísticas. Mientras tanto, la parte de la implementación de la cantidad de cómputos a procesar en las computadoras se estaba escalando bastante rápido. Así que para optimizar los cálculos se les ocurrió en general 2 direcciones

  1. Mejorar las capacidades de hardware en bruto de la máquina.
  2. Mejorar el rendimiento utilizando métodos analíticos y matemáticos.

Centrémonos en el segundo.

Los campos matemáticos enfocados en la optimización del funcionamiento de estos cálculos se denominan ciencias de la computación, pero si lo consideran desde un punto matemático, en términos generales, la informática es una parte de las estadísticas matemáticas enfocadas con las limitaciones del funcionamiento de las computadoras. Ejemplo de algoritmos de clasificación, etc., etc.

Entonces, si tengo que ponerlo sin rodeos, el aprendizaje automático son las estadísticas: p

Separándose bien, ambos están interconectados de tal manera que es difícil decir cuál es el más alto de los dos en aprendizaje automático.

Piense en ello como lo siguiente:

La informática se está enfocando más en los datos que en la computación, y las estadísticas modernas requieren más sofisticación computacional para trabajar con grandes conjuntos de datos y se están abriendo nuevas direcciones en matemáticas aplicadas desde el estudio de los grandes conjuntos de datos modernos. (Ejemplo: desarrollo del modelo Cox-Regression).

El aprendizaje automático se basa en ambas disciplinas y las empuja hacia adelante. Se podría decir que la informática también se está ramificando hacia la ciencia de datos como una subsidiaria.

A medida que los datos se vuelven más comunes en campos como la astronomía, la biología y las humanidades, los investigadores necesitan nuevas técnicas estadísticas para revelar señales significativas entre el ruido. El aprendizaje automático potencia tecnologías avanzadas desde reconocimiento facial y de voz hasta autos que se conducen a sí mismos, y los científicos esperan aplicarla a todos los problemas en los que los programas de computadora deben tomar decisiones basadas en una gran cantidad de datos, probablemente un nuevo campo llamado Inteligencia Artificial

Tanto el aprendizaje automático como las estadísticas tienen un papel vital que desempeña en términos de escalar hacia una carrera en la ciencia de datos.

Para realmente profundizar en el tema, uno debe entender el concepto de aprendizaje automático y cuáles son los roles que le pertenecen.

Permítame especificar el porcentaje de las habilidades requeridas por un científico de datos:

  • Estadísticas – 70–80%
  • Modelado predictivo – 70–80%
  • Aprendizaje automático – 10–15%
  • Minería de textos – 30%
  • Visualización – 5%
  • Despliegue – 5%

Como se indica en la descripción anterior, podemos ver que las estadísticas requieren de 70 a 80% y el aprendizaje automático es de 10 a 15%, bastante manejable.

Entonces, ¿qué es el aprendizaje automático?

El aprendizaje automático es básicamente un campo en Ciencias de la Computación que le da a las computadoras la capacidad de aprender sin ser realmente programadas explícitamente. El futuro con el aprendizaje automático es tremendo y enorme, es un conjunto de servicios que ayuda a los algoritmos a mejorar con la experiencia.

Echa un vistazo a esta noticia reciente que muestra cómo se pueden identificar sospechosos desconocidos mediante el aprendizaje automático.

No hay duda de que el aprendizaje automático ha ganado cada vez más popularidad en los últimos años. En este momento, los datos son la tendencia más candente en la industria de la tecnología, juegan una increíble y poderosa predicción o sugerencias calculadas basadas en grandes conjuntos de datos.

El aprendizaje automático tiene básicamente tres categorías amplias:

  1. Aprendizaje supervisado
  2. Aprendizaje sin supervisión
  3. Aprendizaje reforzado

Fuente de la imagen ~ Abdul Rahid

La inteligencia artificial y el aprendizaje automático se encuentran entre los desarrollos tecnológicos más importantes que se han producido en los últimos tiempos.

Hablando de estadísticas: esto representa casi el 70 – 80% en términos de una carrera en Data Science. ¿Por qué las estadísticas son importantes para un científico de datos?

El científico de datos confía y usa estadísticas para resumir los datos; en una hipótesis, las estadísticas se pueden usar para calcular las posibilidades y la probabilidad de obtener un resultado.

Aunque convertirse en científico de datos puede sonar como una carrera genial y divertida, pero confía en mí, no es una taza de té para todos.

En resumen, las estadísticas y el aprendizaje automático juntos hacen que sea un científico de datos exitoso.

Estadísticas: 70-80% y Aprendizaje automático: 10–15%

¿Cuál es el mejor trabajo que se puede obtener al tener conocimiento sobre estos dos temas en particular?

Actualmente, con un cierto conocimiento de la programación y las habilidades mencionadas anteriormente, uno puede elegir ser un científico de datos, un trabajo importante del siglo XXI.

Debe tener el término tan familiar, es porque se predice que la ciencia de datos será el estado más importante en las industrias en este momento. Y las empresas se dan cuenta de lo importante que es extraer datos todos los días.

¿Cuáles son las otras habilidades para ser un científico de datos?

Además de las estadísticas y el aprendizaje automático, debe tener habilidades como conocer lenguajes de programación como R y Python, modelado predictivo, visualización de datos, minería de datos, modelado de datos, etc.

¿Cuál es el futuro de la ciencia de datos?

Demanda:

  • Los trabajos que requieren habilidades de aprendizaje automático pagan un promedio de $ 114,000. Los trabajos de científicos de datos anunciados pagan un promedio de $ 105,000 y los trabajos de ingeniería de datos anunciados pagan un promedio de $ 117,000.
  • Para 2020, la cantidad de empleos para todos los profesionales de datos de EE. UU. Aumentará en 364,000 aperturas a 2,720,000, según IBM. Lee mas…

Tendencia laboral:

Salario:

Si bien el crecimiento en este campo presenta oportunidades para más empleos, enfrentamos el desafío de llenar estos puestos con profesionales calificados y capacitados. Según un estudio reciente realizado por Wanted Analytics, solo el 4% de los 332,000 programadores de computadoras en los Estados Unidos tienen actualmente el conjunto de habilidades requerido para la ciencia de datos. Y la firma de consultoría de gestión global McKinsey & Company pronostica que para 2018 habrá 4 millones de trabajos relacionados con grandes datos en los EE. UU., Y una escasez de 140,000 a 190,000 científicos de datos.

Lea aquí para acceder a los detalles completos …

¿Dónde puedes adquirir estas habilidades hoy?

La mejor manera de hacer un acercamiento es por –

  1. Conozca las tecnologías utilizadas para el científico de datos que lo contratarán
  2. Trabajar en pocos proyectos.
  3. ¡Ser contratado!

Si aún no ha aprendido los lenguajes de programación, le recomendaría que aprenda R y Python primero porque la mayoría de las empresas están contratando candidatos que tienen conocimientos técnicos sobre las habilidades necesarias para el científico de datos. La mayoría de las empresas buscan personas con estas habilidades porque es escalable y tiene una gran demanda en este momento y no cesará al menos durante 5 años. Hay una gran oportunidad y no será difícil encontrar un trabajo si uno tiene la habilidad suficiente.

Puedes usar plataformas como Udacity, Udemy y Edureka, etc. para aprender estas habilidades.

Además de las plataformas anteriores, también puede utilizar edWisor. Puede aprender estas tecnologías en un proceso paso a paso, y le ofrecen un buen proceso de aprendizaje al brindarle un modelo basado en proyectos en el que puede trabajar para que pueda mostrarlo en su cartera. La mejor parte de esta plataforma es que usted obtiene un empleo asegurado una vez que haya terminado con la trayectoria profesional. Encontrará nuevas empresas en los portales de contratación, como AngelList e iimjob, etc., que están contratando para científicos de datos de primer nivel. Una vez que adquiera experiencia de aprendizaje de ellos, siempre podrá cambiar de oportunidades a empresas más grandes basadas en productos y ganar hasta 20lpa.

Del mismo modo, como más fresco es difícil encontrar un trabajo. En tales casos, siempre puede considerar edWisor para esa materia. Hay más de 100 compañías contratando candidatos entrenados en edWisor para puestos de trabajo de tiempo completo.

¡¡Te deseo buena suerte!!

No creo que tenga sentido dividir el aprendizaje automático en informática y estadísticas. Los científicos informáticos inventaron el nombre de aprendizaje automático, y es parte de la informática, por lo que en ese sentido es 100% informático. Pero el contenido del aprendizaje automático es hacer predicciones a partir de datos. Las personas en otros campos, incluidos los estadísticos, también lo hacen. Es más que los científicos de la computación y los estadísticos ven “hacer predicciones a partir de datos” a través de diferentes lentes. Aquí hay algunos estereotipos, que estoy agregando como encabezado para que no tenga que decir “tiende a” y “en su mayoría” en todas partes.

Los científicos informáticos ven el aprendizaje automático como “algoritmos para hacer buenas predicciones”. A diferencia de los estadísticos, los científicos en computación están interesados ​​en la eficiencia de los algoritmos y, a menudo, difuminan la distinción entre el modelo y la forma en que el modelo se ajusta. Los informáticos no están demasiado interesados ​​en cómo obtuvimos los datos o en los modelos como representaciones de alguna verdad subyacente. Para ellos, el aprendizaje automático son cajas negras que hacen predicciones. Y las ciencias de la computación han dominado en su mayor parte las estadísticas cuando se trata de hacer buenas predicciones.

Los estadísticos se preocupan por los modelos abstractos de probabilidad y no les gusta pensar cómo se ajustan (ummm, ¿son los mínimos cuadrados ponderados iterativamente?). Los estadísticos prestan más atención a los modelos de interpretación (p. Ej., Mirando los coeficientes) y asignan un significado a las pruebas estadísticas sobre la estructura del modelo. Los científicos de la computación podrían preguntarse razonablemente si los estadísticos comprenden las cosas tan bien, ¿por qué son tan malas sus predicciones? Pero yo divago. A diferencia de los científicos informáticos, los estadísticos entienden que es importante cómo se recopilan los datos, que las muestras pueden estar sesgadas, que las filas de datos no tienen que ser independientes, que las mediciones pueden ser censuradas o truncadas. Estas cuestiones, que a veces son muy importantes, pueden abordarse con el enfoque de modelo de probabilidad que favorecen los estadísticos.

Tanto los informáticos como los estadísticos ignoran las cuestiones de causalidad cuando construyen modelos. En este momento, la causalidad no juega un papel muy importante en el “aprendizaje automático”, a pesar de que obviamente es importante para hacer predicciones. Los economistas son mejores en reconocer esto. Tal vez algún día haya una versión futura de esta pregunta que mencione el modelado causal como un tercer aspecto del aprendizaje automático.

Son ambos. ML no habría llegado a donde está sin ambos. Y, desafortunadamente, hay de estadísticas y CS que no se dan cuenta del valor del otro campamento.

Sin estadísticas, una gran parte de la tecnología actual no sería posible. Y la mayoría de los algoritmos ML tienen una fuerte teoría estadística que los respalda. Sin embargo, sin CS, la capacidad de aplicar esos algoritmos sería casi inexistente.

Los dos campamentos tienen mucho que aprender unos de otros. Los investigadores de ML de CS deben dejar de reinventar la rueda y reconocer el uso de estadísticas. Los estadísticos deben reconocer que dejaron caer la pelota, y en lugar de manejar la ola de la ciencia de datos como deberían ser, se los percibe como atrasados. Tienen que abogar por el uso del pensamiento estadístico. (Porque, bueno, es necesario.)

Hay algunos de ambos campamentos haciendo esto, pero, desde mi punto de vista, no lo suficiente.

De otra respuesta antes de fusionar:

Sin la informática, no habría ideas reales sobre la IA.

Sin estadísticas, probablemente no habría computadoras, ya que las estadísticas se utilizaron en el centro de muchos descubrimientos científicos. Por otra parte, sin las computadoras, las estadísticas se harían a mano … no una perspectiva bienvenida.

Sin matemáticas, ni siquiera habríamos construido ciudades.

Todo se construye uno sobre el otro.

La estadística es un análisis de datos basado en la teoría de la probabilidad (bueno, depende de a quién preguntes, pero eso es bastante estándar). Existen muchos conceptos matemáticos que, aunque no se basan en la teoría de la probabilidad o la estadística, se debieron a la necesidad de resolver los problemas de datos.

Cada vez más, encuentro divisiones como esta bastante arbitrarias. ¿A quién le importa si esta técnica es 10% matemática, 20% estadísticas y 70% CS? CS tiene enormes raíces en las matemáticas. Lo mismo ocurre con las estadísticas. Si un algoritmo se puede ver estadísticamente, ¿no debería considerarse desde ese punto de vista así como los otros puntos de vista? Más formas de ver un problema llevan a mejores soluciones.

¿Por qué limitar tu punto de vista? Creo que lo hacemos implícitamente en nuestras mentes al imaginar tales diferencias entre los campos en lugar de usar lo que funciona cuando es apropiado.

Yo diría que es una combinación de ambos. Pero creo que el aprendizaje automático tiene más matemática que informática.
Todos los algoritmos ML tienen una base muy sólida en matemáticas. No solo estadísticas: es álgebra lineal (operaciones en matrices), cálculo diferencial e integral, incluso topología. Y, por supuesto, muchas estadísticas y todo tipo de probabilidad (la probabilidad bayesiana es muy elegante ahora).
Ciertamente, hay una cuestión de una implementación efectiva de estos algoritmos, y ahí es donde la ciencia de la computación se convierte en una obra de teatro. En particular, el aprendizaje automático a gran escala (también conocido como “big data”) depende en gran medida de los sistemas distribuidos; algunos modelos gráficos utilizan algoritmos de simulación para aprendizaje e inferencia (por ejemplo, algoritmos de Monte Carlo para redes bayesianas).
Pero de todos modos, en el aprendizaje automático, la ciencia informática ocupa el segundo lugar: las matemáticas son lo más importante. Esa es mi opinión.

“Cuánto” tal vez no sea una forma útil de hacer la pregunta; aunque no critique el póster de la pregunta original aquí, puedo imaginar por qué se hace esa pregunta.

El aprendizaje automático es fundamentalmente aprender de los datos en su núcleo. Aunque las implementaciones de ML requieren el uso de técnicas de ingeniería computacional, en su núcleo, ML se trata de datos y análisis estadístico. En este sentido, ML utiliza tanto estadística como ingeniería computacional. Si bien la informática es la base de los métodos de ingeniería computacional (que incluyen resolución de ecuaciones, optimización, factorización matricial, etc. aplicados a modelos de problemas de dominio específico), algunos algoritmos y géneros de computación se utilizan de manera desproporcionada desde ese espacio, en comparación con el análisis estadístico. Métodos, que son generosamente tomados del cuerpo estadístico del conocimiento.

Para responder mejor a esta pregunta, es importante saber cuál es su definición de informática y estadística.

De todos modos, el aprendizaje automático es tan diverso que abarca muchos campos diferentes de la ciencia inspirándose en ellos. Yo diría que es imposible distribuir las acciones solo entre Informática y Estadísticas. Debido a que la mayor parte del éxito del aprendizaje automático proviene del álgebra lineal (especialmente el cálculo matricial) y las técnicas de optimización. Hay métodos que se concentran más en torno a las teorías estadísticas, hay otros métodos que tienen en cuenta la relación gráfica y estructural de los datos, algunos están más inspirados en la biología, neurología, física, probabilidad, etc.

Por lo tanto, en base a mi definición de informática, la informática es un facilitador que proporciona un buen entorno de programación, una estructura y almacenamiento de datos eficientes, que facilita el procesamiento, la visualización, etc. en paralelo y de varios núcleos (CPU / GPU).

Puede que seas muy bueno en ciencias de la computación, aunque puede parecer muy difícil trabajar con el aprendizaje automático. Puede que seas muy bueno en estadística, pero puede parecer muy difícil materializar la teoría / concepto. E incluso si ambos lo saben, es posible que en muchos casos no se incorpore.

En mi opinión, para comprender la técnica moderna moderna de aprendizaje automático, es obligatorio un sólido entendimiento del álgebra lineal y la teoría de la optimización. Para dar un giro o renovar la arquitectura, creo que una búsqueda abierta es inevitable. El aprendizaje automático está fuertemente inspirado por la naturaleza, la vida, la sociedad y nuestro cerebro. No es nada diferente a enseñar a un niño o cómo los niños crecen aprendiendo de las experiencias. En mi opinión, es un viaje asombroso para encontrar la filosofía y las matemáticas detrás del misterioso proceso del aprendizaje humano y replicarlo en una máquina para superar algunas de las limitaciones del ser humano.

Por lo tanto, mi conclusión es que el aprendizaje automático no se limita solo a la informática y las estadísticas, por supuesto, son dos de las partes más importantes. Y, por supuesto, puedes empezar a trabajar sin pensar mucho en cuánto es qué. Si es posible, domine ambos y extienda a la naturaleza a medida que avanza.

Bueno, todavía soy un novato, realmente no entiendo mucho del aprendizaje automático, pero aprendo un paso cada día y me pregunto si veremos su diversidad y profundidad.

Buena suerte.

Depende.

Cuando hay pocos ejemplos, es básicamente estadística.

Cuando hay muchos ejemplos y desea implementarlo en un sistema en vivo, las preocupaciones de la ciencia informática a menudo se vuelven dominantes, aunque el aspecto de las estadísticas sigue siendo relevante.

Hay elementos de aprendizaje automático que no son estadísticas tradicionales ni ciencias informáticas. La optimización y la teoría de la representación vienen a la mente como nunca en casa en ninguno de los dos.

Como un amplio subcampo de inteligencia artificial, el aprendizaje automático se ocupa del diseño y desarrollo de algoritmos y técnicas que permiten a las computadoras “aprender”. A nivel general, hay dos tipos de aprendizaje: inductivo y deductivo. Los métodos de aprendizaje automático inductivo extraen reglas y patrones de conjuntos de datos masivos.
El objetivo principal de la investigación sobre aprendizaje automático es extraer información de los datos automáticamente, mediante métodos computacionales y estadísticos. Por lo tanto, el aprendizaje automático está estrechamente relacionado no solo con la minería de datos y las estadísticas, sino también con la informática teórica.
La minería de datos se basa en el uso de datos del mundo real. Estos datos son extremadamente vulnerables a la colinealidad precisamente porque los datos del mundo real pueden tener interrelaciones desconocidas. Una debilidad inevitable de la minería de datos es que los datos críticos que pueden explicar las relaciones nunca se observan. Se pueden utilizar enfoques alternativos que utilizan un enfoque basado en experimentos, como el Modelado de elección para datos generados por humanos. Las correlaciones inherentes se controlan o eliminan por completo mediante la construcción de un diseño experimental.
La minería de datos se ha citado como el método por el cual la unidad del Ejército de los EE. UU. Able Danger supuestamente identificó al líder de los ataques del 11 de septiembre de 2001, Mohamed Atta, y otros tres secuestradores del 9/11 como posibles miembros de una célula de Al Qaeda que opera en los EE. UU. Más Que un año antes del ataque.

La parte de informática es la implementación: generación de datos, cálculo de características, capacitación, puntuación y arquitectura de servicio. La parte de estadísticas se compone de los aspectos de modelado, selección de funciones / ingeniería y análisis / evaluación.

En términos simples, hay más estadísticas en forma de configuración de algoritmo y manipulación de datos. Uno también diría que la recopilación y manipulación de datos forma parte de las estadísticas, lo que hace que la informática sea principalmente la presentación de las estadísticas a través del desarrollo de aplicaciones. Cualquiera que haya hecho ciencias de la computación habría hecho las estadísticas como un módulo, de modo que es ahí donde la ciencia de las computadoras te confundirá porque cubre incluso la Inteligencia Artificial, que es parte del aprendizaje automático, lo que hace que sea más amplio compararla con las estadísticas que se basan más en las matemáticas.

Por mucho que lo hagas.

Las estadísticas han existido durante mucho tiempo, al menos en comparación con la informática;)

Tiene muchos éxitos, pero hasta el momento no nos ha proporcionado un modelo de aprendizaje generalmente aplicable computacionalmente exitoso. Por supuesto que podría no existir. Sin embargo, la informática tiene focos bastante diferentes en comparación con las estadísticas, y podría ser que el algoritmo de aprendizaje difícil de alcanzar se encuentre sin la ayuda de estadísticas.

Taller internacional sobre IA relacional estadística