Sin ninguna experiencia en programación, ¿cómo aprendo a ser un científico de datos?

Bueno, vas a tener que empezar por obtener algo de experiencia en programación.

La ciencia de datos existe en la intersección de las estadísticas, la informática y la experiencia general. Tomar el aspecto de la ciencia computacional lo llevaría a la investigación tradicional, pero no llegará muy lejos en el mundo de la ciencia de los datos sin aprender a programar.


Adquisición: la ciencia de datos no requiere necesariamente el mismo nivel de experiencia en programación que, digamos, la ciencia informática requiere. Sin embargo, debes dominar al menos un lenguaje de scripting como JavaScript, Python o Ruby (<: estos son todos los tutoriales) si quieres sobrevivir. La ciencia de los datos puede incluir la creación de conjuntos de datos en primer lugar, y estos idiomas se pueden utilizar para facilitar la recopilación de datos inicial a través de arañas y raspadores.

Acceso: una vez que tiene un medio para recopilar datos, necesita un lugar para almacenarlos de manera fácilmente accesible. Ahí es donde entran en juego lenguajes como SQL y programas como MySQL. Por supuesto, tiene muchas otras opciones de base de datos, pero para acceder y ejecutar con éxito el análisis básico de la información en una base de datos, debe conocer el idioma relevante. (Dependiendo de la cantidad de datos con los que esté trabajando, es posible que también necesite saber cómo configurar un servidor. ¡O puede consultar Mode Analytics!)

Análisis: por último, pero no menos importante, deberá 1) saber mucho sobre probabilidad y estadísticas, si aún no lo ha hecho, y 2) aprender a usar software estadístico. Por favor proceda en ese orden. Personalmente, soy un fan de R, pero también tienes muchas otras opciones.

Entonces, si la ciencia de los datos es algo en lo que realmente está preparado, tendrá que desarrollar habilidades de programación para al menos estas tres tareas: adquisición de datos, acceso a datos y análisis de datos.

Además de las excelentes respuestas que ya se dieron aquí, me gustaría sugerir a los recién llegados a Data Science que visiten Data Science Toolbox ( http://datasciencetoolbox.org ). Te permite comenzar con R y la pila científica de Python sin tener que preocuparte por instalar todo.

Descargo de responsabilidad: soy el principal desarrollador de Data Science Toolbox.

Debe consultar la pista de especialización de datos de Coursera: https://www.coursera.org/special

Actualmente estoy tomando la clase de Productos de construcción de datos y hay muy poca programación involucrada hasta ahora … Brian Caffo y Team están haciendo un gran trabajo hablando con todos los públicos. Además, los productos como R hacen que sea más fácil para los programadores no hacer más.

Sin embargo, como Katie Hoban explicó muy bien, todo dependerá de la profundidad con la que quiera bucear en este campo … No se vería bien si tuviera que preguntarle a su equipo de TI cada vez que necesite realizar un extracto de datos, o aplica cualquier tipo de procesamiento y que no importa cuán buen estadístico seas … a menos que no te importe el título de Data Scientist …

¡Buena suerte!