¿Puedo convertirme en un científico de datos autodidacta?

Aquí está mi hoja de trucos de convertirse en un científico de datos a través de sus propios esfuerzos:

  1. Comprender los datos : los datos son inútiles y pueden (y deberían) ser engañosos sin el contexto. Los datos necesitan una historia para contar una historia. Los datos son como un color que necesita una superficie para probar incluso su existencia, como el color rojo, por ejemplo, no puede probar su existencia sin una superficie, vemos un coche rojo o una bufanda roja, una corbata roja, zapatos rojos o algo rojo. de manera similar, los datos deben estar asociados con su entorno, contexto, métodos, formas y todo el ciclo de vida en el que nace, se genera, se utiliza, se modifica, se ejecuta y se termina. Todavía tengo que encontrar un “científico de datos” que pueda hablarme sobre los “datos” sin mencionar tecnologías como Hadoop, NoSQL, Tableau u otros proveedores sofisticados y palabras de moda. Necesitas tener una relación íntima con tus datos; Necesitas saberlo al revés. Preguntarle a alguien más sobre anomalías en “su” información es igual a preguntarle a su esposa cómo queda embarazada. Una de las ventajas que teníamos para nuestra relación con la ONU y el software para asegurar que las escuelas formen bombardeos es nuestro control sobre los datos subyacentes, mientras que el mundo habla de ello utilizando gráficos y cifras estadísticas, somos los que estamos en casa quienes lo experimentamos Vívelo en nuestra vida diaria, la importancia, los detalles y la apreciación de estos datos que no podemos encontrar en ningún otro lugar. Estamos haciendo lo mismo con nuestros otros proyectos y clientes.
  2. Comprenda al científico de datos : desafortunadamente, una de las palabras más confundidas y mal utilizadas en las ciencias de datos es el “científico de datos” en sí. Alguien lo relaciona con un oráculo místico que lo sabría todo bajo el sol, mientras que otros lo reducirían a expertos en estadística, ya que pocos están familiarizados con Hadoop y NoSQL, y para otros es alguien que puede realizar pruebas A / B y puede use tantos términos matemáticos y estadísticos que serían difíciles de entender en las reuniones ejecutivas. Para algunos, se trata de paneles de visualización y para otros es un proceso ETL sin fin. Para mí, un Data Scientist es alguien que entiende menos acerca de la ciencia que los que la crean y poco menos acerca de los datos que los que la generan, pero sabe exactamente cómo funcionan juntos estos dos. Un buen científico de datos es el que sabe lo que está disponible “fuera de la caja” y con quién necesita conectarse, contratar o las tecnologías que necesita implementar para realizar el trabajo, uno que puede vincular los objetivos comerciales con los mercados de datos. y quién puede simplemente conectar los puntos de ganancias empresariales a comportamientos humanos y de generación de datos a dólares gastados.
  3. Mira estos 13 videos de Ted
  1. Escuche los podcasts semanales de Parcialmente Derivado en Ciencias de Datos y explore su página de Recursos
  2. La introducción a la ciencia de datos y computación de la Universidad de Washington para el análisis de datos será un buen comienzo
  3. Echa un vistazo a Measure for America para comprender cómo los datos pueden marcar la diferencia.
  4. Lea el libro gratuito – Guía de campo de ciencias de datos
  5. Siga religiosamente esta infografía sobre cómo convertirse en un científico de datos.
  6. Lee este blog para dominar tus habilidades estadísticas
  7. Lee esta maravillosa introducción práctica a las ciencias de datos de Zipfian Academy
  8. Intenta completar este programa de maestría en ciencia de datos de código abierto
  9. Realice este curso de aprendizaje automático en Coursera con el co-fundador Andrew Ng de Coursera.
  10. De todos modos, complete esta Especialización en Data Science en Coursera, los nueve cursos y la piedra angular.
  11. Si carece de experiencia en informática o quiere dedicarse a la parte de programación de las ciencias de datos, intente completar esta Especialización en minería de datos de Coursera
  12. Opcional: depende de la industria con la que le guste trabajar, es posible que desee ver estos cursos / enlaces específicos de la industria sobre ciencias de la información, análisis de salud – introducción y especialización, educación, optimización del rendimiento e investigación académica general
  13. Para comprender el lado de la implementación de las aplicaciones de ciencia de datos, esta especialización en computación en la nube de los servicios web de Coursera y Youtube Amazon y las capacitaciones gratuitas son obligatorias.
  14. Realice estos cursos de segundo a ninguno sobre conjuntos de datos masivos de minería y minería de procesos.
  15. Ir a través de los mejores tutoriales de ciencia de datos en Hackr
  16. Este enlace te llevará a los 27 mejores libros de minería de datos gratis
  17. Trate de leer Data Science Central una vez al día, artículos como este pueden ahorrarle mucho tiempo y discusión en las entrevistas.
  18. Intenta competir en tantas competiciones de datos como puedas
  19. Para poner una cereza en el pastel, estos cursos basados ​​en estadísticas lo ayudarán a diferenciarse de todos los demás solicitantes: estadísticas inferenciales, estadísticas descriptivas, análisis y estadísticas de datos, estadísticas de unidad de pasión y sentido de los datos.
  20. Siga lo siguiente en Twitter para Predictive Analytics: @DataScienceCtrl , @analyticbridge, @mgualtieri, @doug_laney, @Hypatia_LeslieA, @hyounpark y @anilbatra
  21. Siga lo siguiente en Twitter para Big Data y Data Sciences: Vincent Granvill, Alistair Croll, Alex Popescu, @rethinkdb, Amy Heineike, Anthony Goldbloom, Ben Lorica, @oreillymedia, Bill Hewitt, Carla Gentry CSPO, David Smith, David Feinleib , Derrick Harris, DJ Patil, Doug Laney – Edd Dumbill, Eric Kavanagh, Fern Halper, Gil Press, Hilary Mason, Jake Porway, James Gingerich, James Kobielus, Jeff Hammerbacher, Jeff Kelly, Jim Harris, Justin Lovell, Kevin Weil, Krish Krishnan, Manish Bhatt, Merv Adrian, Michael Driscoll, Monica Rogati, Neil Raden, Paul Philp, Peter Skomoroch, Philip (Flip) Kromer, Philip Russom, Paul Zikopoulos, Russell Jurney, Sid Probstein, Stewart Townsend, Todd Lipcon, Troy Sadkowsky, William McKnight, Yves Mulkers

La lista completa tardará de 3 a 12 meses en completarse y no le costará absolutamente nada, y puedo garantizarle que con este conjunto de habilidades tiene que esforzarse mucho para permanecer sin trabajo.

Cortesía: cómo convertirte en un científico de datos: por tu cuenta

Sí, puedes convertirte en un científico de datos autodidacta. Asumo que estás en una posición de tener un trabajo de tiempo completo y quieres aprender por ti mismo para convertirte en un científico de datos. Hay muchas otras respuestas excelentes aquí que le han dado una tonelada de material para pasar. Esto es genial, pero el problema con este enfoque es que, ¿cuándo te detienes? Hay años y años de contenido y, en teoría, puedes aprender la ciencia de los datos para siempre. Esto es lo que se necesita para convertirse en un científico de datos autodidacta:

Las mentalidades que debes interiorizar:

  • Aprender siempre: la realidad de este campo es que siempre hay nuevos paquetes, bibliotecas, algoritmos creados. Esto significa que siempre debes estar dispuesto a aprender nuevas herramientas, nuevas metodologías. Muchas cosas que haces hoy, pueden estar desactualizadas en unos pocos años.
  • Averiguar las cosas por su cuenta: muchas veces, encontrará errores o problemas en los que no tiene a nadie allí para responder sus preguntas. Debes ser bueno en descubrir las cosas por tu cuenta. Esto significa, lectura de desbordamiento de pila, publicaciones de blog, videos para enseñarte nuevos conceptos.
  • Manejar la frustración: debe poder soportar la frustración cuando está haciendo mucho trabajo y al parecer no hay progreso. Debes estar cómodo con la ejecución de muchos experimentos fallidos. Debes estar cómodo pasando horas depurando código.

Una vez que entiendas esas mentalidades, aquí está la progresión que recomendaría:

1. Elija un problema de datos interesante que le entusiasme: el propósito de la ciencia de datos es resolver problemas. El aprendizaje de la ciencia de datos es un proceso difícil, difícil. La manera de mantener la motivación suficiente para superar estos obstáculos, es trabajar en un problema que realmente le interesa. Tal vez, es componer música usando un aprendizaje profundo, predecir el precio de bitcoin, visualizar gráficos de baloncesto, etc. Comenzar con un Problema interesante y encontrar proyectos interesantes que la gente haya hecho.

2. Encuentre el github de alguien que haya creado un proyecto por el que está entusiasmado: encontrar el código de código abierto de otra persona le dará una respuesta directa sobre su situación en términos de nivel de habilidad. Al encontrar otro proyecto, esto también le brinda un “objetivo” sólido al que aspirar con su proyecto. No te preocupes por entender el código, solo necesitamos un objetivo.

3. Divida el proyecto en trozos pequeños y luego encuentre los recursos que llenan estos fragmentos de conocimiento: me gusta usar la metodología CRISP-DM para desarrollar el proyecto de ciencia de datos. El principio aquí es que aprendemos lo suficiente como para poder avanzar en la metodología CRISP-DM. Elija un recurso y use el resto como recursos suplementarios. No te ahogues en la información. Elija los recursos que resuenen mejor con su estilo de aprendizaje.

a. Programación: necesitarás construir tu proyecto en algún lenguaje, así que necesitarás programación. O R o Python harán:

– Dataquest: Aprenda Data Science con Python y R Projects

– Zed Shaw’s Learn Python the Hard Way

– Curso de Google Python: Clase de Google Python | Educación en pitón
| Desarrolladores de Google

segundo. Adquisición de datos: para obtener sus datos, puede encontrarlos en los sitios confeccionados o raspar sus datos:

– Kaggle

– data.world

– Más de 100 conjuntos de datos interesantes para estadísticas – rs.io

o….

– Construyendo su propio raspador web: https://www.dataquest.io/course/… raspado

do. SQL: la creación de sus propios proyectos no requerirá que necesite necesariamente SQL. Sin embargo, SQL es MUY IMPORTANTE si desea trabajar como científico de datos en cualquier empresa. Te garantizo que también serás probado en esto en entrevistas. Buenos recursos:

  • hackerrank
  • Curso de SQL de Mode Analytics

re. Limpieza / transformación de datos: para que sepa codificar y tenga datos. ¿Cómo empiezas a manipular el conjunto de datos? Si eliges Python, necesitarás aprender Pandas o Numpy. Si está utilizando R, estas bibliotecas están integradas en el lenguaje:

– Numpy & Pandas: 10 minutos de pandas

mi. Visualización de datos: Viz + limpieza / transformación de manera iterativa van juntos. Esto significa que se transforma para obtener una visualización determinada y luego se transforma nuevamente para obtener otra visualización. Grandes recursos de la visión:

– R: Hadley Wickham’s R para Data Science: http://r4ds.had.co.nz/data- visualisation.html # the-layered-grammar-of-graphics

– Matplotlib: curso de visualización de datos con Matplotlib

F. Estadísticas: Una vez que haya creado histogramas, diagramas de caja, etc., será importante poder entender estos diagramas. Para ello, necesitarás estadísticas. Khan Academy es genial para estos conceptos.

sol. Regresión lineal / regresión logística:

– Lea las secciones de Regresión lineal y logística de ISLR: http://www-bcf.usc.edu/~gareth/I

h. Aprendizaje automático: use arxiv para encontrar artículos de investigación sobre una variedad de algoritmos. Como has encontrado a alguien que ha construido tu proyecto, ya sabes qué algoritmos utilizaron.

Agarra un bolígrafo y un bloc de notas y profundiza en los trabajos de investigación. Es probable que no comprenda nada la primera vez que lea un trabajo de investigación. No te rindas Probablemente vuelvo a leer un artículo más de 10 veces para asegurarme de que entiendo cómo funciona el algoritmo.

4. Haga público su proyecto en github, un blog y escriba un buen README: Quiere que este proyecto sea parte de su cartera, esencialmente una prueba de que puede construir proyectos de ciencia de datos. Escriba un buen README que explique su proceso de pensamiento sobre por qué eligió ciertos algoritmos. Articular esto también lo prepara para las entrevistas, ya que las empresas le preguntarán sobre esto.

5. Repita: haga esto varias veces para construir su cartera.

6. Creación de redes / búsqueda de trabajo: haga esto simultáneamente con el Paso 5. Esto significa salir a reuniones, usar LinkedIn para conectarse y solicitar intros. Este paso es igual de importante para convertirse en un científico de datos, sin embargo, esto requeriría otra publicación.

Las entrevistas de Data Science son en realidad una bestia por separado, con pizarras blancas, desafíos de codificación, llevar a casa. Esto también, requerirá otro post.

En general, diría que convertirse en un científico de datos autodidacta, requerirá al menos de 500 a 700 horas de aprendizaje por adelantado. Si desea hacer esto en 3 meses, un año, dos años, depende de su situación. Después de terminar estas 500 horas, debe saber lo suficiente para obtener una posición de científico de datos de nivel de entrada. Una vez que tenga una configuración de cartera sólida y sus habilidades perfeccionadas, debe dividir su tiempo 50/50 estudiando para entrevistas + solicitudes de empleo.

Si te gustó esta respuesta, por favor considera subirla y seguirme.

Trabajo para Dataquest, la mejor plataforma en línea para aprender a ser Data Scientist. En realidad, hemos incorporado todos estos pasos en nuestra plataforma, por lo que todo el contenido está ahí para usted. Más allá de enseñarle los conceptos que necesita, favorecemos un enfoque de aprendizaje basado en proyectos y tenemos muchos proyectos guiados que pueden constituir el inicio de su portafolio de ciencia de datos.

Si eso le interesa, puede registrarse y completar nuestro primer curso gratis en Dataquest.io

Hace un tiempo, escribí algunos recursos sobre cómo aprender más sobre ciencia de datos por su cuenta. Esto se orientó principalmente a las personas que querían postularse a nuestra beca gratuita Data Science Fellowship como una guía útil para comenzar, pero es un lugar útil para comenzar, independientemente de dónde quiera postularse para ser un científico de datos.

Aquí hay cinco habilidades importantes para desarrollar y algunos recursos sobre cómo ayudarlo a desarrollarlas. Si bien no esperamos que nuestros solicitantes posean todas estas habilidades, la mayoría de los solicitantes ya tienen una sólida formación en muchas de ellas.

  1. Rastreo : hay una gran cantidad de datos por ahí, así que tendrás que aprender cómo acceder a ellos. Ya sea en formato JSON, HTML o en algún formato homebrew, deberías poder manejarlos con facilidad. Los lenguajes de script modernos como Python son ideales para esto. En Python, vea paquetes como urllib2, peticiones, simplejson, re y beautiful soup para facilitar el manejo de solicitudes web y formatos de datos. Los temas más avanzados incluyen el manejo de errores (reintentos) y la paralelización (multiprocesamiento).
  2. SQL : una vez que tenga una gran cantidad de datos estructurados, querrá almacenarlo y procesarlo. SQL es el lenguaje de consulta original y su sintaxis es tan frecuente que existen interfaces de consulta SQL para todo, desde sqldf para marcos de datos R a Hive para Mapreduce. Normalmente, tendría que pasar por un proceso de instalación doloroso para jugar con SQL. Afortunadamente, hay un buen tutorial interactivo en línea disponible donde puede enviar sus consultas y aprender de manera interactiva. Además, Mode Analytics tiene un excelente tutorial dirigido a científicos de datos, aunque no es interactivo. Cuando esté listo para usar SQL localmente, SQLite ofrece una versión de SQL sencilla de instalar.
  3. Marcos de datos : SQL es excelente para manejar grandes cantidades de datos, pero desafortunadamente carece de aprendizaje y visualización automática. Por lo tanto, el flujo de trabajo a menudo consiste en usar SQL o mapreduce para obtener datos a un tamaño manejable y luego procesarlos utilizando bibliotecas como los marcos de datos de R o los pandas de Python. Para Pandas, Wes McKinney, quien creó pandas, tiene un excelente video tutorial en YouTube. Míralo aquí y sigue el código de github.
  4. Aprendizaje automático : se puede hacer una gran cantidad de datos científicos con selección, unir y agrupar (o, de manera equivalente, mapear y reducir), pero a veces es necesario realizar un aprendizaje automático no trivial. Antes de saltar a algoritmos más sofisticados, pruebe algoritmos más simples como Naive Bayes y regresión lineal regulada. En Python, estos se implementan en scikit learn. En R, se implementan en las bibliotecas glm y gbm. Debería asegurarse de comprender los conceptos básicos realmente bien antes de probar algoritmos más sofisticados.
  5. Visualización : la ciencia de datos trata de comunicar sus hallazgos, y la visualización de datos es una parte increíblemente valiosa de eso. Python ofrece un trazado similar a Matlab a través de matplotlib, que es funcional, incluso si no se encuentra en forma ascética. R ofrece ggplot, que es más bonita. Por supuesto, si eres realmente serio acerca de las visualizaciones dinámicas, prueba d3.

Estas son algunas de las habilidades fundamentales que serán invaluables para su carrera como científico de datos. Si bien solo cubren un subconjunto de lo que hablamos en The Data Incubator (hay mucho más que cubrir en estadísticas, aprendizaje automático y mapreduce), este es un gran comienzo. Para obtener una lista más detallada de los temas, es posible que desee revisar esta gran infografía:

Con suficiente pasión y determinación, prácticamente cualquier persona puede convertirse en un científico de datos , pero tenga en cuenta que a veces puede ser un camino lleno de baches.

El aprendizaje de la ciencia de datos requiere una gran cantidad de autodisciplina y, por supuesto, considerables habilidades matemáticas y analíticas. También se recomienda un fondo en programación ( R , Python , MATLAB Scripting Language ).

Una vez que estés equipado con eso, puedes comenzar tu entrenamiento en ciencia de datos. Lo primero que necesitará es obtener algunos datos útiles para trabajar. Puede encontrar una gran cantidad de sitios con conjuntos de datos disponibles para descargar, pero trabajar con datos fuera de línea , si es un buen punto de entrada, puede hacer que se canse más adelante.

Analizar datos en línea ( datos dinámicos) es un concepto mucho más entretenido y desafiante. Además, el procesamiento continuo de datos es actualmente una de las habilidades más buscadas que un científico de datos debería tener. El procesamiento del flujo es particularmente importante para hacer que las aplicaciones de IoT deban procesar un flujo constante de datos provenientes de varios sensores integrados en un dispositivo.

Los datos dinámicos también se utilizan en el comercio electrónico, las redes de medios sociales, los juegos y las instituciones financieras, solo por mencionar algunos. La lectura y el análisis de los datos de transmisión le permiten actuar con rapidez según las fluctuaciones de los datos. Es por eso que el procesamiento de datos en tiempo real es una habilidad tan importante en las empresas donde una respuesta oportuna y precisa es crucial.

¿Cómo se puede acceder a los datos en línea? Puedes usar nuestro Aidlab, por ejemplo. Es un dispositivo que recopila varias señales biomédicas de su cuerpo y alimenta esa información de forma inalámbrica a su computadora a través de la tecnología Bluetooth 4.0+.

Con los datos de Aidlab, puede conocer las dependencias y correlaciones de los datos biomédicos, así como los diferentes métodos de compresión de datos. También aprenderá a modelar, visualizar y organizar datos en tiempo real. Además de ser un asistente útil en su capacitación en ciencia de datos, Aidlab lo ayudará a construir una base adecuada y sólida para sus futuros esfuerzos en ciencia de datos.

Es realmente recomendable que planee aprender ciencia de datos por sí mismo. Esto demuestra una verdadera dedicación en ti. Mi rol profesional exige mucha interacción con los aspirantes de la ciencia de datos como usted. Mi observación desesperada es que muchas personas dependen completamente de los cursos. Tanto es así que cuando se trata de aprender algo en particular, comienzan a buscar clases.

Nunca diría que las clases no son una buena manera de aprender. Son necesarios, pero no es recomendable que uno confíe completamente en ellos. La ciencia de datos es un tema enorme en sí mismo. A menudo lo relaciono con un tema multifacético donde uno no puede aprender todo en un solo lugar. Tomará mucho autoaprendizaje antes y después del curso que elija.

Data Science es básicamente una mezcla de Matemáticas, Estadística y Programación, cada una de las cuales tiene igual importancia. Entonces, para aprender Data Science, debes tener un conocimiento profundo de estos tres temas.

Para la programación: –

  • Comience con la comprensión de algunos principios básicos básicos de programación.
  • Obviamente, la primera pregunta que harías es: ¿Por qué usar Python? Vea los primeros 30 minutos de esta charla de Jeremy, fundador de DataRobot en PyCon 2014, Ucrania para tener una idea de lo útil que podría ser Python.
  • Después, puede intentar comprender los conceptos básicos del lenguaje, las bibliotecas y la estructura de datos. El tutorial interactivo de Python de DataCamp es uno de los mejores lugares para comenzar tu viaje. Este curso de codificación de 4 horas se centra en cómo comenzar con Python para la ciencia de la información y, al final, debe sentirse cómodo con los conceptos básicos del lenguaje.
  • Practique lo que ha aprendido en muchos programas interactivos en la academia de códigos https://www.codecademy.com/learn/learn-python

Para las estadísticas: –

  • Las estadísticas y la probabilidad son claves para la ciencia de datos. Simplemente siga los siguientes recursos y vea si realmente lo disfruta.
  • Introducción visual: esta es una introducción visual a los conceptos básicos en estadística y probabilidad
  • Estadísticas y probabilidad – Actualización básica a nivel de escuela secundaria de Khan Academy a Probabilidad y estadísticas

Introducción a la ciencia de datos: –

  • Data Science from Scratch – DEBE LEER
  • Cubre bibliotecas de ciencia de datos, marcos, módulos y juegos de herramientas que son excelentes para hacer ciencia de datos, pero también son una buena manera de sumergirse en la disciplina sin entender realmente la ciencia de datos. En este libro, aprenderá cuántas de las herramientas y algoritmos más fundamentales de la ciencia de datos funcionan implementándolos.

La siguiente fase en el aprendizaje de Data Science podría requerir que obtengas una buena orientación y aquí es donde las clases o los programas entrarán en escena. Quiero que entiendas la importancia de elegir dónde aprender.

Siempre recomendaría a los aspirantes a la ciencia de la información que vayan a un programa basado en el aula, guiado por un instructor y muy orientado a la práctica.

Encontrará muchas instituciones, cursos, programas que lo ayudarán a aprender ciencia de datos. Algunos son muy caros, mientras que otros son razonables. Pero, una cosa muy importante a tener en cuenta mientras se inscribe en dichos cursos es conocer el valor de los mismos en términos de conocimiento y lo que al final del curso está desarrollando dentro de usted.

Algunos puntos a considerar al elegir una institución / curso

  1. El énfasis está más en la práctica y no solo en la teoría.
  2. El proyecto se basa en declaraciones de problemas relevantes de la industria y no en las asignaciones de antigüedad
  3. Los aprendizajes y proyectos son colaborativos y se realizan en equipos.
  4. Usted obtiene herramientas reales de la industria y se enfoca en el desarrollo basado en pruebas.

Y en mi opinión, las certificaciones son una prueba de que ha completado un curso o un programa y no una prueba de lo que ha hecho. Debes haber leído muchos artículos sobre desempleo educado o incluso haber encontrado algunas experiencias personales en las que muchos estudiantes tienen una maestría, ¡pero aún no tienen trabajo!

¿Porque?

Bueno, porque hay una gran brecha de habilidades entre lo que quiere la industria y lo que hay en oferta. El sistema educativo, en gran medida, se ha convertido en un juego de negocios de venta de certificados. Por lo tanto, no siempre es necesario confiar en las certificaciones. La información teórica se puede impartir fácilmente. ¡Pero lo que importa es la IMPLEMENTACIÓN!

Descargo de responsabilidad: Soy un co-fundador de @GreyAtom, ayudando a los talentos de ingeniería a encontrar carreras sostenibles en tecnologías emergentes.

Algunos enlaces rápidos

Sí lo hice. Soy completamente autodidacta (incluida la ayuda de colegas), asistí a una sesión de una clase de informática y nunca regresé, sintiendo que las computadoras eran mi pasión y que nunca sería mi trabajo. Trabajar descargando los contenedores oceánicos cargados en el suelo a 140 ° C se hizo viejo, así que comencé mi camino de autoeducación para lograr un empleo interesante.

Tal vez no tengo idea de lo que estoy hablando, después de todo, no soy Ph.D. Algunas pruebas de que tengo habilidades son:

  • 4 veces autor de O’Reilly
  • Colaborador del blog de O’Reilly.
  • Consultor de ciencia de datos exitoso
  • Empleo en empresas notables en la visualización de datos y roles de ciencia de datos
  • Apache Committer

Tenía las estadísticas psicológicas 1 y 2 y los biostats en la universidad, además de los cálculos 1 y 2. Ese es el límite de mi entrenamiento formal de matemáticas. Tengo una visión para las matemáticas débil, en realidad. Obtuve un 600 en mis exámenes de matemáticas.

Comencé presionando botones en las máquinas tragamonedas para una compañía de máquinas tragamonedas en la que mi hermano me consiguió un trabajo por la insistencia de mis padres. Aprendí a programar en Perl en un estudio independiente en el primer año de la escuela secundaria, así que lancé para obtener el contrato de automatización de pruebas. Esto involucró una gran cantidad de arneses de cables, un controlador de dispositivo en serie, grabación y reproducción de entradas de pantalla táctil, una placa de relés de puerto paralelo para presionar botones y un idioma específico del dominio para manejar todo. Fue un primer proyecto bastante bueno, y tuve la suerte de tener acceso a todo el hardware y el cableado que necesitaba internamente.

Esto me consiguió otro trabajo, esta vez como ingeniero de control de calidad automatizando las pruebas en otra compañía de máquinas tragamonedas. Aprendí mucho sobre redes TCP / IP cuando era niño, así que me convertí en ingeniero de redes, depurando problemas en redes de máquinas tragamonedas basadas en bingo … que son esencialmente sistemas distribuidos. Esto generó un interés en el alto rendimiento y la computación grid que permanece, y configuro los clústeres de cómputo en el laboratorio de control de calidad para simular casinos completos. También obtuve una experiencia de servicio al cliente que trataba mucho con clientes enojados, ya que el sistema de tragamonedas caería constantemente. Irónicamente, los jugadores creían que las máquinas tenían más probabilidades de pagar en grande debido a los errores (en realidad, los errores invalidan cualquier ganancia).

Mientras trabajaba en este trabajo, descubrí que los informes y el análisis en el ecosistema de máquinas tragamonedas basado en bingo eran terribles. Además, los casinos pequeños de clase 2 (tragamonedas normales, que no son de bingo) no podían costear los paquetes de análisis de los proveedores existentes. Esto me llevó a comenzar mi primera puesta en marcha, Lucision, para proporcionar un sistema universal de informes / análisis a los casinos. Mi compañero era hacer el edificio, mientras yo hacía las ventas. Así que aprendí a llamar en frío.

Luego nos separamos como fundadores, así que me hice cargo del desarrollo. Aprendí el desarrollo web, particularmente el desarrollo AJAX, que era nuevo en ese momento. Aprendí javascript. Construí muchos gráficos interactivos, trabajando iterativamente con los clientes para hacerlos procesables. Analicé muchos datos. Hice regresiones lineales para predecir los ingresos por tragamonedas.

Enviamos el producto a un casino e integramos con su sistema sin efectivo existente. Lo más difícil que hice fue descodificar tablas de SQL Server orientadas a objetos casi encriptadas a 10K + pies en Cripple Creek Colorado, que sufren de mareo por la altura. Conseguimos que el producto funcionara, pero la compañía finalmente fracasó.

Ahora me convertí en un desarrollador web, obteniendo trabajos en jobs.perl.org. Trabajé en un sitio de videos, trabajé en un sitio de educación. Esto llevó a un trabajo como ingeniero senior en una compañía canadiense de máquinas tragamonedas que estaba construyendo un sistema completo de tragamonedas desde cero. Creé un sistema de punto de venta, un sistema de informes / análisis, realicé la automatización de Linux y trabajé en protocolos sin efectivo. Envié el producto a la ciudad de México. Hice mas consultoría web.

Escribí mucho para un sitio web llamado TechDrawl sobre la escena de inicio en Atlanta. Esto me llevó a escribir sobre Silicon Valley, y me di cuenta de que mi vida como empresario no tenía sentido en Atlanta. Al mismo tiempo, me enteré de esta cosa de “big data” en un artículo sobre la ronda semilla de Cloudera. Sabía que quería ser parte de eso. Creé un prototipo de interfaz web para Apache Pig, la primera interfaz basada en web para Hadoop.

Esta GUI y mi cartera de Lucision me consiguieron un trabajo en Ning como ingeniero de visualización. En ese momento, Ning tenía el clúster más grande de Hadoop fuera de Yahoo. Aprendí Hadoop, aprendí “big data”, construí muchos más cuadros y tableros. Creé mis propias tareas, y empezaron a ocupar todo mi tiempo. El CEO me dio permiso para seguir haciendo lo que había estado haciendo, ya que lo estaba usando de manera muy efectiva. Le respondí por un rato. Intenté salvar a la compañía con un análisis intenso de nuestro gran conjunto de datos, en el transcurso de un par de meses. Hice algunas visualizaciones de red geniales, algo en lo que me especializaría. En última instancia, los datos indicaron que Ning estaba a punto de implosionar, así que me mudé a LinkedIn.

Como científico de datos en LinkedIn, comencé a jugar con el aprendizaje automático, construí muchos prototipos geniales que nunca se hicieron realidad. Fundé una biblioteca. Gané un premio mi primera semana. Gané otro premio más tarde. Mi equipo ganó InDay. Una publicación que escribí apareció en el blog de la compañía. Obtuve la cobertura de prensa favorable de C-suite dos o tres veces. Inventé la zona de los cinco altos y distribuí el five alto alrededor de la compañía. Mi primer producto, Career Explorer, falló. El análisis de lo que llevó a mi primer libro. Mi segundo producto (en solo 8 meses) InMaps enviado. Comencé un marco basado en JRuby que se usaba para enviar habilidades de LinkedIn. Estudié matemáticas, estadística y aprendizaje automático durante horas al día.

En algún momento en el camino me convertí en un científico de datos. ¿Fue cuando fui contratado como uno? Aunque el equipo de Jeff Hammerbacher en Facebook aún no había acuñado el título, creo que yo era un científico de datos muy inclinado a la visualización cuando fundé Lucision. Después de todo, lo que importa es lo que envías, no lo que sabes. ¡Fui un científico productivo de datos a pesar de mi ignorancia! Podría analizar datos, podría contar historias con datos, podría hacer análisis analíticos simples, podría crear aplicaciones. Quizás fue más tarde. En algún momento sucedió.

Más tarde mi carrera continuó, y seguí aprendiendo más. Pero te ahorraré el resto

Así que sí, usted también puede convertirse en un científico de datos autodidacta. Requiere que pases horas todos los días aprendiendo cosas nuevas. Requiere que usted sea lo suficientemente inteligente como para hacer su carga de trabajo normal sin dejar de tener tiempo para estudiar y hacer proyectos paralelos. Requiere que trabajes para obtener la experiencia de crecimiento que necesitas. Requiere intensa dedicación. Requiere horas extras.

Lo más importante es hacer lo que sea necesario para adquirir habilidades básicas y luego aprender sobre el trabajo después de eso. Usa tus entrevistas para guiarte en términos de desarrollo de habilidades. Los trabajos que más te interesan: pregúntales qué habilidades debes desarrollar para trabajar allí. Luego domine esas habilidades, desarrolle un portafolio que demuestre que lo ha hecho (use Github), y luego vuelva a aplicar allí y en otros roles similares.

Sí, puedes convertirte en un científico de datos autodidacta. Es más difícil que una educación formal, pero por lo que sé, los programas de ciencia de datos son completamente nuevos. El campo es interdisciplinario, por lo que debe aprender al menos un campo por su cuenta. Si no puedes enseñar por ti mismo, elige otro campo.

Perdona la perorata. Es muy divertido hablar de uno mismo

Datos ‘ es el bien más preciado en el mundo digital de hoy. Con la enorme cantidad de datos que se generan, una persona con habilidades relacionadas con la visualización de los datos, la extracción de datos y la obtención de información significativa sobre los datos o el trabajo del “científico de datos” tiene una gran demanda.

Hay varias formas de adquirir estas habilidades y convertirse en un “científico de datos” en la India.

1. No se pierde todo si ha perdido los cursos de “Datos” en la universidad. Hay buenas instituciones que ofrecen “análisis de datos” en India en varios lugares. Los cursos ofrecidos por instituciones especializadas ofrecen aproximadamente 3 horas por semana de clases en línea dirigidas por un instructor en vivo, 15 días de trabajo en el proyecto, un foro de preguntas y respuestas activas, entre otras ventajas. La mayoría de estos cursos son impartidos por expertos de la industria que conocen las tendencias actuales de la “ciencia de datos”. Además, también obtienes un certificado de finalización del curso.

Algunos de ellos se enumeran aquí: ¿Cuál es el mejor instituto de ciencia de datos en la India?

La mayor ventaja de equiparse para ser un científico de datos en las instituciones es que obtendrá una atención más personalizada y estará más concentrado en convertirse en un “científico de datos” efectivo.

Además, muchas instituciones que ofrecen capacitación especializada brindarán asistencia de colocación y se ubicarán en usted en buenas organizaciones.

(Crédito de la imagen: imágenes de Google)

2. Además, a los métodos anteriores, también podemos convertirnos en un “científico de datos” por auto-estudio. Uno puede visitar una variedad de blogs y obtener libros y otro material de estudio en línea y equiparse para ser un científico experto en datos. Interactuar con compañeros de ‘ciencia de datos’ también mejorará el conocimiento de uno y dará lugar a mejores oportunidades de trabajo.

Espero que estos métodos para ser un ‘científico de datos’ te ayuden y ¡pronto lograrás tu sueño!

¡Absolutamente sí! Pero tengo que señalar las deficiencias de este enfoque:

Contras:

  1. Es probable que el empleador no reconozca que está calificado como DS si acaba de absorber esos conocimientos, por ejemplo, de Coursera. La credencial universitaria aún tiene su valor;
  2. Probablemente tendrá que tomarse más tiempo para aprender las cosas porque es probable que se tope con varios callejones sin salida antes de encontrar el camino correcto;
  3. Debe ser excepcionalmente disciplinado con enfoque láser en lo que necesita aprender y desarrollar su plan de estudio con un objetivo claro a la vista;
  4. No sé si está inclinado hacia el lado de la aplicación o el desarrollo teórico de DS. Si es lo último, necesita desarrollar una sólida comprensión de algunas ideas matemáticas y estadísticas para comprender el funcionamiento de algún algoritmo. Esto es especialmente relevante si está interesado en desarrollar una nueva técnica de optimización o algo. Por lo tanto, un alma buscando aquí.

Si nada de lo anterior te molesta, definitivamente puedes aprender DS.

Hablando desde mi experiencia personal, estoy interesado en temas relacionados con la salud y la medicina. Así que organizaría mi aprendizaje en torno a estos temas y vería qué hay ahí fuera. A partir de ahí, tendrás una idea sobre:

  1. qué tipo de problema existe, por ejemplo, análisis de imágenes, descubrimiento de medicamentos, análisis de registros de pacientes, etc.
  2. Qué herramientas se emplean. Ej. Análisis de imágenes con OpenCV + Deep Learning.
  3. cual es la salida esperada. por ejemplo, clasificación del tumor / estadio del cáncer, predicción de toxicidad del fármaco, diagnóstico precoz de ciertas enfermedades
  4. ¿Cuál es el nivel de precisión? por ejemplo, una precisión de predicción de> 98% para identificar a los pacientes con paro cardíaco y cuándo y cómo ocurrirá en un plazo determinado.

Esto es diferente del enfoque de aprendizaje más común en el que aprendes todo de abajo hacia arriba (es decir, Matemáticas + Estadísticas> Fundamentos teóricos de modelos ML> propiedades de diferentes modelos> flujo de procesos> evaluación, etc.) Pero funciona para mí y ayuda Me enfoco en las cosas que necesito aprender (por ejemplo, me interesa el lenguaje natural. Por lo tanto, me saltaría todo lo relacionado con la visión por computadora) y me da mejores comentarios en el proceso de aprendizaje porque tengo un problema en mente. RESOLVER. Eso ayuda a construir un circuito de comentarios si estás haciendo algo bien y es crucial para el autoaprendizaje.

Espero que esto ayude. Si necesitas algo más, solo grita.

Me gusta la pregunta y el uso de la palabra autodidacta. Es un ingrediente esencial para convertirse en científico de datos.

Yo sugeriría que para comenzar, siga algunos de los cursos de aprendizaje automático en cousera. También tenga MIT, cursos de Standford sobre ciencias de datos, aprendizaje automático, etc. Comience el hábito de buscar en Google y sea inquisitivo en su enfoque. También comienza a participar en las competiciones de kaggle y recorre las páginas de varios grandes maestros. que son muy ingeniosos. Python es un lenguaje obligatorio que un científico de datos debe saber, pero también puede hacer un trabajo decente en R

Los científicos de datos deben estar siempre alerta y seguir aprendiendo cosas nuevas y nuevas de forma regular.

Primero, ensucie su mano en los conjuntos de datos de muestra y los pequeños problemas que están disponibles en las siguientes ubicaciones.

Enlaces útiles:

http://archive.ics.uci.edu/ml/

Archivo UCI KDD

Análisis, minería de datos y ciencia de datos

Cursos:

Aprendizaje Automático | Coursera

https://www.coursera.org/special

BigDataset:

Conjuntos de datos: Repositorio de grandes conjuntos de datos | Conjuntos de datos públicos en AWS

Conjunto de datos de millones de canciones | investigación MIR escalado

¿Grandes conjuntos de datos públicos?

Repositorio de aprendizaje automático de la UCI

Datos web anónimos de Microsoft

MSNBC – Noticias de última hora, Historias principales y Clips de muestra Datos web anónimos

Clasificaciones de páginas web de Syskill y Webert

También tengo un par de publicaciones en LinkedIn que también podrían ser relevantes aquí.

¿Cómo convertirse en un científico de datos? La respuesta es simple: “Compórtate como un niño”.

https://www.linkedin.com/pulse/h

La vida del científico de datos en una compañía de Internet:

https://www.linkedin.com/pulse/l

Espero que la respuesta a continuación pueda ser útil para aquellos que desean seguir una carrera en ciencia de datos.

Sí definitivamente. Hay una gran cantidad de recursos disponibles en Internet, a través de los cuales se puede auto-enseñar Data Science.

Hay un puñado de preguntas en Internet, donde puede obtener esos recursos:
¿Cómo me convierto en un científico de datos?
¿Qué software y habilidades deben conocer todos los científicos de datos (excluyendo R, Matlab y Hadoop)? Además, ¿cuáles son algunos recursos para aprender Hadoop?
¿Qué habilidades necesito para ser un científico de datos en Quora?

y recientemente se me ocurrió una idea de formar un grupo de estudio, en el que los autodidactas afines pueden ayudarse mutuamente, mientras se mueven hacia un objetivo común.

¿Cuáles son las buenas maneras de formar un grupo de estudio de aprendizaje automático?

Es un espejo de este post en Kaggle: unámonos | Kaggle
Porque, durante mi experiencia de autoaprendizaje de la ciencia de datos, me he dado cuenta de que tener un compañero con el que puedas aprender, experimentar y hacer proyectos; demostraría ser realmente eficiente, y el proceso de aprendizaje sería divertido y mejor.

Sí, y si estás interesado, siéntete libre de hacerme ping o comentar a continuación.

Depende de lo que quiere decir con “autodidacta”. Cuando fui a la escuela, no existía tal cosa como un título en ciencias de la información. En ese sentido, casi todos los científicos de datos de treinta y tantos años o más son autodidactas, y estamos bien.

La escuela dio habilidades útiles sin embargo. Me especialicé en informática, que me ayuda con la manipulación de datos y me ayudó a entender el software de los productos que estudio. Por otra parte, hay muchas personas una década o más que yo que adquirieron todas las habilidades de ingeniería de software por sí mismas.

Entonces, sí, las personas probablemente pueden adquirir todas las habilidades necesarias para ser un científico de datos sin una educación formal. Eso no significa que el camino sea tan fácil como a través de un programa formal, o que le resulte más fácil poner su pie en la puerta sin demostrar en cierta medida que al menos puede manejar los aspectos matemáticos del trabajo.

¡Absolutamente! Es muy breve para incluir una respuesta de Quora, pero hay una excelente publicación de Medium por parte de un reclutador de científicos de datos que cubre todo lo que necesita hacer para convertirse en un científico de datos. Aquí hay un extracto:

“Comencé con el objetivo de responder dos preguntas muy amplias:

  • ¿Qué habilidades se requieren para la ciencia de la información y cómo debería ir a recogerlas? (Capítulos uno, dos y tres)
  • Desde la perspectiva del mercado laboral, ¿qué pasos puede tomar para maximizar sus posibilidades de obtener empleo en la ciencia de datos? (Capítulo cuatro)

¿Por qué estoy calificado para escribir esto? Bueno, hablo con científicos de datos todos los días y, para ser un reclutador efectivo, necesito entender las trayectorias profesionales, qué es lo que hace que un científico de datos sea bueno y qué buscan los empleadores cuando contratan. Así que ya poseo algunos conocimientos al respecto. Pero también quería saber directamente de aquellos que han recorrido este camino, así que comencé a hablar con científicos de datos de diferentes orígenes para ver qué podía descubrir. Y esto me llevó a un viaje a través de ex ingenieros de software, un ex astrofísico e incluso un ex físico de partículas, quienes, para mi gran emoción, habían participado en uno de los mayores avances científicos del siglo XXI “.

Aquí hay un enlace a la publicación Medium. He estado trabajando como científico de datos desde 2015, y este es el mejor resumen que he visto hasta ahora sobre los pasos que debe seguir.

Guía especialmente útil para aquellos que no solo desean aprender cómo adquirir las habilidades técnicas, sino también cómo ser un candidato con empleo.

Sí, pero es un montón de trabajo y no todos te considerarán un verdadero científico de datos.

Exige más de 2 años de autoestudio dedicado (2–3 horas al día, 6–7 días a la semana) y todavía tendrá una batalla cuesta arriba para obtener entrevistas, incluso para trabajos de nivel de entrada, a menos que ya tenga un doctorado en algo. Ver como relevante la economía, la ingeniería o la física.

Dicho esto, si aún no está trabajando en un campo tangencial (programación o ingeniería de datos) en el que puede deslizarse gradualmente y no tiene la capacidad de financiar un título de posgrado (ahora hay buenos (y malos) en línea) podría ser la única manera

En cuyo caso, usted formula, planifica y sigue … ¡pero esto le restará valor al tiempo de su familia y a su vida social durante 2 a 4 años! Pero es posible, lo hice.

Sí, sí puedes.

¡Comience por analizar los datos tan pronto como pueda! Sin embargo, no olvide aprender la teoría, ya que necesita una buena base estadística y de aprendizaje automático para comprender lo que está haciendo.

¡Aquí están mis 7 pasos para aprender minería de datos y ciencia de datos!

  1. Idiomas: Aprenda R o Python para Data Mining y SQL más adelante para Data Science.
  2. Herramientas: Aprenda a usar herramientas de minería de datos y visualización.

    Puede comenzar con herramientas de código abierto (gratuitas) como KNIME, RapidMiner y Weka.

    Sin embargo, para muchos trabajos de análisis, debe conocer SAS, que es la herramienta comercial líder y ampliamente utilizada.
    Otro software popular de análisis y minería de datos incluye MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler y Rattle.

    La visualización es una parte esencial de cualquier análisis de datos: aprenda a usar Microsoft Excel (bueno para muchas tareas más simples), gráficos R (especialmente ggplot2) y también Tableau, un paquete excelente para visualización. Otras buenas herramientas de visualización incluyen TIBCO Spotfire y Miner3D.

  3. Libros de texto: lea libros de texto introductorios para comprender los fundamentos.
  4. Educación: ver seminarios web, tomar cursos y considerar un certificado o un título en ciencias de datos

    También hay muchos cursos en línea, cortos y largos, muchos de ellos gratuitos. Considere obtener certificados en minería de datos y ciencia de datos o títulos avanzados, como MS en ciencia de datos

  5. Datos: verifique los recursos de datos disponibles y encuentre algo que le interese.
    Aquí hay algunos conjuntos de datos públicos gratuitos:

    Datos: Gobierno, Estado, Ciudad, Locales y Públicos.

    Datos: API, hubs, mercados y plataformas

    Conjuntos de datos públicos gratuitos

  6. Competiciones: Participa en competiciones de minería de datos.
  7. Interactuar con otros científicos de datos, a través de redes sociales, grupos y reuniones

¡Aquí hay algunos recursos excelentes para comenzar!

  • Libro electrónico gratuito sobre Data Science con R
  • Comenzando con Python para Data Science
  • Python para el análisis de datos
  • Un Python indispensable: fuente de datos para la ciencia de datos.
  • Tutorial SQL

Hace dos años, cuando estaba en la misma situación, lo que descubrí es que aprender por mi cuenta te llevará a un buen descanso en tu carrera.

¿Entonces lo que hay que hacer?

  • Demuestra tus habilidades haciendo proyectos y de código abierto, ¿por qué no Github?
  • LEER, LEER, LEER, explica bastante.
  • Encuentra una pasantía para ensuciarte las manos en proyectos en vivo
  • Vea lo que otros científicos de datos están haciendo, aquí hay una lista de los mejores científicos de datos a seguir: Los mejores científicos de datos a seguir y los mejores tutoriales de ciencia de datos en GitHub
  • No te debilites, preséntate con hermosas visualizaciones.

ATB 🙂

Sí, pero generalmente la “autoaprendizaje” va de la mano con la academia (y en la mayoría de los casos, alguna experiencia profesional). Si está hablando de autodidacta con conocimiento absolutamente nulo, recomiendo habilidades fundamentales en Ciencias de la computación, Probabilidad y Álgebra matricial. No te relajes en esto, las bases son todo. Una vez que los hayas bajado, puedes comenzar con los detalles mucho mejor. Una vez escuché en LinkedIn que alguien dijo “finge hasta que lo logres”, lo cual es cierto, pero solo para aquellos con algún tipo de base de habilidades para empezar. Necesitas una fundación. Recomiendo mirar la Fase 0 y la Fase 1 en mi respuesta sobre el programa de GMU (aproximadamente a la mitad de la página). Esto te hará apuntar en la dirección correcta. La respuesta de John Erickson a How is MS in Data Analytics de la Universidad George Mason?

Sí tu puedes.

Claudia Gold ha creado una increíble ruta de aprendizaje para aprender ciencia de datos desde cero.

Puede verlo aquí: Análisis de datos Ruta de aprendizaje

Además, como mencionó Jalem Raj Rohit, intente participar en concursos de ciencia de datos que Kaggle sigue realizando de vez en cuando.

No, es mejor unirse a un instituto en lugar de aprender solo. Debido a que puede tener dudas durante la preparación por su cuenta, pero es difícil obtener soluciones a todas sus dudas. así que si te uniste al instituto puedes resolver tus dudas preguntando a la facultad. Hay tantas fuentes disponibles en Internet, pero le sugeriré que tome coaching en lugar de aprender por sí mismo, y la enseñanza a sí misma llevará más tiempo y requiere mucho esfuerzo.

Hay tantos institutos que ofrecen capacitación en ciencia de datos en modo fuera de línea y en línea. La ruta de análisis es el mejor instituto de capacitación en ciencia de datos en Hyderabad. Somos la mejor facultad en Hyderabad para la ciencia de datos.

La ciencia de la información tiene una tendencia en el curso de hoy en día y genera tantas ofertas de trabajo en todo el mundo, así que aprenda este curso lo más rápido posible para obtener un empleo en las grandes empresas multinacionales.

Para obtener más información, visite: Instituto de capacitación en ciencia de datos en Hyderabad

Sí definitivamente.

He estado trabajando como científico de datos durante los últimos dos años solo con conocimiento autodidacta. Actualmente estoy haciendo mi Maestría en Ciencia de Datos por varias otras razones.

Echa un vistazo a mi respuesta sobre las diferencias entre un programador autodidacta y un programador con educación formal. Se relaciona directamente con esta pregunta y los principios son los mismos para la ciencia de datos.

La respuesta de Johannes Harmse a ¿Qué habilidades suelen tener los programadores autodidactas? ¿Qué debe estudiar un programador autodidacta para ponerse al día con sus compañeros formados formalmente?

Estoy sorprendido por la falta de habilidades matemáticas que faltan en estas listas. En su núcleo, la ciencia de los datos son estadísticas reenvasadas para su uso en grandes conjuntos de datos o conjuntos de datos complicados recopilados en la industria. Sin una base matemática sólida, no podrá realizar estudios correctamente, sepa que sus análisis son correctos (no, solo porque el código no dio un error no significa que sea correcto) y entienda cuáles son las fortalezas. y las limitaciones de su análisis son (lo que es muy importante para el C-suite cuando toman sus decisiones comerciales).