¿Es la ciencia de los datos tan fácil que el mercado eventualmente estará sobresaturado y será difícil encontrar empleos?

La respuesta corta a tu pregunta es ¡Sí! Y gracias por preguntar. 🙂

Creo que la definición generalmente aceptada de la ciencia de datos es una combinación de estadísticas y ciencias de la computación. Podríamos hablar durante horas sobre cómo las estadísticas son mucho más sutiles de lo que las personas se dan cuenta, pero veamos la parte de CS. La ciencia de los datos implica una gran cantidad de manipulación de datos, y algunas de las codificaciones necesarias en ocasiones pueden llegar a ser bastante complicadas. ¿Cómo puede un campo de entrenamiento de 6 semanas llevar a las personas al nivel necesario? Usted menciona a Hadoop. Este es un lenguaje LENTO, y uno necesita modificar las cosas para obtener un mejor rendimiento; ¿Cómo puede un campo de entrenamiento de 6 semanas dar a sus estudiantes la comprensión de las velocidades de disco y red, los tiempos de memoria, etc.?

La pregunta no es si el mercado se volverá sobresaturado, sino si los empleadores podrán distinguir a los que tienen una visión real de los que simplemente conocen unas pocas palabras de jerga.

Hay una gran demanda de buenos científicos de datos. No se trata de saber R y Hadoop. Se trata de extraer conocimiento y separar las cosas importantes de las no importantes.

Las personas son contratadas como ingenieros de software con salarios de 100 mil en SV todos los días. A pesar de la gran cantidad de personas que conocen Java, esos tipos aún pueden obtener un trabajo y, si no les gusta, pueden obtener otro. Lo mismo se aplica a la ciencia de datos, si sus análisis / algoritmos no agregan valor, entonces usted está fuera.

En bootcamp te enseñan cómo reportar conjuntos de datos y ejecutar regresiones en R. ¿Te enseñan cómo determinar si la métrica que el otro equipo construyó el día anterior es buena para medir el éxito del producto? Puede cargar una gran cantidad de registros en MySQL. ¿Le enseñaron cómo reducir el tiempo de ejecución de una consulta compleja crítica de 1 minuto a 0.01 segundos? Hay innumerables cosas pequeñas que no puedes obtener en los campos de entrenamiento, y esas cosas pequeñas son lo que te da un valor real como especialista.

La ciencia de datos es una fusión de estadísticas aplicadas, ingeniería de software y, a menudo, conocimiento del dominio, cualquiera que sea ese dominio. No es fácil y no será fácil en el futuro. Todo aquel que diga que puede ser un científico de datos después de su “curso acelerado de R de 2 semanas de Soopa Hurrdcore” es un fraude.

Esa es una gran generalización. Por un lado, la ciencia de los datos no se trata de R y Hadoop, son solo herramientas, al igual que cientos de otras. La ciencia de datos trata de hacer que los datos sean utilizables por personas y sistemas en productos que abstraen la idiosincrasia de los datos que los alimentan.

Por otro lado, estoy de acuerdo en que el científico de datos puede ser un título sobreutilizado. Esa es una de las razones por las que todavía no tenemos títulos de trabajo de científicos de datos en Miniclip. Tenemos ingenieros de datos, analistas de datos y clientes potenciales. Puedo argumentar que la mayoría de nosotros encajamos en la descripción actual pero, honestamente, no solo nuestros ingenieros y analistas se definen mejor así, sino que tampoco nos preocupan los títulos y las clasificaciones. Hay una descripción del trabajo científico de datos definidos aquí sin embargo. El día que alguien tenga esa habilidad, experimente y produzca esos resultados, con gusto lo promoveré.

No nos importan los títulos, hacemos nuestro trabajo y seguimos adelante. Para ser honesto, usted también debería hacerlo.

En cuanto a que la ciencia de los datos es fácil, te estás enfocando demasiado en el aspecto técnico de las cosas. Hacerlo durante un año me hace insuficiente para entender las necesidades de negocios y el impacto de su trabajo y decisiones en cualquier campo, incluida la ciencia de datos. No estoy diciendo que no seas un científico de datos, sino que te preguntes qué tan profundo en el conocimiento de tu dominio eres y cuán desafiado estás. El aspecto más difícil del trabajo de mi equipo no es técnico, todos adquieren nuevas habilidades cada semana. El desafío está casi siempre relacionado con los negocios.

En general, estoy de acuerdo con usted en que las personas están recogiendo al científico de datos del título con demasiada facilidad, pero son libres de hacerlo de la misma manera que nosotros somos libres de no hacerlo o incluso de preocuparnos por ello. La ciencia de datos es el trabajo de un equipo. Un deporte de equipo en palabras de DJ Patil. Si la definición de científico de datos es el científico de datos de unicornio, entonces todas las personas que adquieren un par de habilidades y los etiquetan son solo una versión simplificada de la exageración de los medios, así que … ¿por qué te preocupas por eso? Lo que cuenta es la salida, no el título del trabajo.

No, la ciencia de la información no es fácil: simplemente sin forma y no “profesionalizada”.

Con esto quiero decir que no hay conjuntos de herramientas estándar, ni planes de estudios, ni organismos de certificación, ni ninguna trayectoria profesional específica que lleve a convertirse en un científico de datos; sin embargo, todos los bits esenciales están ahí, y no son fáciles de adquirir, ensamblar o aplicar bien.

Sí, uno puede aprender R y Hadoop y “afirmar” que es un científico de datos, pero eso está lejos de la verdad. En comparación, también se pueden tomar algunas clases de medicina y reclamar ser un médico o ver algunos tribunales, programas de televisión y reclamar ser un abogado. La diferencia es que las disciplinas de la medicina y la ley están “profesionalizadas”. Como resultado, pueden proteger sus puertas estableciendo estándares sobre quién puede llamarse a sí mismo un “médico” o un “abogado”. En ciencia de datos, todavía no podemos hacer eso.

En la medida en que R y Hadoop, son solo parte del conjunto de herramientas de ciencia de datos. No constituyen “ciencia de datos” más de lo que un escalpelo constituye “cirugía”. De la misma manera que la física se basa en las matemáticas, la ciencia de los datos se basa en herramientas estadísticas para manejar conjuntos de datos grandes y pequeños, datos estructurados y no estructurados, etc. Pero las matemáticas de la física no son un sustituto del pensamiento, análisis, enfoque o método científico. y tampoco Hadoop y R sustituyen a la comprensión del comportamiento en los datos.

Las estadísticas, específicamente, se ocupan en gran medida de los métodos para probar hipótesis utilizando datos; por lo tanto, antes de poder usar Hadoop o R de manera constructiva, es necesario conocer las estadísticas y conocerlas bien. Porque, a diferencia de las estadísticas, que se ocupan en gran medida de probar las hipótesis y detenerse allí, la ciencia de los datos se centra en las implicaciones de las desviaciones sistemáticas de las hipótesis (como lo demuestran las pruebas estadísticas) y las conclusiones más importantes que podemos obtener como resultado de esas desviaciones.

Además, aparte de la ciencia de datos que requiere un conocimiento acumulativo de numerosas herramientas o subdisciplinas, como las estadísticas, R, Hadoop, etc., uno debe poder incorporar esas herramientas para responder preguntas importantes de negocios y lograr resultados comerciales, ninguno de los dos. cuya iniciativa se deriva directamente del conocimiento de las herramientas. Esa habilidad, habilidad, experiencia o talento, es lo que el científico de datos ha puesto sobre la mesa, lo que le permite llamarse a sí mismo justificadamente, un “científico de datos”.

Esto me lleva a creer que la verdadera pregunta aquí es: “¿Puede alguien SER un científico de datos?” Y a eso diría que no, en absoluto, por las razones que acabo de mencionar. En mi experiencia, ni siquiera los principales especialistas en CS o STEM de una escuela superior pueden convertirse fácilmente en buenos científicos de datos, sin capacitación adicional, y algunos factores personales. Aparte de su naturaleza multidisciplinaria, la ciencia de datos requiere un profundo amor por la divergencia entre la realidad observada en los datos y la predicción de modelos matemáticos. Para hacer eso, uno necesita algo más que un dominio de herramientas. Uno necesita un amor por la imperfección.

He estado en este campo casi 20 años, desde antes de que existiera el término “ciencia de datos”, por lo que he visto muchas cosas. De hecho, creo que la excelencia en la ciencia de la información requiere varios años para aplicarla antes de que uno pueda entender realmente la información, cómo se comporta, cómo funcionan los diferentes modelos, hacia adelante y hacia atrás, etc. Sin embargo, lo más importante es que la excelencia requiere cometer errores y comprenderlos. , junto con apreciar las variaciones entre la realidad observada y la predicha. Por lo tanto, cariñosamente llamo a la ciencia de datos la ciencia para personas imperfectas, como yo.

Lo digo medio en broma. En verdad, creo que toda buena ciencia es para personas imperfectas, personas que se vuelven curiosas, no enojadas, cuando ven imperfección y variación. Los especialistas en STEM que no soportan la imperfección y la variación nunca serán buenos científicos ni buenos científicos de la información, al igual que los fanáticos no pueden hacer buenos vecinos. ¿Por qué? Porque el mundo en que vivimos es imperfecto y variable y su belleza reside en esa imperfección y variabilidad. Además, la ignorancia, no el conocimiento, impulsa la ciencia, y la imperfección y la variación son las características de la ignorancia.

Por lo tanto, aunque me encantan las matemáticas, no me parece increíblemente interesante más allá de cierto nivel por una simple razón: siempre funciona. De esta y única manera, me encontré con un alma gemela con uno de mis antiguos maestros, John Nash (el “Beautiful Mind” Nash). Una vez le pregunté por qué no se quedaba en las matemáticas en lugar de cambiar a la economía. Nash respondió: “Porque las matemáticas son demasiado fáciles”. Ahora no puedo decir que compartí esa realización (quiero decir, ¿en serio?), Pero después de explorar una serie de disciplinas matemáticas, llegué a la conclusión de que es demasiado “perfecto” para mí imperfecto.

La ciencia de datos, por el contrario, toma estos modelos perfectos y los construye contra datos reales generados por seres humanos, animales y seres humanos que a veces se comportan como animales. Estas criaturas rara vez exhiben un comportamiento que resulta en sistemas y soluciones de forma cerrada. En otras palabras, la ciencia de los datos nos lleva al corazón de cómo operamos como humanos en el mundo que nos rodea.

Tenemos expectativas (es decir, modelos mentales) que generalmente se apartan de la realidad. Al perseguir nuestros objetivos, exhibimos el drama o la comedia de esa partida. Por lo tanto, al hacer ciencia de datos, estamos haciendo algo verdaderamente shakesperiano: ¡estamos caracterizando maravillosamente, con números, el drama (o comedia) del comportamiento humano!

Bien, ahora que he dado mi discurso de Buena Voluntad de caza, permítanme ofrecerles un ejemplo específico. Mi trabajo de consultoría típico consiste en validar de forma independiente los conjuntos de modelos comerciales producidos por los científicos de datos de un cliente o de un equipo de consultoría. Hecho correctamente, empleé un conjunto de herramientas de validación y técnicas de muestreo (muestra pequeña, no paramétrica, ponderada / no ponderada, etc.) que aplico en forma de exploración y prueba de estrés, como un CSI. (Lo tiro para darme un atractivo sexual). Sin embargo, debido a mi experiencia, generalmente puedo ver lo que está mal con los modelos incluso antes de realizar cualquier prueba formal.

Ahora no soy un genio, pero incluso cuando los modelos son excepcionalmente complejos, puedo hacerlo, a veces incluso más fácilmente. Por lo tanto, he descubierto los problemas en modelos altamente no lineales que contienen más de 100 variables (¡lo cual, a menudo, es el problema!) Pero todo eso proviene de la experiencia en ver errores, cometer errores y entender la realidad versus la perfección pronosticada. Si hay una divergencia, me emociona mucho. Además, tengo experiencia empresarial y experiencia ejecutiva, por lo que entiendo bien que la respuesta “correcta” es a menudo la que debe respaldar algún resultado u objetivo empresarial.

Por lo tanto, en todas estas aventuras científicas de datos, generalmente observo dos cosas: 1) generalmente tengo razón (o nadie me contrataría nuevamente) y, 2) el 99% de las personas a las que estoy validando (STEM, que generalmente tener doctorados en física, matemáticas, astrofísica, etc.) no lo vio. Por lo tanto, la diplomacia se convierte en una dimensión necesaria y agregada al conjunto de herramientas de ciencia de datos, ya que a menudo uno tiene que revelar malas noticias.

Además, es importante entender que la mayoría de las veces, los desarrolladores no cometieron errores graves. Sus modelos simplemente no hacen lo que se esperaba que hicieran o ignoran las realidades empresariales que se les paga por observar. Entonces fue cuando me llamaron para entrenarlos y tratar de ver lo que vi para que luego puedan verlo por sí mismos.

¡Y todo eso es duro! A veces es como tratar de describir el sabor de la miel a alguien que nunca la ha probado. Por supuesto, eso no significa, en absoluto, sonar condescendiente. Simplemente estoy volviendo al punto de que la ciencia de datos tiene un aspecto esencial de aprendizaje en el campo que está más allá de la importancia de las herramientas de aprendizaje como R y Hadoop.

Pero eso me devuelve, en un círculo completo, a la confusión que rodea a uno que es capaz de “llamarse a sí mismo un científico de datos, incluso si uno no posee todo el conjunto de herramientas, la experiencia y el amor por la imperfección y la variabilidad. Como profesión incipiente, la ciencia de datos tiene mucho trabajo por hacer. Necesitamos un plan de estudios multidisciplinario más estandarizado, implementado por personas con experiencia de campo y negocios (no solo académicos) y tal vez uno o dos cuerpos profesionales que puedan proteger las puertas.

Hasta entonces, las personas que deciden tomar decisiones en lugares altos seguirán contratando a cualquier especialista en STEM o CS que conozca Hadoop y R y esté dispuesto a trabajar por poco dinero. Eso confunde las cosas y probablemente también las frustra. Porque, en verdad, es mucho más difícil y complicado que eso, y también lo es la ciencia de datos.

(Espero establecer algún tipo de “Asociación de científicos de datos”. Si alguien está interesado, contácteme).

“Parece que cualquiera puede aprender R y Hadoop y autodenominarse científico de datos”. Es una afirmación totalmente errónea.

La ciencia de datos puede ser un término recientemente acuñado, pero las técnicas se utilizan ampliamente en la investigación científica desde hace bastante tiempo. En los últimos tiempos, con la evolución de las técnicas de almacenamiento y la popularidad / accesibilidad de Internet, es posible almacenar información pública disponible generada por cada dispositivo / usuario en Internet. La información así almacenada puede encontrar una amplia variedad de aplicaciones en dominios como venta minorista, salud, finanzas, planificación urbana, telecomunicaciones, gobierno electrónico, viajes, etc.

La ejecución de experimentos y la aplicación de técnicas estadísticas / algoritmos de aprendizaje automático en los datos generados por el usuario y la máquina así recopilados pueden ayudar a los responsables de la toma de decisiones a identificar patrones, comprender el pulso de los clientes finales (ciudadanos en caso de proyectos sociales) y tomar decisiones informadas: decisiones basadas en hechos .

La competencia principal de un buen científico de datos es un sólido conocimiento del dominio, curiosidad por hacer preguntas sobre los datos, más la capacidad de desglosar un problema complejo en marcos simples y significativos donde los datos pueden encajar y se pueden realizar experimentos.

Además del conocimiento del dominio y la capacidad de resolución de problemas, hacer más preguntas para estructurar las declaraciones del problema, curiosidad por buscar patrones, un fuerte conocimiento de las técnicas estadísticas, una buena comprensión de las matemáticas detrás de los algoritmos, la capacidad de dominar el lenguaje de programación correcto R, Python, Scala, etc. (para extraer y jugar con datos) en un corto espacio de tiempo y comunicar los hallazgos mediante visualizaciones efectivas, completa los conjuntos de habilidades de un buen científico de datos. Mis 2 centavos 🙂

Como señaló Jay, la gente de la industria hoy en día está abusando del término Data Science y Data Scientist. En general, los profesionales que trabajan en el dominio de análisis de datos se pueden clasificar en dos categorías:

1. Ingeniero de datos

Los Ingenieros de datos son personas que pueden escalar los algoritmos de ML / Data Mining en big data. Son personas con experiencia en Bases de datos (tanto SQL como noSQL) y Computación distribuida. El conjunto de habilidades requerido es Hadoop, Spark, SQL. MongoDB y así sucesivamente.

2. Datos científicos

Estas son personas con experiencia en Aprendizaje Automático, Minería de Datos, Estadísticas, CS y Matemáticas. El conjunto de habilidades requerido es: R, Python, ML, CS.

Pero esta es una visión general de lo que es el mínimo requerido para ingresar a Data Science. La ciencia de datos es más que R y Hadoop, como mencionaste. Y de ninguna manera es fácil.

No puedes ser un científico de datos simplemente aprendiendo R y Hadoop. Debes tener una base sólida en Matemáticas, Estadísticas y CS. Muchas veces enfrentará problemas del mundo real en los que los paquetes de análisis de datos disponibles en R / Python no darán un rendimiento satisfactorio o no darán ningún rendimiento en absoluto.

Aquí es donde surgirán tus habilidades matemáticas y de CS. Es posible que tenga que escribir un modelo completo desde cero, o piratear los modelos existentes, es posible que deba sumergirse en el dominio en el que está trabajando y convertirse en una especie de pseudo-experto en él.

Y con un crecimiento tan rápido en este campo, para sobrellevarlo hay que leer documentos de investigación relacionados con la minería de datos, el aprendizaje automático, que es bastante difícil.

Así que no creo que en la próxima década este campo se sature, al menos no con tanta energía y dinero que todas las grandes compañías que las grandes universidades están poniendo en este campo.

Espero que esto responda a su pregunta/

Realmente hay dos partes en esta pregunta:

  1. Aprendizaje automático y algoritmos.
  2. Todo el resto

En cuanto al número 1, es realmente realmente fácil hacer el aprendizaje automático, las estadísticas y los algoritmos (en general) incorrectos, y ni siquiera saberlo. Esto te mantendrá despierto por la noche. Así que sí, es muy fácil simplemente ejecutar un algoritmo. Pero es muy difícil saber qué algoritmos usar y usar esos algoritmos correctamente.

En cuanto al # 2, diría que esta es la mayoría del trabajo que realiza (o debería estar haciendo) un verdadero científico de datos. Y esto es mucho trabajo. La ciencia de los datos bien hecha es agotadora porque hay mucha codificación, mucha investigación, mucho pensamiento, mucha interacción con el negocio, mucha presentación, mucho análisis, etc.

Sí, hay roles de científico de datos que son ligeros, o en los que a nadie le importa lo que haces, siempre y cuando lo hagas lucir bien o bonito. Pero ese tipo de roles son una preparación excepcionalmente pobre para los roles de servicio pesado donde se espera mucho de usted.

Recomiendo prepararse para, y buscar, posiciones científicas difíciles de datos. Trabajarás bien, pero serás un científico de datos mucho mejor gracias a tus esfuerzos. Serás un científico de datos del que puedes estar orgulloso.

La ciencia de datos es mucho más que saber codificar en R y Hadoop.

Realmente, es más que solo saber codificar. La codificación en SQL, R, Hadoop, Python, etc. son todas las habilidades básicas que un científico de datos necesita tener, pero no son todo el trabajo. Son un componente, no el todo.

Creo que aquí es donde está la mala concepción; si la codificación es todo lo que hay en ella, entonces sí, los “campos de datos de arranque” estarían produciendo miles de “científicos de datos” y el campo se saturaría.

“Conserje al científico de datos en 6 semanas garantizado …” (no)

Eso es lo que importa, la ciencia de datos es mucho, mucho más que saber codificar en X lenguajes. La lista de habilidades duras es un poco engañosa;

  • Codificación
  • Modelado en Excel
  • Estadística

Lo que se encuentra más allá de esa simple lista es la explicación de cómo cada una de esas habilidades duras encaja en el rol general del trabajo. Replanteamos:

  • Escriba un programa personalizado en SQL que elimine millones de gigabytes de datos de usuarios de una docena de fuentes diferentes.
  • Almacene estos datos en una base de datos personalizada y luego modele en Excel
  • Uso de estadísticas, comprensión del negocio de la Compañía X y razonamiento deductivo; dar a la Compañía X puntos de acción para mejorar la experiencia del usuario del subconjunto Y de clientes del sitio web.
  • Todo esto porque la Compañía X quiere mejorar la forma en que su sitio web guía a los clientes a través del proceso de compra, facilitando a los clientes la compra de cosas / más y aumentando los ingresos.

En otras palabras, la lista de “habilidades difíciles” es un poco engañosa; No es solo codificación, o estadísticas, o Excel. Está haciendo recomendaciones y decisiones basadas en datos; Millones y posiblemente miles de millones de datos.

Bootcamps no puede enseñarte cómo tomar decisiones como esa. Claro, quizás puedas aprender un lenguaje de programación o dos en 6 semanas. Posiblemente puedas aprender todo lo demás al mismo tiempo también. Sin embargo, no puede aprender cómo hacer todo eso y cómo hacer los tipos de recomendaciones / decisiones comerciales que los científicos de datos son responsables de tomar.


¿Me gusto esto? Lea acerca de cómo comenzar en el científico de datos como un completo newb.

Fotos credito de google imagenes.

Supongo que una empresa puede dar un título a cualquier función que ellos quieran. Por ejemplo, hace algunos años enseñé en una escuela secundaria para el aprendizaje basado en proyectos. El tema principal que enseñé fue el Cálculo AP, sin embargo, mi título era “Facilitador de aprendizaje”. Cada profesor, indiferente a la materia principal que enseñaban, era un “Facilitador de Aprendizaje” del inglés al historial y del griego al francés, y bien, Cálculo AP: todos los “Facilitadores del aprendizaje” Lo mismo se puede decir de la ciencia de datos: hay muchos nombres comunes, pero los roles centrales pueden ser bastante diferentes en el nombre común.

Normalmente no soy alguien que diga que alguien es un científico de datos falso, ya que para mí el principal “deber” de un científico de datos es aportar valor a los datos. Y pueden hacerlo de varias maneras. Cada vez que entrevisto a un Jr Data Scientist, miro hacia abajo a su currículum, reviso las herramientas que tienen allí y luego les doy un conjunto de datos hipotéticos y les pregunto cómo lo obtendrían con las herramientas que tienen en su currículum. Pregunto cuáles serían los primeros pasos, es decir, las primeras líneas de código que escribirían contra ese conjunto de datos. ¿Cuáles son sus módulos / bibliotecas favoritas? ¿Cómo sondearían la naturaleza del conjunto de datos? Luego les doy otro conjunto de datos, uno que podría gravar los límites de tamaño (por ejemplo, si tenían Excel o R) y ver cómo lo manejarían. ¿Entienden el muestreo? Entonces podría volver a la exploración de datos anterior y ver cómo harían la selección de características y así sucesivamente. ¿Entienden cómo elegir modelos para este conjunto de datos? A mucha gente con la que entrevisto lucha que no tiene 3, 4, 5+ años trabajando con datos.

Entonces, ¿la ciencia de datos es demasiado fácil? No, no lo creo. Creo que es muy fácil poner herramientas en tu currículum. Y es demasiado fácil para que los bootcamp tomen su dinero y cree que está listo para la mayoría de los roles de Data Science. Puede estar listo para algunos, pero probablemente no tendrá las habilidades y la perspicacia (no debe confundirse con las herramientas) para manejar una buena mayoría de los roles de Data Science.

Dicho esto, conozco a algunas personas muy inteligentes que hacen “Data Science” principalmente en SQL y Excel. Tienen SQL en un servidor central de 512 GB 64 con un disco duro de 10 TB. Pueden extraer líneas de datos 50B bien indexadas en menos de 45 segundos. Hummm diggity! Y escriben muchos algoritmos en SQL que se escupen en SPSS o Excel para el modelado.

La pregunta tal vez se convierte en: ¿hay un nivel ‘técnico’ en todas las iteraciones de Data Science que uno tiene que ser para afirmar ser un Data Scientist?

Tome el caso anterior, Sr. SQL-Excel-SPSS y los dos casos siguientes. Una segunda persona escribe un script MapReduce y espera 4 horas para extraerlo de Hadoop y luego ejecuta una regresión contra ese conjunto de datos en R. Mientras tanto, una tercera persona utilizó Spark y una arquitectura de capa de servidor de lotes en Hadoop para obtener la misma cantidad de datos como el segundo hombre dentro de los 5 minutos. Luego escribe un algoritmo personalizado en Python.

¿Alguno de los tres mencionados es menos científico de datos que los otros? ¿Quién aportó el mayor valor e información a su empresa?

Así que hay muchos ángulos diferentes para mirar la Ciencia de datos, desde la nomenclatura del papel hasta sus responsabilidades.

¿Pero en cuanto al mercado se satura demasiado? Bueno, si puedes confiar en una firma consultora de primer nivel como McKinsey, esto es lo que dijeron sobre el campo de datos:

Habrá una escasez de talento necesario para que las organizaciones aprovechen el big data. Para 2018, solo los Estados Unidos podrían enfrentar una escasez de 140,000 a 190,000 personas con habilidades analíticas profundas, así como 1,5 millones de gerentes y analistas con los conocimientos necesarios para utilizar el análisis de big data para tomar decisiones efectivas.

src: Big data: la próxima frontera para la innovación, la competencia y la productividad

Hay cerca de 1,80,000 / – puestos de trabajo disponibles a partir de ahora. El mercado no está saturado para ningún individuo y, por lo tanto, estas tecnologías están calificadas bajo el encabezado emergente.

Es evidente en el mercado que Big Data es administrado por dos profesionales principales, uno es científico de datos y el otro es ingeniero de datos.

Para aliviar la confusión, la gente tiene acerca de los dos roles populares de la ciencia de datos, aquí hay una respuesta simple que lo ayuda a comprender las diferencias entre los dos: ingeniero de datos y científico de datos. El objetivo de esta guía es ayudar a los lectores a decidir por sí mismos el mejor rol de trabajo en ciencia de datos: ingeniero de datos o científico de datos, según sus habilidades y objetivos profesionales. Si está comenzando una carrera en la industria del big data y ha establecido un objetivo final para convertirse en un científico de datos, el paso más importante es dominar las habilidades de un ingeniero de datos. Es posible que este artículo no se una a todos los puntos, pero el motivo principal es ayudarte a pensar en esto para que tomes la trayectoria profesional correcta.

Un estudio reciente sobre Big Data afirmó que el 65% de las compañías de Fortune 100 utilizan actualmente el análisis de big data para dar un impulso a sus negocios. En los últimos años, las tecnologías de big data, AI y Hadoop están en tendencia. Esto hace que sea esencial para los profesionales realizar un curso de capacitación para administradores de Hadoop antes de postularse a grandes empresas como científicos de datos.

Más del 75% de los gigantes de TI han aceptado el hecho de que la tendencia de los científicos de datos continuará. Su modus operandi es completamente diferente del administrador de minería de datos.

Rasgos de los científicos exitosos de Big Data

1) Curiosidad: un profesional de big data siempre debe estar preparado para aprender cosas nuevas y desenterrar datos ocultos de una empresa. Por ejemplo, si el administrador de TI quiere saber qué programa de software no se ha actualizado en los últimos meses.

Cualquier persona normal destacaría solo las herramientas populares y más utilizadas, pero un científico de datos descubrirá los detalles completos de todas las herramientas de software pequeñas y grandes que están pendientes de graduación.

2) Aptitudes cuantitativas: idealmente, un científico de datos debería estar enamorado de los números. No importa si estudió ciencias o comercio, pero debe tener ese amor interminable con los dígitos. Los candidatos que continúan con la Capacitación para administradores de Big Data Hadoop también pueden convertirse en científicos exitosos de big data después de completar el programa.

3) Interpretación y comunicación: Él o ella debe ser un gran comunicador con una capacidad intrínseca para interpretar cálculos matemáticos en información útil.

4) Laborioso y paciente: la rutina habitual de un profesional de Hadoop es interactuar con los propietarios o la gerencia durante un largo período de tiempo para analizar todos los datos relevantes que la empresa necesita en relación con la empresa comercial. Por lo tanto, toma tiempo y requiere una cierta cantidad de diligencia y paciencia.

5) Buen organizador: los ingenieros de datos generalmente tienen que trabajar desde cero con una determinada información. Idealmente, deberían estudiar la Capacitación para administradores de Hadoop antes de sumergirse en este campo, ya que requiere una capacidad de organización excepcional. Los ingenieros de datos encuentran, actualizan y eliminan las cifras irrelevantes de su estudio, reemplazando los mismos datos precisos disponibles.

Hoy en día, los consumidores se vuelven cautelosos y leales a la marca. Examinan hasta el más mínimo detalle antes de comprar un producto o servicio. Por lo tanto, una empresa debe proceder teniendo en cuenta varios factores. Un equipo de científicos de datos con un diploma o certificado válido de Capacitación para administradores de Hadoop de Big Data puede hacer maravillas al respecto.

Es cierto que puedes llamarte a ti mismo un científico de datos con muy poca capacitación o experiencia, nada te detiene.

Pero una buena ciencia de datos es realmente difícil, no realmente fácil. El problema es que muchas personas están siendo contratadas como científicos de datos por personas que no tienen idea de lo que están haciendo o qué es la buena ciencia de los datos. Ellos (las personas que hacen la contratación) han escuchado que necesitan un científico de datos, así que intentan encontrar uno, pero no saben lo que necesitan realmente.

Aprender R y Hadoop está bien; en estos días, esas son probablemente partes clave de ser un científico de datos (aunque todavía hay lugares que usan SAS en lugar de R, de hecho, algunos insisten en usar SAS porque R es de código abierto). Sin embargo, es como aprender algo de inglés y luego llamarte novelista o aprender a sostener un pincel y luego llamarte pintor.

Creo que, en los próximos años, se hará mucha mala ciencia de datos y parte de ella fallará desastrosamente. Entonces la gente puede comenzar a darse cuenta de que saber R y Hadoop no es suficiente.

Por supuesto, también se está haciendo una buena ciencia de datos.

Prólogo (20/01/2016): Para poner un poco de contexto real, permítanme citar el ACM: Avances en la computación como ciencia y profesión: vemos un mundo donde la computación ayuda a resolver los problemas del mañana, donde usamos nuestros conocimientos y habilidades para avanzar en la profesión y hacer un impacto positivo. Además, las Comunicaciones de la ACM tienen este artículo que se relaciona con el tema: Responder consultas de enumeración con la multitud.

– Respuesta original –

No intentar arrojar agua al fuego o intentar poner un freno a la fiesta, después de todo, hay mucha gente que está ganando dinero (afortunadamente) en esta área, pero todo esto necesita una seria reconsideración.

Justo ayer, vi donde Google recogió un paquete de un profesor emérito de Stanford que tenía que ver con la representación del conocimiento en el juego, donde antes todos corrían tras los números (aprendizaje automático, estadísticas, etc.), que es el juego de “Big Daddy Data”. “Esquemas de todo tipo. En este caso, la cosa tenía que ver con administrar el tiempo. Anteriormente, vi dónde se estaban juntando las personas simbólicas con los trituradores de números. Ah, ¿eso denota progreso?

Aparte: no hay un conjunto de atrapamientos, envolturas, de actividad en las últimas dos décadas que pudieran haber dejado huellas digitales de mi parte más que un aspecto mínimo de mi ser y de mi ser.

En otro contexto y mucho antes, he mencionado, varias veces, que podríamos enseñar un poco de matemática a las mentes de negocios y vigilar. En ese momento, no sabía cómo se desarrollaría esa prognisticación. Desafortunadamente, ha crecido mucho más allá de lo que hubiera imaginado.

“impulsado por datos” y “basado en evidencia” son dos vistas que crean un enmarañamiento que tendrá más que resultados insidiosos. Existen problemas subyacentes, aún no resueltos, que se han ocultado y se deben a la facilidad de poner mantequilla de maní sobre ellos a través de enfoques numéricos. Eso podría aplicarse a la imagen más grande de la cosmología, para arrancar.

– Postnote (20/01/2016) –

La gente de los datos debe asumir sus deberes de no menospreciar los aspectos informáticos avanzados de su disciplina. Como tal, los campamentos de entrenamiento que hacen a los científicos de datos desearían un entrenamiento básico del Ejército (alrededor de 8 semanas) que genere estrategas militares y más. Con respecto a los detalles abordados en el artículo mencionado en el Prólogo, la esencia de los argumentos cubre una gran cantidad de cosas importantes.

Preguntas relacionadas: ¿Realmente necesita un científico de datos ?, ¿es la ciencia de datos el fin de las estadísticas ?, ¿Ciencia de datos: como estudiante de doctorado en estadística, cómo puedo convencer a los empleadores de que puedo ser un buen científico de datos? … ¿Por qué la gente se ríe cuando digo que R es mi lenguaje de programación favorito?

Permítanme comenzar con este artículo muy interesante de kdnuggets: 20 preguntas para detectar científicos de datos falsos

Si algo está de moda, parece trivial; sin embargo, si algo es trivial, entonces, ¿cuál es el punto de hacerlo porque todos pueden hacerlo?

Sabemos lo que un científico es “definición de científico en inglés del diccionario de Oxford”, pero desafortunadamente nadie sabe claramente qué es un científico de datos o qué es la ciencia de datos . La gran cantidad de diferencias de opinión sobre este tema ofrece una buena evidencia de cómo las personas entienden la ciencia de datos en general.

  • ¿Cómo puedo convertirme en un científico de datos? (100+ respuestas)
  • ¿Qué es un científico de datos? (52 respuestas)
  • ¿Qué es la ciencia de datos? (36 respuestas)
  • ¿Cómo puedo empezar a aprender ciencia de datos? (21 respuestas)
  • ¿Qué antecedentes se requieren para la ciencia de datos?
  • ¿Qué necesitas saber para aprender ciencia de datos?

Puedo llamarme a mí mismo lo que quiera, pero no tiene ningún significado real si el mundo exterior no lo reconoce o si no me da una trayectoria profesional sostenible o algo tangible que pueda obtener de este conocimiento. Esto me puede llevar a un estado de “bloqueo”, donde creo que lo sé, pero no sé qué puedo hacer con él. Recientemente escribí un blog sobre estos aspectos, ver más abajo.

Aprendizaje automático ‘Bloque’: tengo un martillo pero no clavos

Para responder a su pregunta directamente, si tiene experiencia en matemáticas, álgebra lineal, programación, visualización, estadísticas, etc., puede ser más fácil para usted ingresar y mantenerse en este campo, de lo contrario se requiere mucho aprendizaje. Por ejemplo, ¿cómo aprendo el aprendizaje automático?

Una cosa es segura: aprender pocos lenguajes de programación, dominar pocos paquetes, hacer cosas de computación en la nube / clúster es realmente bueno, pero no necesariamente da derecho a nadie a convertirse en un científico de datos, a menos que una empresa X llame a esa persona un científico de datos.

El científico de datos aparte es una gran perspicacia comercial, junto con la capacidad de comunicar los resultados tanto a los líderes de negocios como a los de TI de una manera que puede influir en la forma en que una organización aborda un desafío empresarial. Los buenos científicos de datos no solo abordarán los problemas comerciales, sino que elegirán los problemas correctos que tienen el mayor valor para la organización. Hadoop All in 1, Data Science, Statistics and Probability – Combo Course Training Classes Online | Hadoop All in 1, Data Science, Statistics and Probability – Combo Course Courses Online

El rol de científico de datos se ha descrito como “analista parcial, artista parcial”. Un científico de datos es alguien que es inquisitivo, que puede observar los datos y detectar tendencias. Es casi como un individuo del Renacimiento que realmente quiere aprender y traer cambios a una organización “.

Mientras que un analista de datos tradicional puede mirar solo los datos de una fuente única, como un sistema de CRM, por ejemplo, un científico de datos probablemente explorará y examinará datos de múltiples fuentes dispares. El científico de datos analizará todos los datos entrantes con el objetivo de descubrir una visión previamente oculta, que a su vez puede proporcionar una ventaja competitiva o abordar un problema empresarial acuciante. Un científico de datos no simplemente recopila e informa sobre los datos, sino que también los mira desde muchos ángulos, determina lo que significa y luego recomienda formas de aplicar los datos.

Los científicos de datos son inquisitivos: exploran, hacen preguntas, hacen análisis de “qué pasaría si”, cuestionan suposiciones y procesos existentes

Los datos se duplican cada dos años, y todos han oído hablar de las cifras de crecimiento absurdas declaradas en los informes. En este contexto, el resultado inevitable es la aparición de Data Scientist. Un científico de datos necesita analizar grandes cantidades de datos y convertir el mapa tecnológico para hacer posible la transición de los datos a la información. El alcance del trabajo de un científico de datos incluye la identificación de las fuentes de datos, la calidad de los datos, las correlaciones entre los puntos de datos y la difusión a los usuarios de la información.

Por el momento, el papel de un científico de datos es desempeñado por una combinación de personas en el equipo de BI, como el arquitecto del almacén de datos, el analista de negocios y otros de ese tipo. A medida que la situación evoluciona, el científico de datos trabajará por encima de estos profesionales para descubrir nuevas tendencias y asociaciones que pueden estar más allá del ámbito de los modelos actuales y los problemas empresariales. El analista de negocios trabajaría en los datos que ha sido recopilado por el científico de datos. James Kobielus, un analista senior de Forrester, en su Business, va tan lejos como para comparar el trabajo de un científico de datos con el trabajo de científicos en ciencias naturales y ciencias sociales, afirmando que necesitarían datos de observación y datos experimentales para funcionar. con. “Históricamente ( los científicos de datos ) han tenido que contentarse con meros ejemplos”. Con una carrera profesional emergente, esto pronto cambiará.

Las discusiones sobre quién está calificado para ser un científico de datos no varían demasiado con respecto al debate celebrado anteriormente sobre si, sin embargo, al comienzo, los expertos de la industria han indicado que un científico de datos debe tener una maestría en matemáticas o estadísticas. Mientras tanto, el grupo de CTO en Shoppers Stop, afirma: “Hay una escasez de profesionales a los que se puede llamar científicos de datos. En este momento, quien tenga una pasión por trabajar con datos está llenando el vacío.

Yo diría que eso depende de cuánto te apasiona.

Fácil: para aquellos

  1. ¿Quién quiere hacer dinero rápido con eso y no le importa el largo plazo?
  2. ¿Quién no toma la decisión con sus propios puntos de vista / análisis?
  3. A quienes no les apasiona el trabajo que realizan con los datos.
  4. Quienes son expertos en Programación (Algoritmos) + Machine Learning

Difícil: para aquellos

  1. Que están teniendo tanta pasión por ello.
  2. Quienes confían en los datos para su pan y mantequilla.
  3. ¿Quiénes son los aspirantes a empresarios (difícil de entender qué solución se ajusta mejor a qué caso)
  4. Quienes están muy restringidos a una tecnología particular. (La ciencia de datos está evolucionando y se espera que uno tenga amplio conocimiento sabio)
  5. Quien no codifica.

Alcance

  1. Hay un lugar para ello hasta que todos los negocios cierren.
  2. Con la evolución de IoT, se espera que Data Science sea el punto crucial de las aplicaciones basadas en IoT.

Ser un científico de datos mediocre es fácil.

Muchos científicos de datos que conozco, aunque inteligentes y conocedores, son completamente inútiles.

Piensan que DS se trata de lanzar datos a un bosque aleatorio o la última arquitectura de redes neuronales, ajustar y revisar los resultados.

Sólo los grandes científicos de datos que conozco son realmente productivos.

La mayoría no vale su salario; simplemente se entremezclan un poco con algoritmos de aprendizaje, reimplementan las cosas que creen que son geniales, complican demasiado las cosas, hacen una mala validación y, en general, no tienen éxito a menos que la tarea sea fácil (es decir, los datos eran limpios, las características eran excelentes los requisitos alcanzables), en cuyo caso el algoritmo de otra persona está haciendo todo el trabajo por ellos.

Sí, la ciencia de datos mediocre es fácil.

La mayoría de las personas que no se molestan en aprender las estadísticas, el cálculo y el álgebra lineal detrás de los algoritmos están aplicando ciegamente a los datos e informando que los resultados estarán en un gran problema en algún momento (y también lo harán sus compañías). La ciencia de datos reales requiere amplitud y profundidad de conocimiento: comprensión profunda de las matemáticas, estadísticas, diseño de algoritmos, programación, industria y comunicación / visualización de resultados.

Confía y gasta tu dinero y entrena en lugares de renombre. El linaje es importante en la formación en ciencia de datos, como se puede ver por qué. Incluso las organizaciones reputadas no capacitan a las personas de manera integral y brindan apoyo mientras hacen su trabajo. La situación desafortunada es que la organización o el analista tal vez ni siquiera sepan que irán a un destino, eso es inútil, pero aún así piensan que están haciendo un trabajo atractivo al aplicar analíticas.

Estas son las 10 razones principales por las que Data Science no es fácil o puede que no cree la solución correcta.

  1. Puede comenzar con una pregunta incorrecta priorizada para comenzar, por qué quería una solución basada en la ciencia de datos
  2. Incluso si tiene la pregunta correcta, la medición que usa puede no ser correcta.
  3. Incluso si tiene la medida correcta, es posible que los gerentes no comprendan y completen las partes móviles de la medida (árbol de problemas en McKinsey). Los nodos finales del árbol de problemas son las estrategias de datos.
  4. Incluso si el árbol de problemas es completo y completo, los compromisos de recopilación de datos con los puntos seleccionados de la estrategia de datos pueden no ser los más valiosos (ya que tomamos atajos para resumir las prioridades de la estrategia de datos)
  5. Incluso si las estrategias de datos en (4) son las más valiosas, uno no puede pedir los elementos de datos correctos
  6. Incluso si pregunta y obtiene los datos correctos, la calidad de los datos puede no estar a la altura
  7. Incluso si la calidad de los datos es buena, el análisis realizado puede no ser correcto (lo que debe tener en cuenta, las limitaciones en todas las cuestiones anteriores; es de esperar que la ciencia de los datos pueda abordarlas)
  8. Incluso si el análisis se realiza correctamente, es posible que los gerentes no reciban bien la comunicación sobre cómo implementar, lo que reduce aún más las esquinas.
  9. Incluso si los gerentes lo reciben bien y lo implementan perfectamente, el departamento de TI y las oficinas de cumplimiento pueden tener dificultades para ejecutarlo correctamente.
  10. Para cuando llegas a este punto, el mercado ha cambiado.

Cualquiera de los pasos anteriores puede resultar ser una situación catastrófica. Lo peor es que usted pensará que está obteniendo la respuesta correcta e invertirá todo su tiempo y dinero sin saber que se dirige hacia un destino que será un lugar muy equivocado.

Entonces, ¿qué se supone que debemos hacer? Aquí es donde debe comenzar con un líder inteligente y un gerente que construirá su organización de ciencia de datos. Las organizaciones están dispuestas a gastar en hardware, y el software (ciencia de datos) es igualmente importante, y si está utilizando la nube, el software es más importante de administrar internamente.

Entonces, ¿qué hacen los gerentes? Vamos a hacer retroceder a los científicos de datos. Ponga muchas expectativas en el científico de datos. Sé un unicornio o un infierno contigo .. !! Anuncios en todas partes “Sólo se admiten unicornios!”.

Prescripción 1: capacitar a los gerentes también en ciencia de datos al menos con uno o dos cursos. O bien, espere que los gerentes realicen la capacitación a menos que ya tengan los antecedentes / capacitación necesarios.

Receta 2: Entrene con personas que son incondicionales en la industria y proporcionará apoyo continuo con una comunidad con la que puede interactuar, aprender y compartir. Porque capacitarse en problemas prácticos es una bestia muy diferente, y cómo pensar es más importante y difícil de lograr que obtener códigos de alguien para ejecutar un problema de ciencia de datos.

Esta es una filosofía muy diferente para el entrenamiento. En general, ninguna escuela / instituto de capacitación está preparada para enfrentar a los estudiantes una vez finalizada la capacitación. Es una lucha entre el aprendiz y el empleador.

Hay muchas operaciones de vuelo nocturno que se aventuran en este campo, porque hay dinero para hacer.

————————————————————————————————————-

PD: los términos económicos utilizados en la lista anterior no significan que se trata de hacer dinero e inteligencia comercial. Las ideas anteriores se interpretan de forma segura y correcta incluso en organizaciones sin fines de lucro o gubernamentales o de atención médica, también.

Convertirse o pretender ser un científico de datos es fácil. Pero ser un científico de los datos realmente duro toma un largo camino por recorrer. Hablaré desde la perspectiva estadística. Aunque soy un doctorado en estadística, no puedo dejar de aprender estadísticas para superar nuevos desafíos para el trabajo.

Es fácil imitar algunas secuencias de comandos en línea para adaptarse a los modelos. Pero saber por qué funciona este modelo y cuál es la advertencia necesita un conocimiento experto. Los ejemplos de juguetes son fáciles, si no lastiman a nadie. Para los modelos de producción que tienen un alto impacto, uno debe saber lo que realmente está haciendo.

Al principio, también pensé que la barrera para los científicos de datos era baja y me preocupaba la seguridad laboral. Entonces me di cuenta de que hay diferentes niveles de científico de datos y siempre podemos actualizar.

Lo sentimos, llamarse un científico de datos es fácil, SER un científico de datos no lo es. No me considero un científico de datos y usted tampoco debería hacerlo hasta que haya resuelto los problemas de datos no triviales, por su cuenta, y haya tenido un impacto en el negocio o las operaciones de una organización.

El corazón de la ciencia de datos es la capacidad de diseñar fórmulas y algoritmos matemáticos que brindan una nueva perspectiva de enormes volúmenes de datos. No debes tomarlo a la ligera ni pensar que es fácil. Aprender una trama simple en R o cómo hacer un ejemplo de Wordcount en un clúster Hadoop de 1 nodo NO lo convierte en un científico de datos; SOLO resolver problemas del mundo real puede hacerlo.

Esta es una forma de probarse a sí mismo: gane una competencia de Kaggle (Competitions | Kaggle) y estará en camino de convertirse en un científico de datos de primera clase. ¡Los mejores deseos!