No, la ciencia de la información no es fácil: simplemente sin forma y no “profesionalizada”.
Con esto quiero decir que no hay conjuntos de herramientas estándar, ni planes de estudios, ni organismos de certificación, ni ninguna trayectoria profesional específica que lleve a convertirse en un científico de datos; sin embargo, todos los bits esenciales están ahí, y no son fáciles de adquirir, ensamblar o aplicar bien.
Sí, uno puede aprender R y Hadoop y “afirmar” que es un científico de datos, pero eso está lejos de la verdad. En comparación, también se pueden tomar algunas clases de medicina y reclamar ser un médico o ver algunos tribunales, programas de televisión y reclamar ser un abogado. La diferencia es que las disciplinas de la medicina y la ley están “profesionalizadas”. Como resultado, pueden proteger sus puertas estableciendo estándares sobre quién puede llamarse a sí mismo un “médico” o un “abogado”. En ciencia de datos, todavía no podemos hacer eso.
En la medida en que R y Hadoop, son solo parte del conjunto de herramientas de ciencia de datos. No constituyen “ciencia de datos” más de lo que un escalpelo constituye “cirugía”. De la misma manera que la física se basa en las matemáticas, la ciencia de los datos se basa en herramientas estadísticas para manejar conjuntos de datos grandes y pequeños, datos estructurados y no estructurados, etc. Pero las matemáticas de la física no son un sustituto del pensamiento, análisis, enfoque o método científico. y tampoco Hadoop y R sustituyen a la comprensión del comportamiento en los datos.
Las estadísticas, específicamente, se ocupan en gran medida de los métodos para probar hipótesis utilizando datos; por lo tanto, antes de poder usar Hadoop o R de manera constructiva, es necesario conocer las estadísticas y conocerlas bien. Porque, a diferencia de las estadísticas, que se ocupan en gran medida de probar las hipótesis y detenerse allí, la ciencia de los datos se centra en las implicaciones de las desviaciones sistemáticas de las hipótesis (como lo demuestran las pruebas estadísticas) y las conclusiones más importantes que podemos obtener como resultado de esas desviaciones.
Además, aparte de la ciencia de datos que requiere un conocimiento acumulativo de numerosas herramientas o subdisciplinas, como las estadísticas, R, Hadoop, etc., uno debe poder incorporar esas herramientas para responder preguntas importantes de negocios y lograr resultados comerciales, ninguno de los dos. cuya iniciativa se deriva directamente del conocimiento de las herramientas. Esa habilidad, habilidad, experiencia o talento, es lo que el científico de datos ha puesto sobre la mesa, lo que le permite llamarse a sí mismo justificadamente, un “científico de datos”.
Esto me lleva a creer que la verdadera pregunta aquí es: “¿Puede alguien SER un científico de datos?” Y a eso diría que no, en absoluto, por las razones que acabo de mencionar. En mi experiencia, ni siquiera los principales especialistas en CS o STEM de una escuela superior pueden convertirse fácilmente en buenos científicos de datos, sin capacitación adicional, y algunos factores personales. Aparte de su naturaleza multidisciplinaria, la ciencia de datos requiere un profundo amor por la divergencia entre la realidad observada en los datos y la predicción de modelos matemáticos. Para hacer eso, uno necesita algo más que un dominio de herramientas. Uno necesita un amor por la imperfección.
He estado en este campo casi 20 años, desde antes de que existiera el término “ciencia de datos”, por lo que he visto muchas cosas. De hecho, creo que la excelencia en la ciencia de la información requiere varios años para aplicarla antes de que uno pueda entender realmente la información, cómo se comporta, cómo funcionan los diferentes modelos, hacia adelante y hacia atrás, etc. Sin embargo, lo más importante es que la excelencia requiere cometer errores y comprenderlos. , junto con apreciar las variaciones entre la realidad observada y la predicha. Por lo tanto, cariñosamente llamo a la ciencia de datos la ciencia para personas imperfectas, como yo.
Lo digo medio en broma. En verdad, creo que toda buena ciencia es para personas imperfectas, personas que se vuelven curiosas, no enojadas, cuando ven imperfección y variación. Los especialistas en STEM que no soportan la imperfección y la variación nunca serán buenos científicos ni buenos científicos de la información, al igual que los fanáticos no pueden hacer buenos vecinos. ¿Por qué? Porque el mundo en que vivimos es imperfecto y variable y su belleza reside en esa imperfección y variabilidad. Además, la ignorancia, no el conocimiento, impulsa la ciencia, y la imperfección y la variación son las características de la ignorancia.
Por lo tanto, aunque me encantan las matemáticas, no me parece increíblemente interesante más allá de cierto nivel por una simple razón: siempre funciona. De esta y única manera, me encontré con un alma gemela con uno de mis antiguos maestros, John Nash (el “Beautiful Mind” Nash). Una vez le pregunté por qué no se quedaba en las matemáticas en lugar de cambiar a la economía. Nash respondió: “Porque las matemáticas son demasiado fáciles”. Ahora no puedo decir que compartí esa realización (quiero decir, ¿en serio?), Pero después de explorar una serie de disciplinas matemáticas, llegué a la conclusión de que es demasiado “perfecto” para mí imperfecto.
La ciencia de datos, por el contrario, toma estos modelos perfectos y los construye contra datos reales generados por seres humanos, animales y seres humanos que a veces se comportan como animales. Estas criaturas rara vez exhiben un comportamiento que resulta en sistemas y soluciones de forma cerrada. En otras palabras, la ciencia de los datos nos lleva al corazón de cómo operamos como humanos en el mundo que nos rodea.
Tenemos expectativas (es decir, modelos mentales) que generalmente se apartan de la realidad. Al perseguir nuestros objetivos, exhibimos el drama o la comedia de esa partida. Por lo tanto, al hacer ciencia de datos, estamos haciendo algo verdaderamente shakesperiano: ¡estamos caracterizando maravillosamente, con números, el drama (o comedia) del comportamiento humano!
Bien, ahora que he dado mi discurso de Buena Voluntad de caza, permítanme ofrecerles un ejemplo específico. Mi trabajo de consultoría típico consiste en validar de forma independiente los conjuntos de modelos comerciales producidos por los científicos de datos de un cliente o de un equipo de consultoría. Hecho correctamente, empleé un conjunto de herramientas de validación y técnicas de muestreo (muestra pequeña, no paramétrica, ponderada / no ponderada, etc.) que aplico en forma de exploración y prueba de estrés, como un CSI. (Lo tiro para darme un atractivo sexual). Sin embargo, debido a mi experiencia, generalmente puedo ver lo que está mal con los modelos incluso antes de realizar cualquier prueba formal.
Ahora no soy un genio, pero incluso cuando los modelos son excepcionalmente complejos, puedo hacerlo, a veces incluso más fácilmente. Por lo tanto, he descubierto los problemas en modelos altamente no lineales que contienen más de 100 variables (¡lo cual, a menudo, es el problema!) Pero todo eso proviene de la experiencia en ver errores, cometer errores y entender la realidad versus la perfección pronosticada. Si hay una divergencia, me emociona mucho. Además, tengo experiencia empresarial y experiencia ejecutiva, por lo que entiendo bien que la respuesta “correcta” es a menudo la que debe respaldar algún resultado u objetivo empresarial.
Por lo tanto, en todas estas aventuras científicas de datos, generalmente observo dos cosas: 1) generalmente tengo razón (o nadie me contrataría nuevamente) y, 2) el 99% de las personas a las que estoy validando (STEM, que generalmente tener doctorados en física, matemáticas, astrofísica, etc.) no lo vio. Por lo tanto, la diplomacia se convierte en una dimensión necesaria y agregada al conjunto de herramientas de ciencia de datos, ya que a menudo uno tiene que revelar malas noticias.
Además, es importante entender que la mayoría de las veces, los desarrolladores no cometieron errores graves. Sus modelos simplemente no hacen lo que se esperaba que hicieran o ignoran las realidades empresariales que se les paga por observar. Entonces fue cuando me llamaron para entrenarlos y tratar de ver lo que vi para que luego puedan verlo por sí mismos.
¡Y todo eso es duro! A veces es como tratar de describir el sabor de la miel a alguien que nunca la ha probado. Por supuesto, eso no significa, en absoluto, sonar condescendiente. Simplemente estoy volviendo al punto de que la ciencia de datos tiene un aspecto esencial de aprendizaje en el campo que está más allá de la importancia de las herramientas de aprendizaje como R y Hadoop.
Pero eso me devuelve, en un círculo completo, a la confusión que rodea a uno que es capaz de “llamarse a sí mismo un científico de datos, incluso si uno no posee todo el conjunto de herramientas, la experiencia y el amor por la imperfección y la variabilidad. Como profesión incipiente, la ciencia de datos tiene mucho trabajo por hacer. Necesitamos un plan de estudios multidisciplinario más estandarizado, implementado por personas con experiencia de campo y negocios (no solo académicos) y tal vez uno o dos cuerpos profesionales que puedan proteger las puertas.
Hasta entonces, las personas que deciden tomar decisiones en lugares altos seguirán contratando a cualquier especialista en STEM o CS que conozca Hadoop y R y esté dispuesto a trabajar por poco dinero. Eso confunde las cosas y probablemente también las frustra. Porque, en verdad, es mucho más difícil y complicado que eso, y también lo es la ciencia de datos.
(Espero establecer algún tipo de “Asociación de científicos de datos”. Si alguien está interesado, contácteme).