¿Cuáles son algunos de los mejores recursos para prepararse para entrevistas de ciencia de datos?

Puedo resumir mi experiencia como un recién graduado de doctorado en busca de un trabajo de Data Science / Machine Learning. Hice muchas entrevistas en startups y también en grandes empresas.

Primero, existe un libro / documento que trata de cubrir las categorías principales de la entrevista de DS: preguntas de la entrevista de Data Science es un buen punto de base, pero me pareció que estaba un poco fuera de foco en algunas categorías.

Teniendo en cuenta esto, aquí hay algunas cosas que solía preparar:

1. Presentación de su trabajo.

En cada entrevista me pidieron que explicara los detalles científicos de mi trabajo anterior. Alrededor del 20% de la entrevista me exigió hacer una presentación con diapositivas y una pizarra sobre mi trabajo. Asegúrese de tener algunos proyectos interesantes para mostrar y practicar la presentación. La comunicación es una parte importante del trabajo de DS, debería poder explicarlo de dos maneras, una explicación para la explicación de los colegas de DS para los gerentes de producto (básicamente, cómo se lo explicaría a un niño de 10 años).

2. Algoritmos

Habrá codificación en cada entrevista. Prepárate para ello. Usé Talentbuddy y LeetCode Online Judge y Cracking the Coding Interview. Elige un idioma y conoce sus detalles. Recomiendo encarecidamente Python, es fácil, rápido y no verboso, con un buen soporte nativo de algoritmos básicos y se utiliza con mucha frecuencia en DS. No necesita hacer algoritmos muy complicados, experimenté programación dinámica solo una vez, pero definitivamente me centré en árboles, listas, recursiones, clasificación y hashing.

3. Diseño del sistema y casos de uso.

Aquí necesitas saber cómo funcionan los sistemas DS y ML. Conozca las técnicas básicas y todos los pasos de preprocesamiento que debe realizar desde obtener datos en bruto hasta tomar una decisión / inferencia. Prepárese para esbozar los detalles de la tubería e identificar la carga que debe manejar esa tubería. Aquí también debe conocer las ventajas y desventajas de los algoritmos individuales, especialmente para ML. Si elige digamos Random Forest o SVM, debe decir por qué. Espere preguntas de seguimiento que harán que el problema sea cada vez más difícil (por ejemplo, datos faltantes, gran volumen de datos, incorporación previa, incorporación de comentarios de usuarios en la clasificación …). Recomendaría leer libros de ML (Introducción al libro de texto de Aprendizaje automático y Aprendizaje de máquinas, Reconocimiento de patrones y Aprendizaje automático: Christopher Bishop) e implementar algunas tuberías de ML / DS por su cuenta.

4. estadísticas

Este no aparece tan a menudo como cabría esperar. También depende de qué tipo de roles estás aplicando. Si es más analítico, espere más estadísticas si es más ML, menos estadísticas. Definitivamente, debe conocer toda la probabilidad básica (eventos de combinación, eventos condicionales, regla de Bayes …) y estadísticas (distribuciones, ML, MAP, antecedentes conjugados …). Asegúrese de conocer el teorema del límite central, que aparece con bastante frecuencia. Puedes tomar un libro de estadísticas y hacer ejercicios que están al final de los capítulos.

5. Tecnologías

Este es raro, basado en mis observaciones alrededor del 20-25% del tiempo. También depende de la función, si su mano en DS, o compañía de inicio, debe saberlo. Sería útil utilizar las bases de datos Hadoop, HDFS, SQL y NoSQL (práctica SQL en LeetCode Online Judge). Intente implementar algún clasificador desde cero sobre Hadoop o Spark.

William y otros han escrito excelentes respuestas en ¿Cómo me preparo para una entrevista de datos científicos?

Recomiendo particularmente los excelentes y minuciosos mensajes de Will y Alya Abbott.

Una cosa a tener en cuenta: dado que el campo de la ciencia de datos es lo suficientemente incipiente, donde el rol describe las responsabilidades que van desde el análisis retrospectivo (más precisamente llamado inteligencia de negocios) hasta el modelado predictivo para hacer visualizaciones de datos, debe tener una idea temprana de lo que énfasis que la empresa está buscando.

Si están buscando gente para trabajar en problemas de aprendizaje supervisado, probablemente no necesite prepararse tanto en sus habilidades de D3.js.

¡William y yo co-creamos un PDF llamado 120 preguntas de la entrevista de Data Science! Puedes obtenerlo aquí: preguntas de la entrevista de Data Science

pps Para ver una muestra de las preguntas, consulte: SAMPLE_120 Data Science Questions.pdf. Y para ver una lista parcial de las respuestas, echa un vistazo a la publicación de Will aquí: Respuestas de William Chen

La primera parte más obvia de la respuesta es saber para qué te estás preparando. Esto es cierto en general, no solo en la ciencia de datos. La realidad es que hoy en día muchas cosas se denominan ciencia de datos y muchas personas se autoproclaman científicos de datos. Entonces, el primer paso es averiguar qué es exactamente lo que está buscando el entrevistador, y eso a menudo no es obvio. Es posible que tenga que hacer algunas preguntas antes de la entrevista.

He visto las posiciones de la ciencia de datos para caer en una serie de categorías (algo exageradas):

  1. Realmente solo buscan un analista de todo tipo y cualquier habilidad de Excel podría ser completamente suficiente (es posible que ni siquiera quieras este trabajo …)
  2. Están buscando un ingeniero de datos y están más interesados ​​en saber si se ha mantenido al día con los avances más recientes en la programación de scala y si sabe cómo controlar las versiones, etc. Podría haber una serie de sesiones de preparación estándar en línea, no lo sabría. (de nuevo, no es un trabajo que quisiera o obtendría)
  3. Necesitan a alguien que pueda, de hecho, diseñar análisis estadísticamente válidos basados ​​en (varios) datos de tamaño, incluido el aprendizaje automático, el modelado predictivo, el agrupamiento y no les importa demasiado cómo realiza el trabajo (ahora estamos hablando …)
  4. Ellos están buscando un experto en el aprendizaje profundo …
  5. Necesitan un unicornio que pueda hacerlo todo, incluida la capacidad de realizar proyectos de alcance, traducir el problema empresarial en una solución basada en datos “solucionable”.

Una vez que descubras con qué estás tratando, probablemente quieras reconsiderar la aplicación en primer lugar …

Por lo general, he estado buscando candidatos en la categoría 3 (tomo un 5 cualquier día). No hay un ‘recurso’ de atajo para convencerme de que tiene lo que se necesita. (Desafortunadamente) se reduce a la personalidad y la experiencia; mire mi respuesta sobre la entrevista en algunos detalles de lo que estoy buscando. Un buen lugar para recopilar experiencia es pasar un tiempo en las competiciones Kaggle. Tienen muchos conjuntos de datos para jugar y puedes aprender de las experiencias de los otros participantes. Cuantos más datasets diferentes toques, mejor!

Además, necesito experiencia en el modelado predictivo y espero que esté familiarizado con los conceptos del libro (fabuloso) “Elementos del aprendizaje estadístico”. Necesito que puedas programar en un nivel que te permita hacer un prototipo de lo que quieras. Así que algunas habilidades en la extracción de datos (API, SQ), algunas habilidades en scripting (Shell / Perl / Python), algún entorno decente para el modelado (bibliotecas de Python / R / implementaciones independientes), alguna idea de cómo visualizar / comunicar lo que encontró ).

Algunos recursos de publicación para mantenerlos nítidos: KDN se instala en la conferencia de KDD (gran conjunto de documentos aplicados).

Una última pieza de consejos un tanto no relacionados: por más divertidos que sean las nuevas empresas, NO desea que su primer trabajo de ciencia de datos sea el primer científico de datos de la compañía …

Todos han contribuido muchas ideas. Recomendaré encarecidamente leerlos, comprenderlos todos y aplicar. Solo quiero agregar, en una entrevista, el empleador o las personas contratantes le preguntarán: “¿Tiene alguna pregunta para nosotros?” La respuesta es obvia: ¡SI! Hacer una o dos preguntas demuestra que tiene interés en el trabajo que está solicitando. Además, dará una idea de las personas contratantes que desea que formen parte de la comunidad lo antes posible. Sin embargo, si puede hacer la pregunta correcta e inteligente, obtendrá muchos puntos, ya que hacer preguntas inteligentes significa que usted es inteligente.

Bueno, un par de preguntas generales que puede hacer que le beneficiarán:
1. ¿Cómo se evaluará mi desempeño como científico de datos?
Esta pregunta es importante ya que necesita tener la medida correcta para saber si está o no en el camino correcto cuando está trabajando. No asuma que todas las compañías tienen la misma evaluación, aunque el trabajo aún es ciencia de datos.

2. ¿Con qué frecuencia voy a trabajar en un equipo? ¿Cuántos científicos de datos tienes?
Necesitas saber si eres una persona de equipo o un lobo solitario. De cualquier manera, hacer esta pregunta le dará una idea de cómo funcionará la comunicación en la empresa. Además, esto le dirá cuánto trabajo estará esperando.

3. ¿Tienes datos? Si es así, ¿cuál es el tipo de datos que tiene?
No sé cómo enfatizar esto más. Me refiero a datos científico trabaja con datos. Entonces obviamente necesitamos saber si ellos mismos generan datos o necesitamos buscarlos nosotros mismos. Además, siempre es una buena nota saber qué tipo de datos va a trabajar.

4. ¿Alguna vez alguien ha manejado los datos antes?
Esto es importante ya que no desea rehacer la mayor parte del trabajo que se realiza por usted solo porque otras personas son analfabetas en el resultado del análisis de datos.

Bueno, como consejo, le sugeriré que haga la pregunta más específica porque esto demuestra que tiene interés. Puede preguntar sobre la cultura, el estilo de vida entre compañeros de trabajo, etc. Contratar a personas que aman a las personas que están entusiasmadas con su compañía. Siempre recibo una buena respuesta con mis preguntas. Recuerde, una entrevista no es solo para que encuentren al candidato adecuado, sino también para que encuentre el lugar de trabajo adecuado. Entonces, no pierda esta oportunidad, hágales preguntas y déjeles que le cuenten lo que puede averiguar.

Con suerte, esto ayudará.

Una vista amplia:

Si le pongo un número, pondré la intención a largo plazo con la compañía como número uno. Lo primero es reconocer su fin tan buscado y también tu propio fin. Una alineación entre usted y una compañía tan grande mantiene su ego bajo control, con respecto a la compañía fundada y así establecida. Una institución no es solo su título de trabajo y salario, como algunos pueden enfocarse, sino que se asienta en una arquitectura robusta en el futuro previsible, organizada y ejecutada en el negocio como de costumbre, y lo más importante es que un consejo de administración dirige el curso más destacado. Así que aclare antes de comenzar un curso sobre derechos y el trabajo que merece. Por lo tanto, usted gana su rango si así lo desea de acuerdo con algo más grande que usted.

Una vista táctica:

Estudias los algoritmos y las estructuras de datos, los métodos de aprendizaje y la experiencia empresarial. Necesita demostrar estas expectativas básicas para incluso haber recibido una oferta de trabajo. Es eso, “¿puedes hacer este trabajo?” Cualquier experiencia adyacente se transfiere a un científico de datos más efectivo. Debe aprovechar su mejor mano para alcanzar el valor de mercado de un científico de datos.

Si yo fuera usted, consultaría http://glassdoor.com y ¿Cómo me preparo para una entrevista de datos científicos? .

También ¿Cómo me preparo para un puesto de analista de datos / científico en Facebook?

y otros temas similares para las mejores empresas.

También usaría el producto de la compañía en exceso y uso Linkedin para ver qué personas de este puesto saben / están trabajando actualmente.

Visitaba los blogs de data science y agregadores como DataTau para asegurarme de mantenerme actualizado, para poder proyectarlo cuando me entreviste.

Buena suerte con tu entrevista!

Acabamos de entrevistar a un grupo de candidatos en el trabajo, y lo que puedo decirte que NO debes hacer es tratar de aprender un montón de técnicas complicadas y llamativas y mostrarnos un proyecto personal con un montón de modelos que no entiendes completamente y un montón De buenas puntuaciones que no tienen ningún significado.

Solo asegúrate de que tus fundamentos sean sólidos y que sepas de qué estás hablando. No presente nada a menos que lo respalde.

Por ejemplo, si va a incursionar en la predicción del mercado de valores y decide utilizar un modelo de Markov, entiendo que es posible que no tenga los conocimientos financieros para saber cómo funcionará, pero si tiene 4500 puntos de datos y su modelo. tiene 4000 probabilidades de transferencia

Simplemente visite el enlace a continuación para utilizar recursos útiles para prepararse para entrevistas de ciencia de datos. También puedes ver estos videos y obtener un buen conocimiento que te ayudará en la entrevista.

https://www.youtube.com/watch?v=…

Tal vez sea raro pero nunca practiqué una entrevista. Si tienes los antecedentes necesarios, ¿por qué necesitarías práctica? ¿No estás ya practicando?

Dicho esto, la práctica que necesita es su fondo universitario al asumir una posición de ingreso / junior o su trabajo diario asumiendo una posición de medio a senior.

Se puede señalar que el conjunto de habilidades al que estás aplicando es un poco diferente al tuyo, pero probablemente sabrás dónde encontrar la información si tienes algo de experiencia.

Encontré esto, parece bastante comprensivo:

https://www.springboard.com/blog

Tengo una respuesta relacionada en ¿Cómo me preparo para una entrevista de datos científicos?