Cómo aprender análisis de datos e informes

Me alegra que hayas hecho esta pregunta. En cierto modo, veo un porcentaje significativo de personas que luchan con preguntas similares tuyas. Ya hay respuestas bien puestas en su lugar. Sin embargo, me gustaría darle una percepción diferente. Como gerente de big data, pude entender al ángel de tu jefe y su declaración.

A diferencia de los viejos tiempos, esperamos que los estadísticos sepan cómo lidiar con los datos para obtener su máximo potencial en varios aspectos y niveles.

Como se mencionó, es un arte de hacer preguntas sobre los números. Pero los gerentes esperan que los estadísticos hagan las preguntas correctas y extraigan las respuestas para las preguntas formuladas. Así que tus preguntas se detienen.

El análisis de datos es un tema muy interesante: es una mezcla de arte y ciencia. La siguiente es mi humilde sugerencia.

  1. Obtener uno de los datos abiertos de la lista dada de la nota al pie. Elija un conjunto de datos y su tamaño con el que se sienta cómodo.
  2. Explora los datos para tener una idea de la fecha. Es posible que deba leer los fundamentos de la base de datos según sea necesario. Para empezar, puede usar Excel, pero tenga en cuenta que usar Excel no es su destino al que desea llegar.
  3. Jad sus preguntas tan simple como interesante. Trate de encontrar una respuesta a esas preguntas usando su excel u otras herramientas disponibles. La lucha es parte del aprendizaje. Así que lucha. Ahora siéntate de nuevo la lista de sus obstáculos. Puede haber varias capas de los obstáculos, no en un orden particular:
    1. Es posible que tenga que leer cómo perfilar los datos. La organización de datos actual: piense cómo reorganizar los datos para responder a sus preguntas.
    2. Desde los datos abiertos, puede esperar cierto grado de calidad de los datos. Si no, encuentra una manera de limpiar los datos.
    3. Identifique las columnas de idendidad, atributos de datos medibles y dimensión. Leer conceptos fundamentales de alojamiento de dataware.
    4. Elimine los datos que no sean necesarios o que se ajusten a su contexto de respuesta a la pregunta. La eliminación de los valores atípicos también puede ser necesario.
    5. Intenta responder a tus preguntas. Repita los pasos según sea necesario.
  4. Ahora obtiene una manera razonable de entender la información del análisis de datos en su propio ritmo de aprendizaje
  5. Elija uno de los cursos de ciencia de datos en coursera, udacity o similar.
  6. Aprende R o python para codificar lo que es realmente útil. Es divertido aprenderlos.
  7. Práctica. Práctica. Práctica

Para mis actividades de dataciencia, prefiero contratar estadísticos que no sean de codificación tímida.

Hable con su jefe sobre el progreso que está haciendo. La integridad y la transparencia siempre valen la pena.

Todo lo mejor.

Envíame un mensaje si quieres obtener algunos enlaces sobre temas específicos.

[1] http://Data.gov

[2] Odata

[3] Datos abiertos de NY.

Notas al pie

[1] Data.gov

[2] la mejor manera de descansar

[3] Estado de Nueva York | Información abierta

Bueno, estoy respondiendo esta pregunta porque una vez estuve en tus botas; No completamente, pero obtendrá cómo.

A diferencia de ti, yo no era muy bueno en las estadísticas, y tampoco estudiaba muy bien las estadísticas. Yo era un estudiante de ciencias de la computación y estaba obsesionado con el análisis de datos, Big data, el almacén de datos en torno a 2009-10 cuando Big Data estaba siendo acuñado. Estaba tan obsesionada que comenzaría a aprender lo primero que escucharía sobre el análisis de datos. Intentaría darte un mapa de carreteras.

Si usted es bueno en estadísticas, comience de inmediato con la minería de datos. Para ingresar a la minería de datos, debe familiarizarse con C4.5, k-means, máquinas de vectores de soporte, Apriori, Naive Bayes, algoritmos CART . Si conoces las estadísticas es un pedazo de pastel para ti. Después de eso comienza a aprender cómo se pueden implementar. Ahora se está usando ampliamente el lenguaje R días para implementarlos, así que empieza a aprenderlo. Aquí hay un enlace de algunos cursos de los cuales aprendí mucho y tú también podrías. Minería de datos | Coursera

Ese enlace puede contener algunas cosas pagadas pero entiendes el punto. Solo escriba Data Mining, Pattern Discovery, R en línea y obtendrá toneladas de sitios como coursera, udemy, udacity , etc., que han diseñado cursos para expertos que no lo son, y la mayoría de ellos son gratuitos .

La presentación de informes es lo menos que debe preocuparse. Hay tantas herramientas (abiertas y comerciales) que se pueden aprender en 1 día. (en serio, ¿qué tan difícil puede ser una cosa si lograste aprender estadísticas)

Hay muchas herramientas que podrían hacer el trabajo por usted si no desea ensuciarse las manos en R o Python como RapidMiner.

Tome mi sugerencia y seleccione 1 del siguiente enlace y comience no hoy, comience AHORA!

PS son libres

Descubrimiento de patrones en minería de datos – Universidad de Illinois en Urbana-Champaign | Coursera

Aprendizaje Automático | Udacity (mi favorito)

Curso Online de Introducción a la Ciencia de Datos | Udacity

Análisis exploratorio de datos utilizando R | Udacity

Aprendiendo de mi propia experiencia, su frustración será mucho menor que ahora en una semana si dedica su tiempo a los enlaces mencionados y también sabría cómo visualizarlos (informes).

¡Buena suerte!

Aquí hay una pequeña lección de vida. Al principio de mi carrera fui contratado como estadístico para ATT. Mi educación fue en econometría, sin cursos de estadística. Lea un libro de resumen de estadísticas en el autobús para la entrevista de trabajo. Conseguí el trabajo. Más tarde obtuvo una maestría en matemáticas aplicadas en la teoría de nudos.

Para resumir la historia, se convirtió en un consultor para muchas empresas, CTO a seis, fundador de 3, IPO con 2, creó algoritmos de compresión de datos fractales sin pérdida y muchos métodos de cifrado. Ahora trabaje en el mundo del análisis de datos grandes y la seguridad en la Internet emergente de P2P – IOT.

Así que mi consejo para usted es: trate a su jefe con amabilidad porque parece que no tiene ni idea de lo que es y hace un estadístico.

Una palabra de asesoramiento técnico. Entrar en el análisis de datos de salud. Ahí es donde están contratando todas las grandes firmas. Estudia el aprendizaje bayesiano, el reconocimiento de patrones y la visualización de datos. Con la aproximación de los volúmenes de datos en los niveles de Yottabyte, un tsunami de información inundará nuestro mundo. Necesitamos científicos que sean audaces y estén dispuestos a hacer de la IA el nuevo paradigma para comprender lo que nuestro mundo conectado es capaz de aspirar.

Conozca su tema. Cada vez que tenemos problemas con un empleado que tiene antecedentes puros de estadística y no podemos traducir eso para su cliente, es porque no conocen el tema lo suficientemente bien como para ser cualitativos. No saben qué preguntas hacer, no conocen las suposiciones de las “mejores prácticas” que suelen utilizar las personas en el área y no saben qué les importa a sus clientes. Por lo general, tienen antecedentes de muchos modelos diferentes y pruebas estadísticas, y pueden insertar datos en ellos y ejecutarlos, pero no saben cuándo usarlos y cómo podrían aplicarse a un problema en particular. Entonces, como cliente, terminas con muchas páginas de números y estrellas sin significado o contexto.

También es peligroso ir por el otro lado, y para un estadístico pensar que son expertos en el tema. Siempre escuche los consejos de las personas “en el suelo”, personas con experiencia práctica de primera mano, simplemente tómela con un grano de sal. Sepa cuáles son los límites de su comprensión y respételos. Sepa cómo interpretar la evidencia anecdótica de las cuentas de primera mano y haga esas preguntas de análisis de datos. Ser un estadístico es un negocio extraño, porque se te pide que brindes información sobre un tema en el que no eres un experto, a personas con mucha más experiencia en esto que tú. Lo que te hace diferente es que entiendes estadísticas, datos y números, pero puede que no.

Un truco fácil es probar un supuesto sostenido por los practicantes poniéndolo a los datos. Es mucho más fácil refutar algo que probar algo. Así, por ejemplo, los médicos suponen que un tipo particular de detección de cáncer de alta tecnología es mejor que la prueba de detección anterior. Puede probar esto comparando los resultados del nuevo procedimiento de selección frente al anterior, y aplicando los controles apropiados para que la comparación sea lo más justa posible. Si le indican evidencia de un ensayo aleatorio, debe saber descomponer sus datos de observación en categorías y compararlos con la cohorte aleatoria y ver si la composición es similar y si algunos grupos parecen responder de manera diferente a otros. Básicamente, encontrar algo que la gente asume es cierto, y pensar en una forma de romperlo, y hacerlo de tal manera que incluso un partidario del dado difícil se viera obligado a tomarte en serio.

El análisis de datos es el arte de hacer preguntas de números. ¿Cuáles son las tendencias? ¿Por qué existen? ¿Y qué debemos hacer para mejorarlos?

Revise los datos e identifique los días, las ubicaciones o las situaciones en que los números se ven mejor. Cada vez que Joe hace X, los números aumentan, mientras que cada vez que hace Y, disminuyen. Deberíamos hacer que Joe haga más de X y menos de Y.

Ser estadístico significa que sabes el lenguaje de los números. Sabes cómo transformarlos y hablarles. Usa tus habilidades lingüísticas y pregunta por qué los números podrían ser mejores en una situación que en otra. La mayoría de las preguntas que hagas volverán con una falta de respuesta. De vez en cuando encontrará algo significativo: llévelo a su jefe de inmediato.

Además de lo que escribieron los otros carteles, también debe aprender a presentar bien sus datos.

Eche un vistazo al libro de Stephen Few, Muéstrame los números y lee sus artículos en http://www.perceptualedge.com .