¿Cuáles son algunos buenos recursos para aprender estadísticas sociales?

Nivel de introducción

Obtener un libro de preparación de estadísticas AP. Se dice que AP Statistics es uno de los AP más fáciles de autoevaluar.

Nivel de pregrado

No hace falta decir que el cálculo y el álgebra lineal son absolutamente necesarios. Más allá de eso…

http://www.amazon.com/Mathematic… (Estadísticas matemáticas de RIce)

http://www.amazon.com/Probabilit… (libro de Devore)

http://www.amazon.com/Probabilit… (Papoulis)

Para la probabilidad, hay Ross, Pitman (http://www.amazon.com/Probabilit…) y Chung. El libro de Ross está lleno de ejemplos complicados que son tan numerosos que interrumpen la lectura del texto. Pero parece ser el texto más utilizado.

Para el diseño y análisis de experimentos, está el libro de Montgomery (que es realmente largo). Los aprendí de las notas del curso en http://www.stat.washington.edu/h…

Además, para un libro que investiga activamente las suposiciones, visite http://www.amazon.com/Statistica…

En la reseña de Taleb …

El mejor libro de estadísticas que he visto

Pasé mi vida centrándome en los errores de las estadísticas y en cómo
A veces nos fallan en la vida real, debido a la mala interpretación de
Lo que las técnicas pueden hacer por ti. Este libro es sobresaliente en el
siguientes dos aspectos: 1) Es de una claridad inmensa, incrustando todo
en situaciones reales, 2) utiliza la situación de la vida real para criticar la
Modelo estadístico y te mostrará el límite de la estadística. Por ejemplo, el
muestra algunas anécdotas aquí y allá para ilustrar cómo la correlación
entre dos variables puede no significar nada causal, o asintótica
Las propiedades pueden no ser relevantes en la vida real.

Este es el primer libro de estadísticas que he visto que se preocupa por presentar las estadísticas como una herramienta para OBTENER LA VERDAD.

Por favor cómprelo

Nassim Nicholas Taleb

Nivel de posgrado

Parece que hay tres temas principales: estadísticas bayesianas, inferencia causal y modelado multinivel. Por favor corrígeme si hay más.

http://www.stat.columbia.edu/~ge… – este es el blog clásico que es bastante útil.

http://www.cscs.umich.edu/~crsha… – El sitio web de Cosma Shalizi – busque aquí libros y excelentes páginas web de cursos

También, vea los libros de Andrew Gelman (contiene ambos libros sobre inferencia bayesiana y modelado multinivel): http://www.stat.columbia.edu/~ge…

Se dice que este libro es más fácil que los demás: http://www.amazon.com/Mostly-Har…

También debes leer ¿Cómo me convierto en un científico de datos? – en particular, ¿Cuáles son algunos buenos recursos para aprender sobre el análisis estadístico?

Estadística Bayesiana

http://www.stat.washington.edu/h… – otro sitio web del curso de estadísticas bayesianas

http://www.amazon.com/Data-Analy… – análisis de datos, un tutorial bayesiano (no sé mucho sobre eso, pero uno de mis expertos en astro lo recomendó)

Inferencia causal

Parece que hay dos marcos teóricos en competencia para la inferencia causal: el marco de Judea Pearl (http://www.amazon.com/Causality-…) y el marco de Rubin (http://en.wikipedia.org/wiki/Rub…). Gelman dice que el marco de Pearl es más difícil de entender. Más información en http://www.stat.columbia.edu/~co…, http://www.stat.columbia.edu/~co…, http://www.stat.columbia.edu/~co… , http://www.stat.columbia.edu/~co…

http://www.stat.columbia.edu/~co… – capítulos de Andrew Gelman (desde una perspectiva de regresión)

Contrafactuales e inferencia causal: http://www.amazon.com/Counterfac…

Ejemplo de página web del curso (proxy-bloqueado aunque): https://www.stat.washington.edu/…

Modelado multinivel

http://www.amazon.com/Analysis-R…

Principio de análisis de componentes / análisis factorial

También es importante, pero no aprendí exactamente eso de un libro fácil de usar, por lo que alguien más debería hacer sugerencias.

Teoría de juegos (la teoría de juegos se usa a menudo en la economía teórica, pero algunos investigadores, como Ariel Rubinstein y Stephen Hsu, han cuestionado su poder predictivo empírico)

¿Qué libros son una buena introducción a la teoría de juegos?

Vea la advertencia aquí: http://infoproc.blogspot.com/201…

Filosofía
http://www.stat.columbia.edu/~ge…

Cómo pensar en variables instrumentales si estás confundido
http://www.stat.columbia.edu/~co…

Para la motivacion
¿Cuáles son los mejores blogs de información acerca de los datos, incluida la forma en que las empresas los utilizan?
http://www.wjh.harvard.edu/~cwin…
http://www.biostat.jhsph.edu/~cf…

Los debates

http://lesswrong.com/r/discussio…
http://lesswrong.com/lw/2eu/open… => tema controvertido, pero es más difícil encontrar algo que se analice tan intensamente como este, por lo que también es una de las mejores fuentes para aprender (con ejemplos concretos)

===

Para organizar mas tarde

Algunos artículos de Wiki
http://en.wikipedia.org/wiki/Hyp…
http://en.wikipedia.org/wiki/Str…
http://en.wikipedia.org/wiki/Mul…
http://en.wikipedia.org/wiki/Lat…
http://en.wikipedia.org/wiki/Rob…
http://en.wikipedia.org/wiki/Log…
http://en.wikipedia.org/wiki/Mul…
http://en.wikipedia.org/wiki/Rob…

Pareo
http://en.wikipedia.org/wiki/Mah…

La distancia y el apalancamiento de Mahalanobis se utilizan a menudo para detectar valores atípicos, especialmente en el desarrollo de modelos de regresión lineal. Se dice que un punto que tiene una mayor distancia de Mahalanobis del resto de la población de la muestra de puntos tiene un apalancamiento mayor, ya que tiene una mayor influencia en la pendiente o los coeficientes de la ecuación de regresión. La distancia de Mahalanobis también se utiliza para determinar valores atípicos multivariados. Las técnicas de regresión se pueden usar para determinar si un caso específico dentro de una población de muestra es un valor atípico mediante la combinación de dos o más puntuaciones variables. Un punto puede ser un valor extremo multivariado incluso si no es un valor univariado en cualquier variable.

http://www.wjh.harvard.edu/~cwin…

El emparejamiento utilizando puntajes de propensión estimados tiene la ventaja de comparar dos grupos similares y tiene un sentido intuitivo: el efecto de asistir a una escuela de élite se calcula al comparar a un estudiante que tuvo la propensión a asistir a una escuela de élite, y asistió, con un estudiante o estudiantes eso tenía la misma (o muy similar) propensión a asistir a una escuela de élite, pero no asistió. La coincidencia del puntaje de propensión resuelve muchos de los problemas que hemos discutido con la estimación de los efectos del tratamiento. Primero, el uso de puntajes de propensión para unir unidades resuelve el problema de la dimensionalidad. Segundo, los métodos de emparejamiento no hacen suposiciones de forma funcional. Las unidades de control emparejadas sirven como contrafactuales específicos de observación para cada unidad tratada que nos permiten evitar el potencial

El método tradicional para tratar el sesgo de selección en los estudios de calidad universitaria ha sido el ajuste de covariables. Como hemos demostrado, el supuesto de linealidad de la regresión OLS es probablemente demasiado restrictivo para estudiar los efectos universitarios de élite. El emparejamiento, sin embargo, no hace suposiciones de formas funcionales y es un método útil para descubrir lúcidamente la región de soporte común

Un método por el cual condicionar en Xi sería estratificar los datos en intervalos, cada uno definido por un valor particular de X. Sin embargo, a medida que aumenta el número de variables, el número de intervalos aumenta exponencialmente creando un problema de dimensionalidad (Dehejia y Wahba 2002; Rosenbaum Y Rubin 1983). Rosenbaum y Rubin (1983) recomiendan el uso de una puntuación de propensión para reducir la dimensionalidad del problema, lo que nos permite condicionar una variable escalar. Una puntuación de propensión se define como la probabilidad de asignación al grupo de tratamiento dado un conjunto de covariables observadas: p (X) = P (w = 1 | X).

Estimamos los puntajes de propensión mediante la ejecución de regresiones probit en un conjunto de covariables observadas, todas conocidas o con hipótesis relacionadas con la asistencia a la universidad de élite. Primero estimamos una ecuación con 13 variables independientes: rango en la clase de secundaria, capacidad mental, programa de preparación para la universidad, ingreso de los padres (registro iniciado), estado ocupacional del padre (jefe), educación de la madre, religión (variables ficticias católicas y judías), alto matemática escolar, escuela secundaria pública / privada, estado familiar intacto, número de hermanos y residencia rural / urbana. Luego estimamos una regresión en un subconjunto de la larga lista de covariables que incluye 7 variables: rango de clase, capacidad mental, trayectoria universitaria, ingreso de los padres, estado ocupacional del padre, educación de la madre y un dummy para católicos. Para estimar los puntajes de propensión, dividimos la muestra en k intervalos igualmente espaciados del puntaje de propensión, y dentro de cada prueba de intervalo, el puntaje promedio de propensión de las unidades de control y de control no difieren. Si la prueba en un intervalo falla, el intervalo se divide en mitades y se prueba nuevamente. Este proceso continúa hasta que, en todos los intervalos, el puntaje promedio de propensión de las unidades tratadas y de control no difiere.7 Esta serie de pasos también se puede restringir a la región de soporte común para mejorar la calidad de las coincidencias utilizadas para estimar el tratamiento efectos

Misc (categorizaré más tarde)
http://www.stat.columbia.edu/~co…
http://www.stat.columbia.edu/~co…
http://www.stat.columbia.edu/~co…
http://www.stat.columbia.edu/~co…