¿Qué es el grado de libertad?

Voy a compartir una respuesta que obtuve de una conversación con un amigo: él es un estudiante universitario con especialización en matemáticas aplicadas, con una concentración en estadísticas. Combinado con las respuestas aquí, creo que finalmente tengo un control decente sobre qué grados de libertad son y qué implican para la práctica de la investigación. La información clave que ofreció es unificar los grados de libertad en el lado “modelo / parámetro” y el lado “datos / observaciones” en una sola “escala”, que va desde menos a más “precisión”. Una imagen de un libro mayor ayuda. Más grados de libertad en el lado de los datos / observaciones (más datos / observaciones) dan más precisión y una mayor justificación para afirmar cosas particulares sobre los datos (por ejemplo, los datos son de una distribución gaussiana), y por lo tanto cuentan en la columna más de la libro mayor. Más “grados de libertad” en el lado del modelo / parámetro (por ejemplo, más parámetros), por otro lado, * disminuye * precisión, y cuenta en la columna menos del libro mayor. En otras palabras, como investigadores que intentan modelar fenómenos estadísticamente, queremos minimizar los “grados de libertad” en el lado del modelo / parámetro, y maximizar los grados de libertad en el lado de los datos / observaciones.

Para redondear la analogía / metáfora: como investigadores que modelan datos, queremos “comprar” declaraciones sobre los datos. Lo que usamos para “comprar” estas afirmaciones, desde un punto de vista estadístico, son los grados de libertad; solo hay muchos para gastar. El grupo comienza con la cantidad de datos / observaciones que tiene. Agregar variables / parámetros para explicar los datos significa que tiene menos grados de libertad para “comprar” reclamos con.

Para gente más estadísticamente sofisticada: ¿tiene sentido esto?

Cabe señalar que, además de la interpretación tradicional , mencionada en otras respuestas, existen otros términos estadísticos relacionados. Por ejemplo, los grados de libertad para el error , que es diferente de los grados de libertad de regresión . También entiendo que este término es, en general, diferente de los grados de libertad como un parámetro para las distribuciones de probabilidad. Además, podría ser útil observar la existencia de grados efectivos de libertad (tanto de regresión como de error / residual). Consulte el artículo de Wikipedia Grados de libertad (estadísticas) para obtener más detalles.

La idea principal no tiene nada que ver con las estadísticas. Se refiere al hecho de que puede tener una familia de vectores [matemáticos] n [/ matemáticos] -dimensionales que viven en dimensiones [matemáticas] k [/ matemáticas] para algunos [matemáticos] k [math] k [/ math] grados de libertad. Por ejemplo, [math] [x, 2x, 3x] [/ math] como [math] x [/ math] varía es un conjunto de vectores tridimensionales que viven en un subespacio 1-dimensional (el que abarca [1 , 2, 3]). En este caso, diríamos (porque cada vector está especificado por un solo número) que hay 1 grado de libertad.

Este concepto aparece en las estadísticas en varios lugares. A menudo sucede que tenemos algunos datos [math] [X_1, X_2, \ ldots, X_n] [/ math] y queremos “centrarlos”, es decir, restar la media [math] \ bar {X} [/ math] de cada elemento Esto da un vector como [math] [X_1 – \ bar {X}, X_2 – \ bar {X}, \ ldots, X_n – \ bar {X}] [/ math]. Los vectores de esta forma pueden parecer [math] n [/ math] -dimensional, pero solo hay [math] n-1 [/ math] grados de libertad porque los elementos suman 0 (entonces uno de los elementos es determinado por el resto de los demás). En un sentido similar, cuando hay variables [math] p [/ math] en un modelo de regresión lineal, los residuales tienen grados de libertad [math] np [/ math].

Cuando [math] X_1, X_2, \ ldots, X_n [/ math] son ​​variables aleatorias normales estándar independientes, entonces [math] \ sum X_i ^ 2 [/ math] tiene una distribución llamada “chi-square con [math] n [/ math] grados de libertad “. En este contexto, los “grados de libertad” son solo una forma de nombrar el único parámetro que gobierna la distribución, aludiendo al vector dimensional [math] n [/ math] que la subyace. Es importante y no es obvio que si centramos los datos normales estándar independientes como se indica arriba para obtener
[math] X_1 – \ bar {X}, X_2 – \ bar {X}, \ ldots, X_n – \ bar {X} [/ math],
luego [math] \ sum (X_i – \ bar {X}) ^ 2 [/ math] tiene una distribución de chi-cuadrado con [math] n-1 [/ math] grados de libertad. Otras distribuciones comunes relacionadas con el chi-cuadrado (como las distribuciones [math] t [/ math] y [math] F [/ math]) heredan esta convención de denominación.

Como regla general, cuando hay una distribución de chi-cuadrado involucrada en alguna parte, “el número de observaciones menos el número de parámetros estimado” es una muy buena suposición para los “grados de libertad” apropiados del chi-cuadrado involucrado, y esta cantidad también corresponde a la dimensión del vector aleatorio que subyace en el chi-cuadrado. Esta es una forma de generalizar los grados de libertad [math] np [/ math] para los residuos en regresión.

En general, no soy un fanático del término “grados de libertad”. Está sobrecargado, no siempre definido con rigor, y para mis oídos, un poco anacrónico. Suena profundo, pero no creo que sea demasiado importante para comprender las estadísticas. Si la terminología desapareciera, no me la perdería.

Para algunos autores, los grados de libertad “contables” son el número de observaciones menos el número de parámetros estimados. Para otros autores, es solo la cantidad de parámetros estimados. En lo siguiente, adoptaré la definición anterior.
De manera más general, es la diferencia entre la dimensión del espacio (lineal) en el que se encuentran los datos y la dimensión del espacio (lineal) que abarca su modelo. El término es menos significativo cuando se trata de modelos no lineales (KNN, selección de modelo, árboles, …). Dado que el “espacio modelo” no es lineal (incluso tiene una topología diferente a R ^ n, como en el caso de selección de modelo), es más difícil describir el espacio con un solo invariante. Se han sugerido varias generalizaciones, como la dimensión VC y los Grados de libertad generalizados.