¿Qué es una matriz de correlación?

Antes de considerar una matriz, vamos a tener una breve charla sobre lo que realmente es la correlación.

Hay dos tipos principales de correlación. El coeficiente de correlación producto-momento de Pearson es lo que las personas con mayor frecuencia significan cuando usan el término coeficiente de correlación. Estadísticamente esto se define como:

[math] \ rho_ {X, Y} = \ frac {\ sum_ {i = 1} ^ n \ left (x_i- \ bar {x} \ right) \ left (y_i- \ bar {y} \ right)} {\ sqrt {\ sum_ {i = 1} ^ n \ left (x_i- \ bar {y} \ right) ^ 2 \ sum_ {i = 1} ^ n \ left (y_i- \ bar {y} \ right) ^ 2}} [/ math]

Esta estadística de correlación particular es una medida de asociación lineal entre dos variables [math] X [/ math] y [math] Y [/ math].

Sin embargo, en algunos casos no podemos pensar en una manera significativa de calcular la media [math] \ bar {x} [/ math] o no podríamos atribuir un significado coherente a la diferencia entre, digamos, [math] x_i [/ math] y [math] x_j [/ math] pero podríamos ser capaces de organizar los datos en algún sentido ordinal. En este caso, existe un análogo al coeficiente de correlación producto-momento de Pearson conocido como Coeficiente de correlación de rango de Spearman. Estadísticamente esto se define como:

[math] \ rho_ {X, Y} = 1- \ frac {6 \ sum_ {i = 1} ^ n \ left (x_i-y_i \ right) ^ 2} {n \ left (n ^ 2-1 \ right )}[/mates]

En este caso [math] x_i [/ ​​math] y [math] y_i [/ ​​math] no son los valores de las variables en sí, sino que son el rango ordinal de esas variables. La interpretación ya no puede hacerse en un sentido lineal, sino que puede pensarse como una asociación direccional.

Ahora hemos sacado esto de la manera en que podemos pensar acerca de lo que significa considerar una matriz de correlaciones. Digamos que tienes [math] k [/ math] diferentes variables aleatorias. Puede calcular la estadística de correlación apropiada descrita anteriormente entre dos de estos. Podemos organizarlos en una cuadrícula de modo que el valor de cualquier celda represente la correlación entre la variable asignada a la fila y la variable asignada a la columna. Es habitual que el orden de las variables en las filas sea el mismo que el de las columnas, de modo que los valores diagonales de esta cuadrícula representan la correlación de una variable dada consigo misma. Esto significa, por supuesto, que los valores diagonales son todos 1. La otra cosa que puede decir acerca de tal cuadrícula es que es simétrica respecto a los valores diagonales. Esto se debe a que la correlación entre las variables [math] X [/ math] y [math] Y [/ math] es la misma que la correlación entre [math] Y [/ math] y [math] X [/ math]. Como consecuencia, la cuadrícula es cuadrada. La organización de los valores de esta manera se denomina matriz de correlación. Le brinda una vista completa de las correlaciones de variables múltiples que existen en cualquier conjunto de datos que esté viendo.

En las ciencias sociales, esto puede ser útil para clasificar diferentes factores para determinar cuáles, si los hay, se asocian entre sí. Aunque hay dos advertencias que haría.

En primer lugar, si bien la correlación de Pearson mide la asociación lineal, no significa que las variables tengan una relación lineal significativa. El cuarteto de Anscombe ofrece algunos ejemplos excelentes de datos que tienen las mismas estadísticas de resumen, pero varían considerablemente cuando se consideran diagramas de dispersión.

En segundo lugar, solo porque dos variables están correlacionadas, no implica que una causó la otra. La causalidad es un juego de pelota completamente diferente.

Una matriz de correlación es una matriz de correlaciones.

¿Qué más decir?

Bueno, en ciencias sociales, a menudo medimos a las personas (o lo que sea que estemos estudiando) en una variedad de rasgos. A menudo queremos ver cómo se relacionan estos rasgos. Si los rasgos se miden cuantitativamente, una forma de resumir el alcance de la relación lineal entre cualquier par es una correlación. Si tomamos correlaciones de varias o más medidas, entonces podemos organizarlas en una matriz.

Estas matrices se utilizan con métodos más avanzados, como el análisis factorial.