Antes de considerar una matriz, vamos a tener una breve charla sobre lo que realmente es la correlación.
Hay dos tipos principales de correlación. El coeficiente de correlación producto-momento de Pearson es lo que las personas con mayor frecuencia significan cuando usan el término coeficiente de correlación. Estadísticamente esto se define como:
[math] \ rho_ {X, Y} = \ frac {\ sum_ {i = 1} ^ n \ left (x_i- \ bar {x} \ right) \ left (y_i- \ bar {y} \ right)} {\ sqrt {\ sum_ {i = 1} ^ n \ left (x_i- \ bar {y} \ right) ^ 2 \ sum_ {i = 1} ^ n \ left (y_i- \ bar {y} \ right) ^ 2}} [/ math]
Esta estadística de correlación particular es una medida de asociación lineal entre dos variables [math] X [/ math] y [math] Y [/ math].
- Soy un ingeniero. ¿Cuáles son algunos temas que debería saber sobre otros campos como comercio, economía, artes, humanidades, psicología, etc.?
- ¿Hay factores comunes detrás del ‘giro relacional’ que ha ocurrido en múltiples campos académicos?
- ¿Cuáles son los desafíos comunes que enfrentan los intérpretes del habla y el lenguaje de señas durante las sesiones de interpretación en vivo?
- ¿El aumento de la movilidad social ascendente requiere un cierto nivel de movilidad social descendente simultánea?
- ¿Cuáles son algunas buenas películas que pueden iniciar una discusión sobre conceptos sociológicos?
Sin embargo, en algunos casos no podemos pensar en una manera significativa de calcular la media [math] \ bar {x} [/ math] o no podríamos atribuir un significado coherente a la diferencia entre, digamos, [math] x_i [/ math] y [math] x_j [/ math] pero podríamos ser capaces de organizar los datos en algún sentido ordinal. En este caso, existe un análogo al coeficiente de correlación producto-momento de Pearson conocido como Coeficiente de correlación de rango de Spearman. Estadísticamente esto se define como:
[math] \ rho_ {X, Y} = 1- \ frac {6 \ sum_ {i = 1} ^ n \ left (x_i-y_i \ right) ^ 2} {n \ left (n ^ 2-1 \ right )}[/mates]
En este caso [math] x_i [/ math] y [math] y_i [/ math] no son los valores de las variables en sí, sino que son el rango ordinal de esas variables. La interpretación ya no puede hacerse en un sentido lineal, sino que puede pensarse como una asociación direccional.
Ahora hemos sacado esto de la manera en que podemos pensar acerca de lo que significa considerar una matriz de correlaciones. Digamos que tienes [math] k [/ math] diferentes variables aleatorias. Puede calcular la estadística de correlación apropiada descrita anteriormente entre dos de estos. Podemos organizarlos en una cuadrícula de modo que el valor de cualquier celda represente la correlación entre la variable asignada a la fila y la variable asignada a la columna. Es habitual que el orden de las variables en las filas sea el mismo que el de las columnas, de modo que los valores diagonales de esta cuadrícula representan la correlación de una variable dada consigo misma. Esto significa, por supuesto, que los valores diagonales son todos 1. La otra cosa que puede decir acerca de tal cuadrícula es que es simétrica respecto a los valores diagonales. Esto se debe a que la correlación entre las variables [math] X [/ math] y [math] Y [/ math] es la misma que la correlación entre [math] Y [/ math] y [math] X [/ math]. Como consecuencia, la cuadrícula es cuadrada. La organización de los valores de esta manera se denomina matriz de correlación. Le brinda una vista completa de las correlaciones de variables múltiples que existen en cualquier conjunto de datos que esté viendo.
En las ciencias sociales, esto puede ser útil para clasificar diferentes factores para determinar cuáles, si los hay, se asocian entre sí. Aunque hay dos advertencias que haría.
En primer lugar, si bien la correlación de Pearson mide la asociación lineal, no significa que las variables tengan una relación lineal significativa. El cuarteto de Anscombe ofrece algunos ejemplos excelentes de datos que tienen las mismas estadísticas de resumen, pero varían considerablemente cuando se consideran diagramas de dispersión.
En segundo lugar, solo porque dos variables están correlacionadas, no implica que una causó la otra. La causalidad es un juego de pelota completamente diferente.