Cómo encontrar CDF, PMF y PDF empíricamente

Puedes pensar en un PDF como un histograma. Por ejemplo, digamos que hacemos un histograma de la altura de los estudiantes en su clase. Y digamos que usamos 4 bandejas, lo que significa que nuestro histograma clasifica a las personas que son 6′. La altura de cada una de estas barras es el número de personas que encajan en las categorias.

Ahora, digamos que aumentamos el tamaño de nuestra muestra de estudiantes y también aumentamos el número de contenedores (al disminuir el ancho de cada uno). Sigue aumentando esto hasta que nuestro histograma empiece a parecerse a una forma suave. Ahora, digamos que tenemos un tamaño de muestra igual a N, y dividimos la altura de cada contenedor por N. Ta Daa, tenemos un PDF empírico.

Da la casualidad de que, por razones muy profundas, la teoría nos dice que la altura de las personas en su clase debe seguir una distribución normal. Si realmente hicieras esto, podrías confirmar que es aproximadamente correcto. La elección de la distribución correcta para un modelo dado puede ser intuitiva o semi-teórica. Los sistemas de la vida real no siempre se pueden modelar con precisión, las desviaciones de los resultados teóricos pueden ocurrir a partir de pequeños cambios en los supuestos, y el propósito de la mayoría de los modelos se debe utilizar como referencia aproximada de todos modos.

Esto es fácil de hacer si uno tiene una variable aleatoria discreta. Si tiene una muestra aleatoria [math] \ {X_i \} _ {i = 1} ^ {N} [/ math], para calcular el pdf en un valor particular [math] x [/ math], tome el número de instancias en su muestra aleatoria para las cuales [math] X_i = x [/ math], y divida por el tamaño de su muestra, [math] N [/ math].

La cdf en el valor [math] x [/ math] es igual a la suma de las densidades de probabilidad para todos los valores menores o iguales a [math] x [/ math]. Por lo tanto, puede sumar los valores de pdf de [math] x_ {min} [/ math] a [math] x, [/ math] o puede resumir el número de instancias en su muestra que son [math] <= x [/ math], y dividir por [math] N. [/ math]

Para las variables aleatorias continuas, las cosas son más complicadas. Por un lado, debes comenzar con el cdf, que computas de la misma manera que el discreto y luego diferenciarlo para obtener el pdf. Sin embargo, hay una gran advertencia en cuanto a que el cdf discreto que se calculó anteriormente NO es continuo / uniforme y, por lo tanto, no es diferenciable. Para superar esto, uno puede interpolar el cdf discreto utilizando splines de algún tipo, esto le dará una función suave que puede ser diferenciada.