En el muestreo de datos, ¿cuándo se sabe que los datos derivados de un subconjunto reflejarán con precisión el todo?

La pregunta es un poco confusa: no estoy seguro de si está intentando decidir el tamaño de la muestra que se va a recolectar o si una muestra dada es “lo suficientemente grande”. Asumiré lo primero. Esto depende de algunas cosas:

  • ¿Qué aspecto del conjunto quieres reflejar? ¿El significado? ¿El percentil 99? ¿La fracción de personas menores de 35 años? No hay un tamaño de muestra que funcione independientemente de lo que quieras medir. [1]
  • ¿Cuánto error estás dispuesto a tolerar? (“con desviación mínima” no es lo suficientemente específico)
  • ¿Qué tan seguro quiere estar con su tolerancia de error deseada? (Esto está estrechamente relacionado con la pregunta anterior).

En muchas situaciones (teniendo en cuenta las advertencias del usuario de Quora), la teoría estadística estándar le permitirá establecer un intervalo de confianza (consulte ¿Qué es un intervalo de confianza en términos simples) para el valor real de alguna medición. El intervalo de confianza cubrirá el valor verdadero con alguna probabilidad deseada, por ejemplo, 95% (puede elegir el porcentaje). En muchos casos, incluso antes de recopilar datos, puede estimar (o obtener un límite) del tamaño de muestra requerido para obtener un intervalo de confianza del p % de un ancho deseado. Esta es una forma razonable de elegir un tamaño de muestra (hay otros).

Si tiene datos y solo quiere saber si está (probablemente) lo suficientemente cerca de la verdad, calcule un intervalo de confianza del 95% y vea si es lo suficientemente pequeño para adaptarse a sus gustos.

[1] Podría decirse que esta afirmación no es correcta, ya que elegir una muestra lo suficientemente grande como para que la distribución empírica sea probablemente uniformemente cercana a la verdadera distribución (a través de la desigualdad DKW, según la respuesta de Mark Ettinger) puede ser lo suficientemente grande para cualquier propósito práctico. Pero el escenario mucho más común es que tiene algunas características específicas de la población subyacente que le interesa.

Depende de la distribución empírica subyacente.

Si es probable que los fenómenos que está midiendo se distribuyan normalmente ((los sistemas naturales / físicos generalmente son bastante seguros), entonces el teorema del límite central y el error estándar se ocuparán de muchas de sus inquietudes.

Sin embargo, esta es una suposición enorme para hacer. Debes tener mucho cuidado .

Si bien muchas cosas se distribuyen normalmente, muchos dominios parecen estar, pero no lo están.

Ejemplo fácil de ilustrar (tomé prestado de Nassim Taleb):

Toma un grupo de personas. Digamos mil personas en una sala. No hay una sola persona, que aún pueda ser llamada humana, que tendría 20 pies de altura o pesaría 3000 libras . El humano más grande que se pueda concebir, que aún se califica como humano, no afectaría, en su límite, realmente a la distribución si ingresara a su sala de muestreo … son solo una fracción trivial del total y no impactarán significativamente la media. Así que la normalidad funciona bien aquí. Probablemente te acercarías bastante a la distribución de la población de una muestra de unos pocos cientos.

Sin embargo, tome el mismo grupo de personas y mida sus ingresos . Usted recibirá una propagación más amplia para estar seguro. Digamos que usted obtiene un ingreso promedio de 50,000 dólares, pero todavía parece cumplir con lo normal.

Ahora Bill Gates entra en la habitación.

De repente, en promedio, todos en su muestra son multimillonarios . Sin embargo, en realidad, solo uno de ellos es en realidad. El único valor atípico escalable sesgó toda la distribución y lo llevaría a pensar que se había topado con un grupo altamente significativo de multimillonarios. ¿Crees que este tipo de cosas es poco común? Los precios de las acciones exhiben este comportamiento todo el tiempo. Lo mismo ocurre con el éxito de las películas, aplicaciones de Internet, guerras, canciones de rap, modas, etc., etc.

En casos como este, no importaría cuántas observaciones tenga , nunca podrá inferir los verdaderos parámetros de población y los momentos más altos con un nivel de confianza determinado.

Hacer inferencias * serias * sobre medios verdaderos es muy difícil bajo condiciones no gaussianas. Pise con mucho cuidado (o evite de todo corazón) si tomará decisiones con pagos no lineales cuando haga inferencias de lo normal, en dominios que en realidad son * cualquier cosa menos * normales.