¿Qué es un porcentaje de error aceptable durante la investigación científica?

Históricamente, la cantidad aceptable de error ha sido del 5%. Sin embargo, ese estándar ha recibido mucho fuego recientemente, de hecho, una revista de Psicología ha prohibido por completo los valores de p.

La mayoría de las revistas no han llegado tan lejos, pero se reconoce cada vez más que los tamaños de los efectos son generalmente más válidos que la simple significación estadística.

Para dar un ejemplo, ayer mismo estaba jugando con algunos datos y encontré un efecto estadísticamente significativo de la edad y el género en una variable que estaba observando. Si acabo de informar los valores de p, podrías pensar que eran igual de importantes, pero en realidad el efecto del género fue cien veces más poderoso que la edad. En realidad, el efecto de la edad, aunque era técnicamente significativo, era tan pequeño que era difícil de medir (piense como una diferencia del 2% durante toda la vida de una persona).

El otro problema principal es que hay una cantidad de errores en cualquier estudio, y si encuentra algo que es apenas significativo, es muy probable que otro estudio no encuentre ningún efecto. Esa es una parte normal del proceso científico, pero si sucede con demasiada frecuencia, es probable que el público deje de tomar su investigación demasiado en serio, lo que puede causar grandes problemas para su disciplina en el futuro.

Entonces, sí, técnicamente, el valor que está pidiendo es del 5%. Pero también debe saber que ese valor se encuentra actualmente bajo un gran escrutinio.

Respondiendo a la pregunta: ¿Cuál es un porcentaje de error aceptable durante la investigación científica?

Es posible que le resulte más útil hacer primero otras dos preguntas: (1) ¿Cuál es el rango de tamaños de efectos que se han reportado en la literatura para la medida que planea usar en la investigación? (Alternativamente, si está desarrollando una nueva medida, ¿cuál es el rango de tamaños de efecto que lo llevaría a pensar que la nueva medida es una mejora con respecto a las medidas anteriores del mismo tipo de efecto?) (2) ¿Cómo planea evaluar? error de medición en los datos?

Aquí hay un ejemplo concreto. Se ha observado en muchos estudios que, en promedio, los hombres de habla inglesa tienen una duración de las vocales más cortas que las mujeres de habla inglesa, un efecto que normalmente se interpreta como “los hombres británicos (o norteamericanos) hablan rápido” (aunque consulte este documento y otros documentos de Adrian Simpson). Si quisiera ver si se observa el mismo efecto en otros idiomas (o en otras culturas de habla inglesa), tendría que buscar o hacer una base de datos de grabaciones del habla producidas por suficientes hombres y mujeres que pueda generalizar a partir de las diferencias. entre los dos grupos grupos de ponentes.

A continuación, decide cómo medir las duraciones de las vocales en estas grabaciones. Podría, por ejemplo, contratar a un par de asistentes de investigación de pregrado y entrenarlos para que marquen los bordes de las vocales en un editor de formas de onda, utilizando criterios para los bordes de las vocales que han sido estándar en el campo desde los estudios pioneros de Peterson y Lehiste en los años cincuenta. Es posible que ambos asistentes marquen los bordes de las vocales en algún subconjunto de las grabaciones (por ejemplo, 10%) y luego comparen los dos conjuntos de duraciones que resultan. Si las diferencias entre las duraciones medidas de los dos asistentes son mayores que las diferencias entre las vocales de los hombres y las vocales de las mujeres que se informan, el error obviamente es demasiado grande para que las mediciones sean útiles para abordar la pregunta.

Hay un montón de esfuerzos científicos donde un porcentaje de error de 1.000% sería bienvenido. En mi experiencia de vida, hubo muchas situaciones en las que incluso la comprensión del orden de magnitud de un parámetro hubiera sido motivo de celebración. Los mundos de la geología y la astronomía están llenos de parámetros mal determinados.

Fuera de la parte superior de mi cabeza de hacer laboratorios en el día. Fue del 5%.

Pero habría que tener en cuenta las tolerancias del equipo utilizado y la temperatura ambiente y el ruido electromagnético de fondo o el ruido acústico.

Yo diría que el 5%, pero hay otras personas aquí en Quora que están mucho más informadas que yo y probablemente iríamos con ellas.