¿En qué se diferencia p-hacking al proceso normal de investigación científica?

En la escuela secundaria, aprendemos que el “método científico” es así:

1. Proponer una hipótesis.
2. Cree un grupo de control y un grupo de tratamiento, y cree un experimento para probar la hipótesis.
3. Ejecuta el experimento y recoge los datos.
4. Verificar si los datos son consistentes con la hipótesis.

Este es un protocolo bueno y sano. La clave a tener en cuenta es que la hipótesis se hace antes del experimento y no se modifica después del experimento.

Ahora suponga que configura un experimento sin hacer una hipótesis específica de antemano. Por ejemplo, supongamos que tienes un grupo de control y un grupo de tratamiento de humanos adultos: dejas el grupo de control solo y alimentas mucho chocolate al grupo de tratamiento durante 2 semanas. Una vez finalizado el experimento, se mide la presión arterial, el colesterol, el IMC, la altura, el peso, la longitud de la uña, la longitud del cabello y un montón de otras variables de ambos grupos. Cuantas más variables verifique, mayor será la probabilidad de que al menos una de estas variables difiera entre los grupos de control y tratamiento con un valor de p bajo (o “significación estadística”). Supongamos que encontramos que el grupo de tratamiento terminó con un mayor recuento de glóbulos blancos. Ahora es imposible saber si este efecto fue realmente debido al chocolate, o si el grupo de tratamiento por casualidad tuvo un mayor recuento de glóbulos blancos.

En realidad, para un ejemplo realmente extremo y quizás más ilustrativo, supongamos que los miembros de los grupos de control y tratamiento lanzaron una moneda después de que el experimento hubo terminado. Supongamos que sucedió que el tratamiento tuvo más cabezas en sus lanzamientos de monedas que el grupo de control. ¿Dirías que el chocolate hizo que esto sucediera? ¡Imagina los titulares!

Esta es la razón por la que la “pesca” es un problema: es mucho más probable que los resultados obtenidos a través de la pesca sean falsos positivos.

Sin embargo, Gelman y Loken también entienden que seguir el “método científico de la escuela secundaria” sería estrictamente poco práctico: no es necesario que tenga que volver a ejecutar el experimento cada vez que quiera probar una hipótesis ligeramente diferente. (Esto es especialmente un problema en las ciencias sociales, donde los experimentos son más caros y difíciles de realizar). Por lo tanto, proponen la replicación previa a la publicación: los resultados que obtiene de la primera ejecución de su experimento no deberían realmente “contar” debido al riesgo de los falsos positivos. Pero después de la primera ejecución, puede construir una hipótesis específica y volver a ejecutar el experimento, y esta vez solo probar esa hipótesis. Sólo esta segunda ejecución es la que realmente “cuenta”.

No está probando teorías. Solo toma un montón de datos y busca correlaciones. Si su conjunto de datos es lo suficientemente grande, terminará encontrando correlaciones solo a través de una variación aleatoria. No significa que haya nada allí, así que no es suficiente para publicar.

Si crees que las correlaciones son significativas, entonces piensas en las implicaciones, desarrollas una hipótesis y luego la pruebas específicamente. Ahora puedes publicar!