¿Cómo podemos confiar en la ciencia, cuando se anima a los investigadores a jugar con los datos para obtener un valor de p <0,05?

Has identificado los primeros pasos hacia la alfabetización científica. A saber:

  • No acepta ningún valor p en particular como un umbral definitivo de una vez por todas.
  • Usted pregunta cómo se generaron, analizaron y presentaron los datos para que sean transparentes y abiertos.
  • No tratas un solo experimento de un solo laboratorio como definitivo.

Confías en la ciencia porque la ciencia es un proceso a largo plazo, no documentos individuales. Como le gusta al autor David Brin decir: “La crítica es el único antídoto conocido para el error”.

Donde se ven avances reales en la ciencia es donde hay muchos intentos de replicación por parte de muchas personas que trabajan en muchos laboratorios y se critican activamente entre sí. La replicación no es fácil y no se da suficiente apoyo de muchas maneras. Pero esa es la prueba de fuego. Cualquier cosa que no pueda ser replicada no dura mucho.

Los pasos incrementales, de detención, de ida y vuelta metodológicos a lo largo del camino de la exploración científica fueron necesarios para un avance duradero. Tales procesos continúan siendo necesarios en muchos, muchos otros aspectos de la ciencia. – del blog Drugmonkey: el hallazgo más replicado en la ciencia del abuso de drogas

Adicional : Bumping de respuesta a un comentario:

p <0.05 no es estándar en todas las ciencias. En algunas ramas de la física, necesita "cinco sigma", o cinco desviaciones estándar de la media, que es un valor p de 3 x 10-7.

También recomiendo la publicación a continuación, porque muestra cómo el proceso debería funcionar de la mejor manera. Los buenos revisores y un editor cuidadoso, y los autores dispuestos a criticar y ser transparentes, llevan a un hallazgo más sólido. Se cierra con esto:

La ciencia es dura. Aunque a veces puede revelar la verdadera belleza, solo puede hacerlo cuando permitimos que sea fea también. – Michael Inzlicht, “A Tale of Two Papers”, 25 de noviembre de 2015, http: //sometimesimwrong.typepad….

A diferencia de algunos de los otros encuestados, creo que ha planteado una preocupación válida (aunque prefiero no decir ‘ya sabes lo que quiero decir’).

Como especialista en estadísticas, he trabajado con muchos estudiantes graduados en proyectos de tesis, consulté con muchos colegas, revisé muchos artículos de revistas antes de la publicación y, por supuesto, recopilé y analicé mis propios datos. La tentación de participar en “p-hacking” es real. Muchos investigadores hacen cosas que, si bien no son intencionalmente deshonestas, dan como resultado presentaciones de datos que no son completamente creíbles.

Por ejemplo, en algunos laboratorios, se ejecutan múltiples proyectos de investigación (digamos 10). Uno produce resultados “estadísticamente significativos” (quizás después de haber bajado algunos puntajes extraños). Este es el que se publica. Los otros 9 estudios terminan en archivadores.

Creo que muchas personas entienden mal lo que significa p <.05 (un criterio común para la significación estadística). Un valor p es un riesgo teórico de error de Tipo I (por ejemplo, argumentando que sus datos muestran evidencia de que el tratamiento es efectivo cuando realmente lo es) No, y pensando que su riesgo de error es inferior al 5% y que el 5% de riesgo de error es suficientemente bajo. El problema es que la estimación de este riesgo solo es válida si se cumplen todas las suposiciones para una prueba estadística (una de ellas siendo: haces una prueba y luego te detienes).

En la investigación con seres humanos, también asumimos implícitamente que los participantes en nuestras muestras son representativos de una población mayor de interés. (Y hay muchas más suposiciones, como la linealidad y la normalidad). En la práctica, una o más de las suposiciones requeridas para que los valores de p proporcionen una estimación válida del riesgo de error de Tipo I se violan casi siempre. Esto hace que la confianza en los valores de p sea una base muy pobre para evaluar los resultados de la investigación.

Dentro de la psicología y algunos otros campos, ha habido tres respuestas a la creciente conciencia de estos problemas.

(1) Uno ha sido hacer repeticiones de estudios bien conocidos para ver si se confirman los resultados. Desafortunadamente, en un gran número de repeticiones, no lo son. La forma más amable de explicar esto es que los resultados no fueron generalizables más allá de la situación de investigación original; aún así, esto es muy preocupante.

(2) Un segundo ha sido la recomendación para las “Nuevas estadísticas” (trabajo de Geoff Cumming, por ejemplo). En su forma más radical, exige abandonar los valores de p y, en cambio, informar el tamaño del efecto, los intervalos de confianza y las repeticiones / metanálisis.

(3) Una tercera respuesta ha sido recomendar o exigir que los estudios se registren (con una descripción completa de los métodos y el análisis de datos) antes de la recopilación de datos. En la aplicación más estricta de esto, solo se pudieron publicar los estudios registrados, y todos los estudios registrados deben publicarse (independientemente de los valores de p obtenidos).

Creo que todas estas cosas serán extremadamente útiles. Sin embargo, no creo que podamos asumir que estas tres cosas eliminarán completamente los problemas en la investigación.

Aquí hay un ejemplo personal. Recolecté algunos datos con un estudiante graduado, una encuesta en la que analizamos varios aspectos de la calidad de la relación (amor, confianza, respeto, autorrevelación, apoyo social) para predecir la felicidad y la satisfacción con la vida. Encontramos correlaciones ‘significativas’, pero desafortunadamente, no pudimos encontrar las cosas nuevas o interesantes que buscábamos. Guardé los datos.

Luego, por casualidad, leí un artículo teórico que decía que el apoyo social debería ser un factor más importante para predecir la felicidad y el bienestar de las mujeres que de los hombres. Regresé a mis datos, realicé el análisis para probar esto y encontré la interacción estadísticamente significativa que sería coherente con esta predicción (confieso que omití la evaluación de datos que debería haber hecho de antemano. No se lo diga a mis alumnos). Me detuve para observar mis resultados con más cuidado y rápidamente, y vi que la interacción se debió en su totalidad a algunos valores atípicos con combinaciones de valores bastante poco probables en las medidas.

Si yo fuera un profesor asistente principiante, la tentación de enviar un artículo sobre este “resultado” a una revista hubiera sido bastante abrumadora. Los primeros académicos de la carrera realmente están en situación de publicación o muerte. Si no publican, no es solo que no obtienen la tenencia. Cuando se niega el cargo, el profesor asistente también pierde su trabajo académico, y luego la persona puede tener muchos problemas para obtener otro trabajo de seguimiento de la tenencia. Entonces, puede significar la pérdida de toda la carrera que la persona pasó de 4 a 6 años estudiando en un programa de doctorado, y también, trabajando muy duro en proyectos de investigación y enseñanza.

Para continuar con mi ejemplo personal: sabía que los editores de la revista no habrían podido decir que yo había hecho un análisis post hoc que no era algo que tenía en mente originalmente, o que los valores atípicos que noté hicieron que de otra manera no La interacción estadísticamente significativa resulta ser estadísticamente significativa.

Bueno, tengo dos años de jubilación. Así que no intenté publicar este “hallazgo”. Podría haberlo presentado de una manera que lo hizo convincente, pero no creía que tuviera un hallazgo real y no iba a tratar de persuadir a otras personas de que tenía un hallazgo válido. (Una razón por la que mi producción de publicaciones se ha reducido en los últimos años es que ahora conozco lo suficiente sobre las fuentes de artefactos en el análisis de datos, por lo que a menudo encuentro problemas en los datos que hacen que las conclusiones que quisiera extraer no sean válidas).

No sé si hubiera sido tan virtuoso hace años, cuando intentaba desesperadamente obtener la tenencia. Probablemente no hubiera revisado estos problemas potenciales con mi análisis en primer lugar; Me habría apresurado a que me enviaran el documento; e incluso si hubiera encontrado estos problemas, podría haber tratado de racionalizar que el estudio todavía valía la pena.

En mi opinión, las personas que ven la ciencia como la “única religión verdadera” están tan equivocadas como las personas que ven sus creencias religiosas particulares como la única religión verdadera. La ciencia es una empresa humana. Los seres humanos cometen errores, tienen prejuicios, a veces son descuidados y están muy motivados para contar historias sobre su trabajo que lo hacen parecer lo más valioso e importante posible. No somos santos.

Incluso se sabe que se produce fraude (robo de datos, fabricación de datos) (incluso en campos como los medicamentos donde hay mucho en juego). Esto se descubre a menudo, pero sospecho que no siempre.

Estas debilidades humanas de los investigadores no significan que la ciencia carezca de valor o que no haya progreso en la ciencia. Por supuesto que ha habido progreso. Los resultados que no se pueden replicar se descartan con el tiempo. Hasta cierto punto, la ciencia es un proceso de autocorrección, pero eso es principalmente a largo plazo después de muchos estudios.

Otro gran problema es que los investigadores no obtienen tanto crédito por hacer estudios de replicación como por hacer nuevos estudios. A menudo, nadie de un laboratorio diferente intenta ver si los resultados son replicables. El proyecto de reproducibilidad del proyecto de reproducibilidad de Brian Nosek: Psychology Wiki es un encomiable intento de hacer que esto suceda.

Estoy totalmente de acuerdo con la respuesta que dice: No podemos confiar en los datos de un solo estudio como prueba, y necesitamos un proceso de revisión y replicación por pares críticos para evaluar nuestro estado de conocimiento.

Sin embargo, dadas las demandas e incentivos de la carrera académica actual, los investigadores principiantes generalmente no tienen tiempo para replicar un estudio varias veces antes de publicarlo. La evaluación de la productividad tiende a basarse principalmente en la cantidad de publicaciones que intentan responder nuevas preguntas (me gustaría que hubiera más énfasis en la calidad ) .

Como se señaló anteriormente, estoy a punto de jubilarme. En mi libro de texto de estadísticas he intentado presentar métodos honestos para el análisis de datos. Las revisiones para mi tercera edición incluirán una discusión mucho más extensa de los problemas que se han identificado recientemente, como la “hipótesis después de que se conocen los resultados” y la “flexibilidad no revelada en el análisis de datos”. A veces, los efectos estadísticamente significativos aparecen / desaparecen cuando los valores atípicos se eliminan o retienen, y en el pasado, los autores no tenían la obligación de informar detalladamente el manejo de los valores atípicos. Otro problema es que muchos efectos aparecen / desaparecen cuando se controlan estadísticamente diferentes variables.

La prueba de significación estadística tiene su lugar (para estimar la varianza debido al error de muestreo). Sin embargo, su uso como criterio para decidir cuándo los resultados de la investigación son válidos e importantes no ha tenido resultados positivos en el proceso de investigación y publicación. Ojalá me sintiera seguro de que los cambios (como el registro de estudios por adelantado y el uso de las Nuevas estadísticas) corregirían completamente el problema de informar datos de manera engañosa. Estos cambios recomendados (que, de todos modos, han tardado en ponerse al día) pueden reducir los problemas, pero no creo que puedan corregirlos por completo. Sin embargo, las reglas son complicadas, siempre habrá algunas personas que descubrirán formas de eludir el sistema.

¿Significa eso que no tengo fe en la ciencia? No. Creo que podemos hacer algunos progresos. El progreso puede ser lento. También creo que el progreso es a veces más difícil en disciplinas que involucran un gran número de variables como la psicología y también la economía, la dieta y la nutrición humana, la medicina, etc.

Hay una serie de nombres para las cosas que le suceden a los datos cuando los investigadores están desesperados por obtener resultados notificables (piratería, masajes de datos); Mi favorito es “torturar los datos hasta que confiesa”. Creo que la mayoría de las personas que hacen esto no entienden las estadísticas lo suficientemente bien como para darse cuenta de que lo que obtienen al final puede ser extremadamente engañoso. Creo que no entienden que esto no es ético.

Otro problema es que muchos tamaños de efectos (tanto en medicina como en áreas como la psicología) son tan pequeños que, incluso si la investigación informa sistemáticamente los resultados “estadísticamente significativos”, el tratamiento que se está evaluando en realidad tiene un impacto muy débil en la vida real. en individuos Este es otro aspecto de los resultados que debe informarse de manera más clara y honesta.

Sin embargo, los investigadores quieren creer que lo que están haciendo es importante y de alto impacto, necesitan revisores y editores de revistas para creer eso, y algunos de ellos incluso quieren aparecer en la portada del New York Times. Informar sobre el tamaño del efecto en términos que los lectores legos puedan entender ayudará a reducir este problema.

Si los lectores desean fuentes para algunos de los problemas que se plantean aquí, puedo proporcionarlos, pero esta respuesta ya es bastante larga, por lo que me detendré aquí.

Replicación.

En el ejemplo de “Fusión fría”, el experimento y sus efectos no se pudieron replicar cuando lo intentaron otros. Es muy parecido al proceso de revisión por pares utilizado para los artículos en la comunidad científica.

En el caso de diseñar un estudio o experimento para alcanzar específicamente un valor de ap <0,05, es posible que inicialmente no se detecte, pero alguien que trabaje en el campo analizará detenidamente cómo se recopilan los datos / se ejecuta el experimento / etc. Las preocupaciones que puedan tener sobre la validez y el valor del trabajo.

La capacidad de manipular o reinterpretar los resultados aumenta considerablemente cuando el número de variables de salida es alto. Un ejemplo sería una encuesta que haga 10 preguntas sobre el individuo (altura, peso, sexo, etc.) y luego haga entre 20 y 50 preguntas sobre sus opiniones o evalúe su conocimiento sobre ciertos temas.

“Las personas con ojos azules y zurdos como el helado de vainilla son dos veces más que las personas diestras y con ojos marrones”.

La mayoría de estos tipos de estudios buscan tendencias o correlaciones y, dependiendo de cómo haga la pregunta, podría obtener varias respuestas diferentes. Estoy seguro de que hay muchos otros ejemplos. Muchos resultados de estudios poco éticos simplemente se desplazan a través de los datos buscando resultados de correlación con valores de p <0.05 para que puedan publicar algo.

Valídalo tú mismo. Encuentre otros dos o tres estudios del mismo o similar trabajo realizado por otros grupos.

Creo que cuando cambia el experimento para que caiga dentro del valor p deseado, es probable que esté cambiando la pregunta que está respondiendo. Sin embargo, como mínimo, disminuirá la confianza en la correlación de los datos del nuevo experimento con la respuesta a su pregunta inicial a pesar de estar dentro del valor p deseado. Los árbitros se darán cuenta fácilmente de esto y preguntarán por qué no realizó el experimento más obvio, que es probablemente el que probó por primera vez. Por termodinámica, nada en la vida es gratis 🙂

Si vas a tratar de acabar con la ciencia, debes ser más preciso que “sabes a qué me refiero”.

Como escribió Rahul, solo un porcentaje muy pequeño de investigadores ha alterado los datos, y es muy difícil cambiar el diseño de un experimento para que esté de acuerdo con los datos. Además, si un investigador buscó patrones en los datos después del experimento, y encontró algo que no estaban buscando inicialmente, ese sería un análisis post-hoc, y tendría que declararse explícitamente como tal.

Creo que en realidad está hablando sobre el hecho de que las revistas tienden a publicar solo estudios que tienen un resultado útil / interesante (rechazan la hipótesis nula) e ignoran aquellos que no rechazan la hipótesis nula (ningún resultado útil). Estos siguen siendo válidos, y se puede confiar.

En cuanto al valor p, eso solo determina la importancia. Sí, es arbitrario (tenemos cinco dedos en una mano), pero parece estar funcionando. Antes de tomar medidas sobre los hallazgos de un estudio, se repite y se prueba más hasta que los hallazgos se consideran “sólidos”, por ejemplo.

La ciencia no es perfecta: es un mapa imperfecto de la naturaleza, pero es lo mejor que tenemos hasta que aparece algo mejor.

Ningún investigador genuino juega con los datos para obtener los resultados deseados. Las personas en las que está basando su pregunta son un subconjunto muy pequeño de la población total de investigadores. Si no fuera así, nunca podríamos haber llegado a la Luna, Marte o Plutón. La ciencia es la única verdad.

En gran parte porque su trabajo, incluyendo sus estadísticas, están ahí frente a Dios y todos.

Por supuesto, ningún resultado es prueba alguna vez. Es evidencia, quizás evidencia muy convincente, pero nada más. La evidencia acumulada se acerca a la prueba, pero aún así.

Si su trabajo o sus estadísticas tienen lagunas y fallas, otros en su campo se lo señalarán.