A diferencia de algunos de los otros encuestados, creo que ha planteado una preocupación válida (aunque prefiero no decir ‘ya sabes lo que quiero decir’).
Como especialista en estadísticas, he trabajado con muchos estudiantes graduados en proyectos de tesis, consulté con muchos colegas, revisé muchos artículos de revistas antes de la publicación y, por supuesto, recopilé y analicé mis propios datos. La tentación de participar en “p-hacking” es real. Muchos investigadores hacen cosas que, si bien no son intencionalmente deshonestas, dan como resultado presentaciones de datos que no son completamente creíbles.
Por ejemplo, en algunos laboratorios, se ejecutan múltiples proyectos de investigación (digamos 10). Uno produce resultados “estadísticamente significativos” (quizás después de haber bajado algunos puntajes extraños). Este es el que se publica. Los otros 9 estudios terminan en archivadores.
Creo que muchas personas entienden mal lo que significa p <.05 (un criterio común para la significación estadística). Un valor p es un riesgo teórico de error de Tipo I (por ejemplo, argumentando que sus datos muestran evidencia de que el tratamiento es efectivo cuando realmente lo es) No, y pensando que su riesgo de error es inferior al 5% y que el 5% de riesgo de error es suficientemente bajo. El problema es que la estimación de este riesgo solo es válida si se cumplen todas las suposiciones para una prueba estadística (una de ellas siendo: haces una prueba y luego te detienes).
En la investigación con seres humanos, también asumimos implícitamente que los participantes en nuestras muestras son representativos de una población mayor de interés. (Y hay muchas más suposiciones, como la linealidad y la normalidad). En la práctica, una o más de las suposiciones requeridas para que los valores de p proporcionen una estimación válida del riesgo de error de Tipo I se violan casi siempre. Esto hace que la confianza en los valores de p sea una base muy pobre para evaluar los resultados de la investigación.
Dentro de la psicología y algunos otros campos, ha habido tres respuestas a la creciente conciencia de estos problemas.
(1) Uno ha sido hacer repeticiones de estudios bien conocidos para ver si se confirman los resultados. Desafortunadamente, en un gran número de repeticiones, no lo son. La forma más amable de explicar esto es que los resultados no fueron generalizables más allá de la situación de investigación original; aún así, esto es muy preocupante.
(2) Un segundo ha sido la recomendación para las “Nuevas estadísticas” (trabajo de Geoff Cumming, por ejemplo). En su forma más radical, exige abandonar los valores de p y, en cambio, informar el tamaño del efecto, los intervalos de confianza y las repeticiones / metanálisis.
(3) Una tercera respuesta ha sido recomendar o exigir que los estudios se registren (con una descripción completa de los métodos y el análisis de datos) antes de la recopilación de datos. En la aplicación más estricta de esto, solo se pudieron publicar los estudios registrados, y todos los estudios registrados deben publicarse (independientemente de los valores de p obtenidos).
Creo que todas estas cosas serán extremadamente útiles. Sin embargo, no creo que podamos asumir que estas tres cosas eliminarán completamente los problemas en la investigación.
Aquí hay un ejemplo personal. Recolecté algunos datos con un estudiante graduado, una encuesta en la que analizamos varios aspectos de la calidad de la relación (amor, confianza, respeto, autorrevelación, apoyo social) para predecir la felicidad y la satisfacción con la vida. Encontramos correlaciones ‘significativas’, pero desafortunadamente, no pudimos encontrar las cosas nuevas o interesantes que buscábamos. Guardé los datos.
Luego, por casualidad, leí un artículo teórico que decía que el apoyo social debería ser un factor más importante para predecir la felicidad y el bienestar de las mujeres que de los hombres. Regresé a mis datos, realicé el análisis para probar esto y encontré la interacción estadísticamente significativa que sería coherente con esta predicción (confieso que omití la evaluación de datos que debería haber hecho de antemano. No se lo diga a mis alumnos). Me detuve para observar mis resultados con más cuidado y rápidamente, y vi que la interacción se debió en su totalidad a algunos valores atípicos con combinaciones de valores bastante poco probables en las medidas.
Si yo fuera un profesor asistente principiante, la tentación de enviar un artículo sobre este “resultado” a una revista hubiera sido bastante abrumadora. Los primeros académicos de la carrera realmente están en situación de publicación o muerte. Si no publican, no es solo que no obtienen la tenencia. Cuando se niega el cargo, el profesor asistente también pierde su trabajo académico, y luego la persona puede tener muchos problemas para obtener otro trabajo de seguimiento de la tenencia. Entonces, puede significar la pérdida de toda la carrera que la persona pasó de 4 a 6 años estudiando en un programa de doctorado, y también, trabajando muy duro en proyectos de investigación y enseñanza.
Para continuar con mi ejemplo personal: sabía que los editores de la revista no habrían podido decir que yo había hecho un análisis post hoc que no era algo que tenía en mente originalmente, o que los valores atípicos que noté hicieron que de otra manera no La interacción estadísticamente significativa resulta ser estadísticamente significativa.
Bueno, tengo dos años de jubilación. Así que no intenté publicar este “hallazgo”. Podría haberlo presentado de una manera que lo hizo convincente, pero no creía que tuviera un hallazgo real y no iba a tratar de persuadir a otras personas de que tenía un hallazgo válido. (Una razón por la que mi producción de publicaciones se ha reducido en los últimos años es que ahora conozco lo suficiente sobre las fuentes de artefactos en el análisis de datos, por lo que a menudo encuentro problemas en los datos que hacen que las conclusiones que quisiera extraer no sean válidas).
No sé si hubiera sido tan virtuoso hace años, cuando intentaba desesperadamente obtener la tenencia. Probablemente no hubiera revisado estos problemas potenciales con mi análisis en primer lugar; Me habría apresurado a que me enviaran el documento; e incluso si hubiera encontrado estos problemas, podría haber tratado de racionalizar que el estudio todavía valía la pena.
En mi opinión, las personas que ven la ciencia como la “única religión verdadera” están tan equivocadas como las personas que ven sus creencias religiosas particulares como la única religión verdadera. La ciencia es una empresa humana. Los seres humanos cometen errores, tienen prejuicios, a veces son descuidados y están muy motivados para contar historias sobre su trabajo que lo hacen parecer lo más valioso e importante posible. No somos santos.
Incluso se sabe que se produce fraude (robo de datos, fabricación de datos) (incluso en campos como los medicamentos donde hay mucho en juego). Esto se descubre a menudo, pero sospecho que no siempre.
Estas debilidades humanas de los investigadores no significan que la ciencia carezca de valor o que no haya progreso en la ciencia. Por supuesto que ha habido progreso. Los resultados que no se pueden replicar se descartan con el tiempo. Hasta cierto punto, la ciencia es un proceso de autocorrección, pero eso es principalmente a largo plazo después de muchos estudios.
Otro gran problema es que los investigadores no obtienen tanto crédito por hacer estudios de replicación como por hacer nuevos estudios. A menudo, nadie de un laboratorio diferente intenta ver si los resultados son replicables. El proyecto de reproducibilidad del proyecto de reproducibilidad de Brian Nosek: Psychology Wiki es un encomiable intento de hacer que esto suceda.
Estoy totalmente de acuerdo con la respuesta que dice: No podemos confiar en los datos de un solo estudio como prueba, y necesitamos un proceso de revisión y replicación por pares críticos para evaluar nuestro estado de conocimiento.
Sin embargo, dadas las demandas e incentivos de la carrera académica actual, los investigadores principiantes generalmente no tienen tiempo para replicar un estudio varias veces antes de publicarlo. La evaluación de la productividad tiende a basarse principalmente en la cantidad de publicaciones que intentan responder nuevas preguntas (me gustaría que hubiera más énfasis en la calidad ) .
Como se señaló anteriormente, estoy a punto de jubilarme. En mi libro de texto de estadísticas he intentado presentar métodos honestos para el análisis de datos. Las revisiones para mi tercera edición incluirán una discusión mucho más extensa de los problemas que se han identificado recientemente, como la “hipótesis después de que se conocen los resultados” y la “flexibilidad no revelada en el análisis de datos”. A veces, los efectos estadísticamente significativos aparecen / desaparecen cuando los valores atípicos se eliminan o retienen, y en el pasado, los autores no tenían la obligación de informar detalladamente el manejo de los valores atípicos. Otro problema es que muchos efectos aparecen / desaparecen cuando se controlan estadísticamente diferentes variables.
La prueba de significación estadística tiene su lugar (para estimar la varianza debido al error de muestreo). Sin embargo, su uso como criterio para decidir cuándo los resultados de la investigación son válidos e importantes no ha tenido resultados positivos en el proceso de investigación y publicación. Ojalá me sintiera seguro de que los cambios (como el registro de estudios por adelantado y el uso de las Nuevas estadísticas) corregirían completamente el problema de informar datos de manera engañosa. Estos cambios recomendados (que, de todos modos, han tardado en ponerse al día) pueden reducir los problemas, pero no creo que puedan corregirlos por completo. Sin embargo, las reglas son complicadas, siempre habrá algunas personas que descubrirán formas de eludir el sistema.
¿Significa eso que no tengo fe en la ciencia? No. Creo que podemos hacer algunos progresos. El progreso puede ser lento. También creo que el progreso es a veces más difícil en disciplinas que involucran un gran número de variables como la psicología y también la economía, la dieta y la nutrición humana, la medicina, etc.
Hay una serie de nombres para las cosas que le suceden a los datos cuando los investigadores están desesperados por obtener resultados notificables (piratería, masajes de datos); Mi favorito es “torturar los datos hasta que confiesa”. Creo que la mayoría de las personas que hacen esto no entienden las estadísticas lo suficientemente bien como para darse cuenta de que lo que obtienen al final puede ser extremadamente engañoso. Creo que no entienden que esto no es ético.
Otro problema es que muchos tamaños de efectos (tanto en medicina como en áreas como la psicología) son tan pequeños que, incluso si la investigación informa sistemáticamente los resultados “estadísticamente significativos”, el tratamiento que se está evaluando en realidad tiene un impacto muy débil en la vida real. en individuos Este es otro aspecto de los resultados que debe informarse de manera más clara y honesta.
Sin embargo, los investigadores quieren creer que lo que están haciendo es importante y de alto impacto, necesitan revisores y editores de revistas para creer eso, y algunos de ellos incluso quieren aparecer en la portada del New York Times. Informar sobre el tamaño del efecto en términos que los lectores legos puedan entender ayudará a reducir este problema.
Si los lectores desean fuentes para algunos de los problemas que se plantean aquí, puedo proporcionarlos, pero esta respuesta ya es bastante larga, por lo que me detendré aquí.