¿La investigación basada en hipótesis es como jugar a la lotería? ¿Esto lo hace buena o mala ciencia?

Yo diría exactamente lo contrario: que los proyectos de big data son una mala ciencia. O, más exactamente, que los proyectos de big data no son realmente ciencia. Piense en la típica genómica de big data o proyecto GWAS. Secuenciar muchos genomas, buscar una correlación que puede o no existir, y puede que no sea tan informativa. Son enormes en su alcance, pero sin rumbo en la práctica.

Compare eso con un proyecto pequeño con un objetivo de conjunto de hipótesis muy preciso y un elegante diseño experimental / de recopilación de datos para obtener precisamente los datos necesarios, sin gastar más dinero y recursos de lo necesario ( muy importante en el clima de financiamiento actual). Si obtiene resultados positivos, excelente, tiene al menos una publicación (y un puñado si puede ordeñarla). Si obtiene resultados negativos, muy mal, pero al menos usted y todos los demás en el campo saben que esa avenida es un callejón sin salida, y puede seguir explorando otra cosa.

Entonces, en términos de eficiencia, elegancia y resultados, la ciencia basada en hipótesis vence por mucho. Para mí, los proyectos de big data no son ciencia. Son iniciativas masivas de recopilación de datos. Son el ámbito de los técnicos de laboratorio y tienen un lugar en la ciencia (por ejemplo, piense en todos los hitos tecnológicos alcanzados por el Proyecto del Genoma Humano). Lo que hagas con esos datos debe ser una ciencia basada en hipótesis.

¿Cuál es la relevancia de una gran pila de datos? ¿Por qué recopilar estos datos, no otros? ¿Cómo sabes si tienes suficientes datos?

El enfoque de big data tiene muchas hipótesis implícitas debido a que los investigadores toman estas decisiones, por lo que la investigación de big data en realidad está basada en hipótesis. Una buena investigación de big data comienza haciendo estas hipótesis explícitas. Esto evita muchos errores que las personas tienden a cometer al interpretar las estadísticas al final.

“El termostato de Friedman” es una pequeña historia que ayuda a ilustrar esto:

Un investigador agnóstico de big data se pregunta por qué paga tanto por su factura de gas. Él ve que su sistema de calefacción central consume una gran cantidad de combustible, por lo que decide medir el impacto que su sistema realmente tiene sobre las temperaturas internas. Después de aproximadamente un año de recopilación de datos, descubre que no importa la cantidad de gas que use el sistema de calefacción central, la temperatura en su casa es siempre la misma. Él apaga la calefacción, porque la investigación muestra que no hace nada.

“Según Feyerabend, se aceptaron nuevas teorías no debido a su acuerdo con el método científico, sino porque sus partidarios hicieron uso de cualquier truco, racional, retórico o radical, para promover su causa. Sin una ideología fija, o la Introducción a las tendencias religiosas, el único enfoque que no inhibe el progreso (usando la definición que se considere adecuada) es “todo vale”: “‘todo vale’ no es un ‘principio’ que sostengo … sino la exclamación aterrorizada de un racionalista que toma una mirada más cercana a la historia “. (Feyerabend, 1975; Contra el método). {Wikipedia: Feyerabend}”

En este enlace Modelo hipotético-deductivo bajo el “Ejemplo”, observe en el paso 2 que debe asumir que “aún no se sabe nada más”, lo que no puede ser cierto para ninguna hipótesis o “pila de datos”. Como Feyerabend ha demostrado, todas las observaciones están “cargadas de teoría”. ¿Y no es “la gran pila de datos” versus las hipótesis que prueban la misma dicotomía (falsa) que se encuentra en las estadísticas entre estadísticas discretas e inferenciales o la antigüedad del problema de la compilación de datos frente a la interpretación de los datos? Esta es, en última instancia, la decisión del científico. Es por eso que los intervalos de confianza son arbitrarios, ¿no? Lo que nos lleva de nuevo a “todo vale”.

También es de interés la conmensurabilidad (filosofía de la ciencia) y mi publicación en el blog Science Is Dumb (o, Somos todos los científicos)

Señale a su amigo que lo que Big Data le da es una nueva hipótesis. Entonces, tal vez solo se diferencien en donde se obtienen sus hipótesis.

La nueva hipótesis es a menudo lo que más entusiasma al público (e incluso a otros científicos). La evolución y los estados de energía cuantificados se demostraron y todos los conocemos. Polywater, varias predicciones de superconductividad orgánica y fusión fría demostraron ser más esquivas, pero generaron muchas pruebas y (algunos de nosotros) todavía las recordamos.

Edición: si formula hipótesis y luego las acepta sin verificación, eso no es ciencia en absoluto. Si solo busca datos que apoyen su hipótesis e ignore los datos que podrían refutarla, es una mala ciencia. Si manipulas tus pruebas o reportas datos selectivamente, eso es una mala ciencia. Todo lo anterior sigue siendo cierto, ya sea que sus hipótesis provengan de su propia imaginación, de otra persona (como un supervisor de investigación) o del análisis de big data.

Trabajar en una hipótesis a la vez, o solo en un par, me parece una gestión del tiempo ordinaria y necesaria. Ciertamente no es posible trabajar en todos los proyectos posibles simultáneamente.

Esto depende de muchas cosas:

Depende del tipo de hipótesis que estés probando.

¿Depende de a qué te refieres con buena ciencia?

La pregunta parece suponer que “buena ciencia” es alucinante y resultados emocionantes de algún tipo. Pero eso no significa que cualquier otra cosa sea buena ciencia.

En la investigación médica y relacionada, es bueno saber qué funciona y qué no funciona. Los médicos intentarán todo tipo de cosas, y necesitamos saber si no funciona.

En el Reino Unido, existe un sistema telefónico llamado NHS Direct: puede llamar por teléfono y hablar con un profesional médico. Alguien dijo: “¡Hey! ¿Por qué no redireccionamos las llamadas telefónicas a los médicos y, en su lugar, enviamos todas las llamadas a NHS Direct. Eso le ahorrará tiempo y dinero a los médicos? Aquí hay un documento en el que participé: NHS Direct versus la práctica general basada en la clasificación para el mismo citas diarias en la atención primaria: ensayo controlado aleatorio grupal. Probamos esa hipótesis para ver si era cierta. Conclusión: No lo fue. De hecho, costó más y usó más tiempo del médico. Probamos una hipótesis; Un artículo publicado en el British Medical Journal, una de las 2 principales revistas médicas británicas, y posiblemente en el top 5 del mundo.

Aquí está otro. Los farmacéuticos están bien entrenados y tienen mucho conocimiento. Pero ese conocimiento no se usa tanto como podría ser. Muchas personas mayores toman MUCHOS medicamentos. Tal vez si tenemos farmacéuticos (que saben mucho sobre medicamentos) para revisarlos. Podríamos mejorar la salud de los pacientes:
Resulta que no lo haremos: eficacia de la atención farmacéutica compartida para pacientes mayores
OK entonces, tal vez vamos a ahorrar algo de dinero? Realmente no. Coste-efectividad de la atención farmacéutica compartida para pacientes mayores.

¿No eran buenos científicos? Si esa investigación no se hubiera realizado, se podrían haber gastado millones de libras en implementar un sistema que no sirvió de nada.

La ciencia es una fórmula para adquirir conocimiento. Siempre se basa en hipótesis. Los proyectos de datos son otro método para adquirir conocimiento. Ambos son importantes y ambos proporcionan conocimiento que el otro no puede, o al menos no de manera eficiente. La buena ciencia es impulsada por buenas hipótesis. Podemos hacer un número infinito de preguntas y, por lo tanto, la ciencia tiene una sensación de lotería. Pero no estamos haciendo preguntas al azar. Los científicos talentosos apilan las probabilidades a su favor al hacer preguntas cuidadosas (y algunas veces con suerte) que son significativas y fáciles de responder.