¿Cuáles son los defectos más significativos del bayesianismo?

Desde una perspectiva teórica o conceptual, un problema potencial con el bayesianismo es que sus respuestas siempre dependen de la elección de un prior, lo que hace que las respuestas sean subjetivas y no objetivas. Este es el “problema” más citado. Sin embargo:

  1. En muchos casos, se pueden elegir antecedentes no informativos que, en algunos sentidos, podrían considerarse “objetivos”.
  2. En muchos casos, se puede probar que dados los datos suficientes, la parte posterior convergerá y que el resultado no depende de la prioridad en el límite. Un “mal” anterior a menudo puede ser “golpeado” por datos suficientes.
  3. Dependiendo de su aplicación o problema específico, si tiene suficientes datos de repuesto, puede confirmar “experimentalmente” que la parte posterior no depende demasiado de la anterior.
  4. Desde cierta perspectiva, la subjetividad es una característica y no un error; la probabilidad depende fundamentalmente del estado de su información o conocimiento (por ejemplo, los juegos de cartas son completamente deterministas; la probabilidad solo se aplica en los juegos de cartas porque las cartas están boca abajo). Así que la probabilidad es fundamentalmente subjetiva, y es mejor abrazar esto en lugar de pretender que no es así.

Un problema similar es que el bayesianismo requiere la elección de un modelo, esto también debe considerarse como parte del “anterior”. Debe asegurarse de que las suposiciones de su modelo coincidan con la realidad en un grado suficiente. Tal juicio también es a menudo subjetivo. (¡Por supuesto que los enfoques frecuentistas también requieren tales juicios subjetivos!)

A mi modo de ver, los problemas del bayesianismo son principalmente pragmáticos. Elegir o desarrollar o implementar un modelo bayesiano apropiado a menudo no es trivial. Otra cosa es que si no está usando un conjugado anterior, entonces necesita usar métodos como Markov Chain Monte Carlo, que pueden ser muy costosos computacionalmente.

Los enfoques frecuentes son, comparativamente, a menudo más fáciles de implementar y más fáciles de calcular, pero también existen inconvenientes: pueden ser muy fáciles de malinterpretar y los resultados tienden a ser menos sólidos y menos útiles.

Permítanme ampliar un poco la respuesta de Jay Verkuilen.

Cuando utiliza los métodos bayesianos, comienza con un anterior, obtiene algunos datos y combina esos dos elementos para obtener un posterior. Si comienzas con un buen previo, obtendrás un buen trasero. Si comienzas con un mal anterior, obtendrás un mal posterior. Entonces, la pregunta es, entonces, cómo elegir un buen prior. En teoría, su anterior corresponde a sus creencias reales, por lo que debería poder seguirlas, pero traducir sus creencias sobre una situación en una distribución de probabilidad no es del todo trivial (es decir, muy difícil).

También hay problemas computacionales asociados con los métodos bayesianos. No es tan bueno cuando tiene que esperar una semana para que la muestra converja, de modo que pueda comenzar a familiarizarse con la parte posterior, y el problema es aún peor en las dimensiones altas.

¿Bayesianismo la religión o bayesianismo la colección de técnicas estadísticas?

Voy a responder por el primero. El problema es que los adherentes toman un dato indiscutible sobre los diagramas de Venn ([math] \ Pr \ {A | B \} \ xrightarrow {Bayes} \ Pr \ {B | A \} [/ math]) e intentan deducir todo el modo De las cosas, incluidos los modelos de la mente humana.

Las probabilidades aún no son números confusos, y aún no están “indexadas” con confianza o con la información (y la desinformación y la falta de información) que usó para obtener su “probabilidad subjetiva”.

En otras palabras, podría tener un previo estrecho ya sea porque estoy demasiado seguro o porque he observado muchas cosas y descarté correctamente el error. No se puede decir cuál de la distribución.

La probabilidad subjetiva en sí misma es un concepto inventado que se remonta a otra religión (comenzando con, afaik, Gottlob Frege) de que la mente es una especie de aparato de computación racional, en lugar de … bueno, sea lo que sea, eso depende de los científicos para continuar calculando fuera.

Incluso el medallista de los Campos, David Mumford, ha sido tomado por la religión bayesiana. Escribe: “Una novela se puede ver como una muestra aleatoria de la distribución de probabilidad posterior del autor en historias, condicionada a todas las cosas que el autor ha observado o aprendido sobre la naturaleza del mundo real”. Afirmo que incluso si haces esto con una Bayesnet, en lugar de una funcional desde las posibles novelas a [0,1], te falta la mayor parte de la estructura interesante, parte de la cual se capturaría como topología: ¿cuáles son las Lolita ? s Nabokov podría haber escrito, si hubiera “perturbado” la intención un poco?

La religión bayesiana está supeditada a otras proposiciones teológicas sobre la mente humana, como la creencia en la existencia ontológica de proposiciones en el cerebro, la significación objetiva de la “probabilidad” y la ideología racional-apostadora que nace de la teoría de la utilidad, otra jorobada. Progenitura del siglo XIX.

Decir hoy que la mente es bayesiana me parece, como decir en la Europa del siglo XVII, que el Universo es un gran Reloj diseñado por un Dios cristiano; o como decir en el siglo 20 que la Mente es una Computadora. Como obsesionarse con la tecnología espacial en la década de 1950 u obsesionarse con la tecnología de Internet en la década de 1990. La gente, inevitablemente, quiere responder a Las grandes preguntas de la vida y no tiene la paciencia para decir “Esto está fuera del alcance de mi época personal”. Miran a las herramientas que están alrededor, y de hecho, todas las herramientas que he descrito (incluida la regla de Bayes) son fenomenales, herramientas impresionantes, y clavan cualquier clavo que se pueda ver con ellas, incluidos los dilemas filosóficos profundos.


Tal vez el defecto más importante para mí con la religión bayesiana es que no tiene en cuenta la teoría de la ceguera, que es cuando los hechos que percibes están teñidos por las teorías que crees. En mi opinión, es muy difícil “simplemente observar” algo “neutralmente”: tener hechos, sin un marco de interpretación o un punto de vista que los coloree.

Una simple demostración de esto es que los no entrenados no “simplemente dibujan lo que ven”: dibujan figuras de palo (representaciones teóricas que interpretan las partes importantes de una persona, posiblemente aprendidas de otra persona), no los parches reales de luz-oscuridad que golpean tu ojo. Problemas similares ocurren porque las personas saben que los objetos son 3-D y tratan de dibujar esto en lugar de lo que literalmente golpea un ojo (una imagen 2-D).

Esto es algo que los artistas “desaprenden”. Por ejemplo, si voltea la fotografía de una persona al revés, es más fácil copiarla correctamente porque su copia se vuelve más mecánica y menos interpretativa. En cierto modo, ¿no sería una locura si esta historia de dibujar lo que vemos no fuera la percepción humana general de las cosas? Dibujar lo que está frente a ti me parece una conexión muy simple entre el objetivo (las cosas) y lo subjetivo (la idea de qué dibujar pasa a través de ti).

Si tratara de modelar este comportamiento con los antecedentes, necesitaría construir algún tipo de pijama armado pesado que, a pesar de los años y años de experiencia de los fotones que golpean mi ojo, todavía quiere dibujar otra cosa, y los procesos que influye en la forma en que se dirige este juego en sí mismo, es lo que hace que alguien adopte una cosmovisión, no deambula por la pradera probatoria como un algoritmo de Metrópolis.

Digamos que empiezo con algunos anteriores sobre la probabilidad de [elegir un argumento: monetarismo; Creación / Evolución; deriva continental]. Llámelo X. Puede haber alguna evidencia que pueda convencerme de que estoy equivocado, pero en mi opinión es poco probable que sean observaciones directas de ¬X. El libro de Martin Shermer sobre cultos, así como algunas otras fuentes (“No somos un culto”, Harold Camping, El culto en el fin del mundo) buscan pistas sobre lo que realmente convence a la gente, como comentó Lionel Robbins en el prefacio de Bresciano-Turroni, “cuando se produce una perturbación, a veces es posible arrebatar el bien del mal y obtener información sobre el funcionamiento de los procesos que normalmente se ocultan”. Los neurocientíficos estudian a Phineas Gage, los economistas estudian la Gran Depresión y la hiperinflación alemana, y aquellos que entienden la inferencia razonada deberían entender su opuesto opuesto.

Las cuentas de los cultos enfatizan que las personas muy inteligentes y racionales, como los ingenieros, pueden verse atrapadas en el sistema de creencias de los cultos. Amos Tversky y Daniel Kahneman hablan sobre su propia teoría de la ceguera (y de ahí proceden) en su trabajo científico sobre la teoría de la perspectiva. Parafraseando a Kahneman, pero creo que esto es correcto: “No estábamos viendo [algo que estaba en los datos] debido a nuestra ideología”. (((No conozco la fuente original de esta cita, pero la he visto en tantos lugares tiene que ser alguien famoso; voy a adivinar a Marx. “La ideología está a nuestro alrededor. Cuando preguntamos qué ideología es como un pez que se pregunta cómo sería estar mojado “.))

Así que creo que las personas aprendidas (científicos) y las personas mal aprendidas (cultistas) filtran la información a través de sus prejuicios o ideologías o educación. Pero, ¿por qué no es esto simplemente anteriores? Un hallazgo importante en el estudio de los cultos (y esto se encuentra en todos los estudios de los cultos que he leído) es que la información que no encaja con la teoría se desecha, o que a veces se toma la ¬X como una prueba más de X. Por ejemplo, cultos inteligentes de otra manera, al ver que el fin del mundo no se materializó cuando el líder carismático dijo que lo haría, se quedó con el culto y, a veces, incluso se convirtió en seguidores más fuertes.
En ciencia, Paul Feyerabend (y probablemente muchos otros) señaló que un experimento nunca es una prueba de una sola cosa, sino una prueba conjunta de muchas cosas. ¿Cómo llegamos a los “paradigmas de Kuhn que mueren con los científicos”? ((lo que no estoy diciendo, creo, pero al menos prima facie es una toma creíble, y en este caso es una toma útil, sobre la historia de la ciencia)) Como un científico famoso, cuando hay evidencia que contradice tu visión del mundo viene, primero ve a buscar (como lo hace cada estudiante de ciencias cuando lo que su equipo de laboratorio no produce resultados que concuerden con lo que dice el libro de texto debería haber ocurrido la Estructura de Banda Electrónica de Germanio, Mi Culo) para detectar algún problema con el experimento. Una vez más, los físicos desacreditan a los neutrinos más rápidos que la luz. No solo mi anterior, sino mi teoría, razones y mecanismos dicen que nada debería ser más rápido que la luz. Entonces, en lugar de aceptar la observación ¬X (neutrinos superluminales), busco de inmediato las razones por las que ¬¬X. Eso no es lo que parece una actualización posterior bayesiana. ¿Y es diferente cuando alguien cuya confianza reside en su Pastor en lugar de su Maestro de escuela, busca las fallas en un argumento de Evolución? Yo diría que no lo es.

Las personas tienen barreras mentales contra la confrontación directa; la única forma en que se pueden argumentar fuera de una opinión fuertemente sostenida es que se dirijan “alrededor” (ortogonales) a sus contraargumentos preparados. ¿Por qué {las iglesias que están interesadas no solo en proporcionar sustento espiritual, sino también en abultar o mejorar la membresía) escriben apología? Porque al proporcionar respuestas a las objeciones (usar el lenguaje de ventas a propósito porque es el mismo proceso), les dan a los adherentes un muro contra el que se enfrentan, si el abogado del diablo intenta sacarlos de su mínimo lagrangiano. Ciertamente es más cómodo no cambiar las creencias X, especialmente si muchos de sus otros pensamientos / opiniones / valores / opiniones / juicios “dependen de” (en el sentido del programador) la X en cuestión. La colocación de salchichas o bolsas de arena alrededor de las rutas de escape comunes hace que sea más fácil para los adeptos hacer lo que ya querían, que es permanecer en su doctrina en lugar de ser arrastrado al vacío de la ambigüedad, la incertidumbre, el ateísmo o, lo que es peor, la ausencia de teorías. “Ten mucho cuidado con lo que pones en esa cabeza porque nunca lo sacarás, nunca. “Thomas Cardinal Woolsey”


En mi experiencia, la forma en que las personas cambian las creencias sólidas es 1) una fuerza realmente poderosa (como la muerte de un ser querido, una ruptura, una gran pérdida de riqueza, ir a la cárcel), como un tsunami, los arroja del pozo potencial de su cómodo mínimo lagrangiano, muy tumultuoso, o 2) una pregunta sutil que no pueden responder, les molesta más y más, y si tiran de los hilos y siguen explorando y reflexionando sobre la pregunta, sobre una Período muy largo de tiempo que se escapan de la ideología X.

Incluso si no compra mi teoría personal de la ideología, los cultos, la argumentación, la creencia y la teoría de la ceguera, debería tener dudas acerca de la capacidad de la mente humana para ser reducida a Bayesnets, ya que los constituyentes atómicos de la teoría … probabilidad y proposiciones: no existen físicamente, son solo construcciones teóricas o mentales o lingüísticas.

En realidad, no creo que el bayesianismo tenga defectos. El problema anterior que las personas siguen mencionando no es un problema, es la razón principal para realizar estadísticas Bayesianas. Si desea utilizar información previa para la estimación o la predicción, utilice los métodos bayesianos; si no lo desea, no lo hace. Uno no dice que la falla de la mecánica newtoniana es que no toma en cuenta los efectos cuánticos, modelan diferentes fenómenos y, por lo tanto, se utilizan en diferentes lugares de la ciencia. Si tiene muy poca información (muy poca información) y tiene un experto con conocimientos de dominio, úsela en su anterior. Si eres anterior y posterior son muy diferentes, ¡entonces has aprendido algo! Lo cual es genial creo, no? Como bayesiano, puede modelar un único punto de datos y aprender, lo que para mí es el corazón del bayesianismo. Admito que es difícil explicar el bayesianismo a un científico que ha estado trabajando arduamente para no sesgar un experimento (ya que el sesgo no tiene sentido en las estadísticas bayesianas). Un buen ejemplo de esto es tratar de explicar a un físico que no hay un valor verdadero (es decir, el parámetro tiene una distribución y no los datos) para el radio (o distribución del radio) para una nube de electrones alrededor de un protón. Por supuesto que no todos, pero hay algunos que, a falta de una mejor frase, ven las mediciones famosas como un evangelio.

La falta de facilidad computacional no es realmente una falla, sino un problema solucionable (por supuesto, para algunos modelos simplemente no se ha resuelto todavía, lo que es definitivamente molesto).

Otro punto es que el bayesianismo realmente resuelve fallas teóricas en el frecuentismo. El mayor defecto en mi mente del frecuentismo está en la teoría de la decisión. Resulta que la única manera (iff) de tomar una decisión óptima es si toma el valor esperado sobre la función Pérdida, es decir, su estado (parámetro) debe tener una distribución. Olvidé por quién, pero fue probado por un frecuentista en los 30/40. Hay una explicación mucho mejor en “La teoría de la decisión estadística” de Berger.

No diría que el bayesianismo tiene fallas, sino que puede ser molesto para lidiar con problemas de cómputo y tener que gastar, a veces una cantidad considerable de tiempo, pensando en cómo hacer previos.

Lo es, pero por las razones equivocadas. No creo que la fórmula de Bayes tenga nada de malo en sí misma, pero sí en su uso y mal uso.

Ni Bayes ni otras fórmulas ampliamente aplicadas (no creo que puedan considerarse ‘métodos’) como la entropía de Shannon proporcionan ningún medio real para estimar las distribuciones de probabilidad o los antecedentes, y ambos cuantifican el grado de ignorancia del observador en lugar de cualquier cosa. objetivo, especialmente frente a las aplicaciones del mundo real donde a menudo, si no siempre, el caso es que sabemos poco o nada sobre el fenómeno observado y sus mecanismos generadores y las fórmulas de Entropía o Bayes solo llevan a la toma de decisiones, a menudo Sin fundamento, supuestos que dan la impresión de ser rigurosos, pero no lo son. Y cuando se concede el acceso a distribuciones de probabilidad o anteriores, la relevancia de fórmulas como Bayes y Entropy se vuelve redundante.

En contraste, la teoría de la información algorítmica resuelve este problema en particular dejando de lado las distribuciones y definiendo la aleatoriedad algorítmica como una propiedad intrínseca del objeto en lugar de como parte de un conjunto, y mientras que las medidas del contenido algorítmico son semi-computables, sí proporcionan los medios y las herramientas para hacer estimaciones y, lo que es más importante, son enfoques basados ​​en modelos en lugar de descripciones meramente estadísticas de algunos datos.

Aquí algunos consejos para artículos interesantes que explican más detalladamente:

[1609.00110] Un método de descomposición para la evaluación global de la entropía de Shannon y las estimaciones locales de la complejidad algorítmica

Un cálculo de información algorítmica para sistemas de descubrimiento causal y reprogramación

Gráficos engañosos de entropía de baja complejidad algorítmica

Cálculo de la complejidad de Kolmogorov a partir de las distribuciones de frecuencia de salida de máquinas de Turing pequeñas

Las estadísticas bayesianas son una teoría matemática, por lo que no contienen fallas, como tampoco lo hace la teoría de grupos. Es una forma de pasar de los axiomas a los resultados, de nuevo, como cualquier teoría matemática.

Las “fallas” vienen en aplicación humana. Un punto pegajoso es priors. Es importante darse cuenta de que TODO el juicio humano depende de los antecedentes. Se oye un ruido en la noche. Bueno, puede ser … cualquier cosa . Un intruso, sí, pero también las cebollas Vidalia del espacio, un gigante capibara púrpura, niños que no recuerdas haber venido para hacerte una fiesta sorpresa … CUALQUIER COSA.

Excepto que tenemos antecedentes que nos dicen “probablemente no es nada”, y ponemos frecuencias relativas fuertes en todo lo demás.

Por lo tanto, hay menos problemas con el bayesianismo que los humanos que realmente no entienden cómo funciona.

Vale la pena señalar que la base de la objeción anterior no solo se aplica a las estadísticas bayesianas. Por ejemplo, cuando elige un modelo (digamos un tipo de familia GLM), está haciendo una suposición, independientemente de si tiene antecedentes o no. Por lo tanto, se podría argumentar que si bien los anteriores son todavía suposiciones que deben hacerse, el enfoque bayesiano es al menos abierto acerca de las suposiciones que se están haciendo (“todos los modelos son incorrectos”).

Una limitación teórica más con el enfoque bayesiano es que solo permite asignar probabilidades a cada hipótesis / proposición. Teorías alternativas como la teoría de Dempster-Shafer permiten que las probabilidades se asignen a combinaciones de eventos, es decir, hay una mayor flexibilidad / generalización sobre un enfoque bayesiano.

Me pareció interesante que las personas sigan hablando sobre el molesto anterior sin mencionar el uso de un modelo dimensional infinito (o en la práctica muy grande), es decir, dejar que los datos hablen por sí solos antes de elegir. El enfoque se denomina modelado no paramétrico bayesiano, porque en lugar de un solo parámetro, se intentan los parámetros infinitos (o muy grandes). Se trata de estadísticas bayesianas en dimensiones infinitas, con el fin de apuntar a lo anterior.

Algunos libros para leer al respecto:

1- Fundamentos de la inferencia bayesiana no paramétrica por Subhashis Ghosal, Aad van der Vaart (2017)

2-Fundamentos matemáticos de los modelos estadísticos de dimensión infinita (2017)

Buena suerte en tu lectura avanzada de matemáticas

¡Esos anteriores molestos!

Antes, definitivamente. Creo que también es el cuello de botella de la mayoría de los algoritmos de inteligencia artificial. Todo se basa en los datos de capacitación, y la forma en que se seleccionan los datos de capacitación depende realmente del tema.