Вероятности, P-Значения И Кризис Воспроизводимости

Или: Как переход от публикации P-значений к публикации функций правдоподобия поможет справиться с кризисом воспроизводимости: личное мнение Лизера Юдковски.



Вероятности, P-значения и кризис воспроизводимости

Комментарий переводчика: Юдковский, автор ХПМОР , создатель Менее неправильно и т. д. и т. п.

, изложил свою позицию о полезности байесовской статистики в естественных науках в форме диалога.

Это классический диалог античности или эпохи Возрождения, с персонажами, излагающими идеи, колкостями, перемежающимися запутанными аргументами, и неизбежно тупым Симпличио.

Диалог довольно длинный, минут двадцать читать, но, на мой взгляд, оно того стоит. Отказ от ответственности

Этот диалог был написан сторонник байесовского подхода .

Замечания Ученого в диалоге ниже могут не пройти.

идеологический тест Тьюринга к частотности.

Возможно, они не отдают должного аргументам и контраргументам сторонников теории вероятности.

Автор не ожидает, что описанные ниже предложения будут приняты широким научным сообществом в ближайшие десять лет. И все же написать стоило.

Если вы еще не знакомы с правилом Байеса, на сайте Arbital есть подробное введение .

Модератор: Добрый вечер.

Сегодня в нашей студии: Ученый практик в области.

химической психологии или что-то в этом роде; его противник Байесовский , который намеревается доказать, что кризис воспроизводимости в науке можно каким-то образом преодолеть, заменив P-значения чем-то из байесовской статистики.

Студент: Простите, как это пишется? Модератор: .

и, наконец, невежественный Студент справа от меня.

Модератор: Байесовский , не могли бы вы сначала рассказать нам, в чем суть вашего предложения? Байесовский: Грубо говоря, в этом суть.

Допустим, у нас есть монета.

Подбрасываем шесть раз и смотрим серию «ОООООО».

(прим.

пер.

: здесь и далее О – Орел, R – Решка) .

Стоит ли нам подозревать, что с монетой что-то не так? Ученый: Нет. Байесовский: Монета здесь просто для примера.

Предположим, мы предлагаем выборке добровольцев тарелку с двумя печеньями: одно с зеленой посыпкой, другое с красной посыпкой.

Первые пять человек берут зеленое печенье, а шестой – красное.

Правда ли, что люди предпочитают печенье с зеленой посыпкой, или этот результат лучше считать случайным? Студент: Вероятно возможно подозревать , что, возможно, люди предпочитают зеленую посыпку.

По крайней мере, студенты-психологи, которые склонны добровольно участвовать в странных экспериментах, больше любят зеленую посыпку.

Даже после шести наблюдений можно это заподозрить, хотя подозреваю, что здесь есть какой-то подвох.

Ученый: Я пока не думаю, что это подозрительно.

Многие гипотезы выглядят многообещающе при N=6, но не подтверждаются при N=60. Байесовский: Лично я подозреваю, что наши волонтеры не предпочитаю красную посыпку или, по крайней мере, не очень-то это предпочитают. Но в целом я придумал эти примеры только для того, чтобы показать, как рассчитываются P-значения в современной научной статистике, и что в них не так с байесовской точки зрения.

Ученый: Не можете ли вы придумать более реалистичный пример с 30 добровольцами? Байесовский: Это возможно, но Студент все равно ничего не понимает. Студент: Это точно.

Байесовский: Итак, уважаемые знатоки: Орел, орел, орел, орел, орел, решка.

Внимание, вопрос: вы назовете этот результат «статистически значимым» или нет? Ученый: Господин ведущий, это не имеет значения.

При нулевой гипотезе о том, что монета честная (или при аналогичной нулевой гипотезе о том, что цвет посыпки не влияет на выбор печенья), тот же или более выраженный результат можно получить в 14 из 64 случаев.

Студент: Ага.

Я правильно понимаю: Это потому, что исходы ОООООО и РРОРРР мы считаем «одинаковыми или более выраженными», всего их 14, а общее количество возможных исходов при 6 бросках равно 2 6 =64. 14/64 составляет 22%, что выше 5%, поэтому результат не считается значимым при p<0.05 level. So? Ученый: Верно.

Еще отмечу, что на практике, даже если результат ОООООО, останавливать эксперимент и писать статью о том, что монета всегда выпадает орлом, не стоит. Байесовский: Дело в том, что если вы можете останавливаться подбрасывая монету в любой момент, вы должны спросить себя: «Насколько вероятно, что я найду момент, чтобы остановить эксперимент, при котором количество орлов окажется общедоступнымЭ» И это совершенно другая история в парадигме P-value. Ученый: Я имел в виду лишь то, что всего шесть экспериментов — это несерьезно, даже если мы изучим цвет печенья.

Но да, вы тоже правы.

Студент: Почему вообще имеет значение, смогу ли я перестать бросать монету или нет? Байесовский: Какой замечательный вопрос.

Ученый: Дело в том, что значения P сложны.

Вы не можете просто взять цифры, закинуть их в программу и опубликовать то, что программа выдает. Если вы заранее решили подбросить монетку ровно шесть раз и затем остановиться независимо от результата, то результат ОООООО или РРРРРР будет получен в среднем 2 раза из 64, или 3,1% случаев.

Это важно на п.

<0.05 level. But let’s assume that in reality you are a deceitful and unscrupulous forger. Or just an incompetent student who doesn’t understand what he’s doing. Instead of pre-selecting the number of tosses, you toss and toss the coin until you get a result that looks statistically significant. They было бы статистически значимый, если Вы заранее решили подбросить монетку ровно одинаковое количество раз.

Но на самом деле вы не решили этого заранее.

Вы решили остановиться только после того, как получили результаты.

Вы не можете этого сделать.

Студент: Ладно, я где-то читал об этом, но так и не понял, что в этом плохого.

Это мое исследование, и мне лучше знать, достаточно ли данных или нет. Ученый: Весь смысл P-значений в том, чтобы создать тест, который не сможет пройти нулевая гипотеза.

Другими словами, убедитесь, что дым без огня не случается слишком часто.

Для этого необходимо организовать исследования таким образом, чтобы не порождать «статистически значимых» открытий при отсутствии искомого явления.

Если подбросить монету ровно шесть раз (и заранее определиться с этим числом), то вероятность выпадения шести орлов или шести решек из честной монеты составляет менее 5%.

Если ты бросишь монетку столько, сколько тебе нравится раз, и после каждого броска пересчитывать P-значение ( притворяясь , что количество бросков было известно заранее), то шанс получить его раньше или позже меньше p<0.05 гораздо более 5%.

Поэтому такой эксперимент обнаруживает дым без огня гораздо чаще, чем в 1 из 20 случаев.

Байесовский: Personally, I like to phrase this problem something like this: Let's say you flip a coin and get OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOP If at the same time you, in the depths of your heart known only to Allah (for Allah is wise and knowledgeable), have decided on количество бросков заранее , то результат несущественен; р=0,22. Если после трех месяцев поста вы дали обет Святому Франциску бросить монету пока не приземлится головой , то этот же результат является статистически значимым с довольно хорошим p=0,03. Потому что вероятность того, что при вероятности орла 1:1 вам придется ждать шесть и более бросков, равна 1/32. Студент: Что? Ученый: Это скорее пародия, конечно.

На практике никто не будет подбрасывать монету до тех пор, пока она не упадет на одну орлу, а затем не остановится.

Но на самом деле байесианец прав; P-значения работают именно так.

Строго говоря, мы пытаемся выяснить, насколько редок результат среди тех, кого мы мы могли бы получать.

Человек, подбрасывающий монету в первую голову, может получить результаты {P, OP, OOR, ОООР, ОООООР, ОООООР.

} и так далее.

Класс результатов, при которых выполнено шесть и более бросков, — {ОООООР, ООООООР, ООООООО.

}, общая вероятность которого равна 1/64 + 1/128+ 1/256. = 1/32. А человек, подбросивший монету ровно шесть раз, получает один из результатов класса {РРРРРР, ОООООР, ООООРО, ООООООРР.

}, состоящего из 64 элементов.

Для целей нашего эксперимента ООООО эквивалентно ООООО, ООООО и тому подобное.

Так что да, все это довольно противоречиво.

Если бы мы действительно провели первый эксперимент, ОООООР было бы значительным результатом, что маловероятно для честной монеты.

И если бы мы провели второй эксперимент, он не был бы ОООООО значительным, потому что даже с честной монетой время от времени что-то случается.

что-то вроде того .

Байесовский: Вас случайно не беспокоит, что результаты эксперимента зависят от того, что вы думаете? Ученый: Это вопрос совести.

Любое исследование будет иметь мало ценности, если лгать о его результатах, то есть буквально лгать о том, какая сторона медали выпала.

Если ты лжешь о какой эксперимент проводился - эффект будет тот же.

Так что нужно просто взять и честно сказать, каковы именно были правила бросков.

Конечно, содержимое головы учёного менее очевидно, чем то, какой стороной монета повёрнута.

Поэтому всегда есть возможность подправить параметры анализа, не писать, как определялось количество испытуемых, выбрать тот статистический тест, который подтверждает понравившуюся гипотезу.

При желании можно придумать много чего.

И это будет проще, чем подделать исходные данные.

По-английски это называется p-hacking. А на практике, конечно, для создания дыма без огня используются гораздо менее очевидные способы, чем дурацкая нулевая гипотеза, придуманная постфактум.

Это серьезная проблема, и в какой-то степени с ней связан кризис воспроизводимости, хотя и неясно, в какой степени.

Студент: Это.

звучит разумно? Наверное, это одна из тех вещей, в которых нужно долго разбираться и перебирать кучу примеров, и тогда все станет ясно? Байесовский: Нет. Студент: С точки зрения? Байесовский: В смысле «Студент, ты был прав с самого начала».

Если что экспериментатор думает , никак не влияет на то, какой стороной упадет монета, то его мысли не должны влиять на то, что результаты броска говорят нам о Вселенной.

Дорогой мой Студент, статистика, которую вам преподают, есть не что иное, как переусложненная груда кривых костылей, которые даже не удосужились сделать внутренне непротиворечивыми.

Ради бога, она выдает другой неправильные результаты в зависимости от того, что происходит у вас в голове! И это гораздо более серьезная проблема, чем склонность некоторых ученых слегка приврать в «Материалах и методах».

Ученый: Это.

серьёзное заявление, мягко говоря.

Но скажите, я вас спрашиваю: что нам, несчастным, делать? Байесовский: Проанализируйте следующим образом: Этот конкретный результат ОООООР можно получить шестью подбросами идеально сбалансированной монеты с вероятностью 1/64, или примерно 1,6%.

Предположим, мы уже заподозрили, что наша монета не идеально сбалансирована.

И не просто неидеально, а так, что в среднем пять раз из шести попадает орлом.

Это, конечно, дикое упрощение, но к реалистичным гипотезам я перейду чуть позже.

Итак, эта гипотетическая читерская монета выдаёт последовательность ОООООР с вероятностью (5/6) 5 *(1/6) 1 .

Это примерно 6,7%.

Итак, у нас есть две гипотезы: «Эта монета самая распространенная» и «Монета выпадает орлом 5/6 раз».

Этот частный результат во втором случае в 4,3 раза более вероятно Чем в первом.

Вероятность выпадения последовательности ОООООР для еще одной гипотетической читерской монеты, которая выпадет орлом 5 раз из 6, составляет 0,01%.

Так что если кто-то вдруг подумал, что перед нами вторая монета, то у нас теперь есть хороший аргумент против его гипотезы.

Этот конкретный результат в 146 раз более вероятен для честной монеты, чем для монеты, у которой орел выпадает только один раз из шести.

Точно так же наши гипотетические любители красного печенья с гораздо меньшей вероятностью будут есть зеленое.

Студент: Ладно, думаю, я понимаю математику.

Но, честно говоря, я не понимаю, в чем его смысл.

Байесовский: Сейчас объясню, но сначала обратите внимание на вот что: результаты моих расчетов ни за что не зависеть от Почему Монету подбросили ровно шесть раз.

Возможно, после шестого броска вы решили, что данных уже достаточно.

Возможно, после серии из пяти бросков Намагири Тайяр и посоветовал мне еще раз подбросить монету.

Монету это не волнует. Факт остается фактом: вероятность появления ОООООР в четыре раза ниже для честной монеты, чем для монеты, которая выпадает орлом пять раз из шести.

Ученый: Согласен, у ваших расчетов есть как минимум одно полезное свойство.

Что дальше? Байесовский: А затем публикуете результаты в журнале.

Желательно вместе с необработанными данными, потому что тогда любой сможет вычислить вероятность любой гипотезы.

Допустим, кого-то вдруг заинтересовала гипотеза «Орел выпадает в 9 случаях из 10, а не в 5 раз из 6».

В этом случае серия наблюдений ОООООР имеет вероятность 5,9%, что несколько меньше нашей гипотезы о пяти орлах из шести подбрасываний (6,7%), но в 3,7 раза больше, чем гипотеза об идеально сбалансированной монете.

(1,6%).

Заранее выдвигать все возможные гипотезы невозможно, да и не нужно.

Достаточно опубликовать полные данные — тогда любой, у кого есть гипотеза, сможет легко вычислить нужные ему вероятности.

Байесовская парадигма требует публикации необработанных данных, поскольку основное внимание уделяется конкретный результат , а не на какой-то класс предположительно идентичных результатов.

Ученый: Я согласен с вами в этом; публикация полных наборов данных является одним из наиболее важных шагов на пути преодоления кризиса воспроизводимости.

Но лично я не понимаю, что мне делать дальше делать со всеми этими «А во много раз более вероятно, чем Б».

Студент: Я тоже.

Байесовский: Это не совсем тривиально.

вы читаете нашу введение в правило Байеса ? Студент: Большой.

Просто мне не хватило еще одного трехсотстраничного учебника по статистике.

Байесовский: На самом деле ты сможешь прочитать это за час .

Просто все в буквальном смысле.

не тривиально , то есть требует пояснений.

Но ладно, за неимением полноценного введения, попробую что-нибудь придумать.

Скорее всего это будет звук разумно и логично Действительно верно - но не факт, что самоочевидно.

Идти.

Существует теорема, которая доказывает правильность следующих рассуждений: (Байесиан вздыхает) Байесовский: Допустим, профессор Плюм и мисс Скарлет подозреваются в убийстве.

Изучив биографии обоих, мы предполагаем, что Профессору было бы вдвое легче убить человека, чем мисс Скарлет. Начнем с этого предположения.

Однако выяснилось, что погибший был отравлен.

Мы знаем, что если профессор Плюм собирается кого-то убить, то с вероятностью 10% он применит яд (и в 9 случаях из 10 он предпочтет, например, револьвер).

Мисс Скарлет, если решит убить, с вероятностью 60% использует яд. Другими словами, использование профессором яда в шесть раз менее вероятно чем использовать яд мисс Скарлет. Поскольку у нас есть новая информация, а именно способ убийства, мы должны обновить наше предположение и учесть, что вероятность того, что Плам станет убийцей, примерно в три раза ниже: 2 * 1/6 = 1/3. Студент: Я не уверен, что понял это.

Что вообще означает фраза «Профессор Плам в три раза реже убивает, чем мисс Скарлет»? Байесовский: Это означает, что если у нас нет других подозреваемых, то вероятность того, что жертву убила именно Слива, равна 1/4. Оставшиеся 3/4 — это вероятность того, что убийцей является мисс Скарлет. Поэтому вероятность вины профессора в три раза ниже, чем у мисс Скарлет. Ученый: Теперь я хочу знать, что вы подразумеваете под «вероятностью вины».

Плюм либо совершил убийство, либо не совершал его.

Мы не можем просмотреть выборку убийств и обнаружить, что Плюм на самом деле виновен в четверти из них.

Байесовский: Я надеялся не ввязываться в это, ну да ладно.

Мой добрый Ученый, я имею в виду, если бы вы предложили мне ставку 1:1 на то, убил ли Плюм жертву или нет, я бы поспорил, что он этого не сделал.

Но если бы условия пари заключались в том, что я заплачу вам 1 доллар, если он невиновен, а вы заплатите мне 5 долларов, если он виновен, я бы с радостью поставил на вину.

Президентские выборы 2012 года состоялись только один раз, и «вероятность победы Обамы» столь же концептуально расплывчата, как и «вероятность вины Плюма».

Но если бы 7 ноября вас попросили поставить 10 долларов на Обаму и пообещали бы 1000 долларов в случае его победы, вы вряд ли бы отказались от такой ставки.

В целом, когда рынки прогнозов и крупные пулы ликвидных ставок принимают ставки 6:4 на событие, это событие происходит примерно в 60% случаев.

Рынки и пулы хорошо откалиброванный в соответствии с вероятностями в этом диапазоне.

Если бы они были плохо откалиброваны, то есть если бы события, на которые принимаются ставки с соотношением 6:4, происходили в 80% случаев, то кто-то смог бы это заметить и разбогатеть на таких ставках.

При этом он будет повышать цену ставки до тех пор, пока рынок не станет хорошо откалиброванным.

А поскольку события с рыночной оценкой вероятности в 70% на самом деле происходят примерно в 7 случаях из 10, то я не понимаю, зачем настаивать на том, что такая вероятность бессмысленна.

Студент: Я признаю звуки искренне.

Но это наверное только я, а на самом деле есть целая куча умных аргументов за и против.

Байесовский: Множество аргументов действительно есть , но общий вывод из этого таков, что ваша интуиция довольно близка к истине.

Ученый: Хорошо, мы вернемся к этому позже.

Что, если есть два агента, оба, по вашему мнению, «хорошо откалиброваны», но один из них заявляет «60%», а другой — «70%»? Байесовский: Допустим, я подбрасываю монету и не смотрю, какой стороной она упадет. В данном случае мое незнание — это не информация о монете, это информация обо мне.

Оно существует в голове, а не во внешнем мире, как и белые пятна на карте не означают, что в этом месте нет территории.

Если вы посмотрели на монету, а я нет, то вполне логично, что мы с вами находимся в разных состояниях неуверенности в ее отношении.

Учитывая, что я не уверен на сто процентов, мне имеет смысл выразить свою неуверенность в терминах вероятности.

Существует триста теорем которые утверждают, что если чье-то выражение неуверенности не является по сути распределение вероятностей - вот, в общем, то, что ему нужно.

Почему-то всегда случается, что если мышление агента в условиях неопределенности нарушает любую из стандартных аксиом теории вероятностей, земля разверзается, вода превращается в кровь, а с неба сыпятся доминируемые стратегии и заведомо проигрышные ставки.

Ученый: Ладно, здесь я ошибся.

К этому мы тоже вернемся, но сначала ответьте на мой вопрос: что нам делать с вероятностями после того, как мы их получили? Байесовский: Согласно законам теории вероятностей, эти вероятности и есть доказательство.

Именно они заставляют нас изменить наши априорные вероятности с 2:1 в пользу Плюма на 3:1 в пользу Скарлет. Если у меня есть две гипотезы и правдоподобные данные для обеих, то мне следует изменить свое мнение описанным выше способом.

Если я изменю это как-то по-другому, то небеса разверзнутся, стратегии выпадут и так далее.

Теорема Байеса: Это не просто статистический метод, это ЗАКОН.

Студент: Извините, но я все еще не понимаю.

Допустим, мы проводим эксперимент. И, скажем, полученные результаты в шесть раз более вероятны, если бы герр Трупп был убит профессором Пламом, чем если бы убийцей была мисс Скарлет. (прим.

- Студент, видимо, перепутал вероятность применения яда двумя убийцами.

Именно об этой взаимосвязи пойдет речь ниже) .

Стоит ли нам арестовывать профессора или нет? Ученый: Я думаю, сначала нам нужно придумать более или менее реалистичную априорную вероятность, например» априори Я считаю, что существует 20%-ная вероятность того, что Плам убил Труппу».

Затем это значение необходимо умножить на отношение правдоподобия 6:1, чтобы получить апостериорное отношение вероятности 3:2, что Плам действительно убил Труппу.

Тогда мы можем сказать, что Плюм действительно убил Труппу.

виновен с вероятностью 60%, а дальше пусть прокуратура разбирается.

Байесовский: Нет .

Ради Бога! Вы действительно думаете, что именно так работает байесовская статистика? Ученый: Разве не так это работает? Я всегда думал, что его главная сила в том, что он дает нам апостериорные вероятности, которых на самом деле нет у P-значений, а его главный недостаток в том, что он требует априорных вероятностей.

Поскольку их приходится брать более или менее из воздуха, правильность апостериорных вероятностей можно оспаривать до скончания веков.

Байесовский: Статьи должны быть опубликованы авторитет .

Точнее, нам нужно опубликовать сырые данные и посчитать по ним несколько интересующих нас вероятностей.

Но уж точно не апостериорные вероятности.

Студент: Я снова в замешательстве.

Что такое апостериорные вероятности? Байесовский: Апостериорная вероятность - это утверждение типа «С вероятностью 60% герр Трупп был убит профессором Пламом».

Как уже заметил мой коллега, такие утверждения не следуют из P-значений.

И, по-моему, им не место в экспериментальных статьях, потому что это а не результаты эксперимента .

Студент: Но.

ладно, Ученый, вопрос к тебе: допустим, мы получили результаты с помощью p < 0.01, that is, something with a probability of less than 1% under the null hypothesis "Professor Plum did not kill Herr Trupp." Should we arrest him or not? Ученый: Во-первых, это не реалистичная нулевая гипотеза.

Скорее всего, нулевой гипотезой будет что-то вроде «Никто не убивал господина Труппа» или «все подозреваемые одинаково виновны».

Но даже если бы описанная вами нулевая гипотеза сработала, даже если бы мы могли отвергнуть невиновность Плюма с помощью p<0.01, we still couldn't say that Plume is guilty with a 99% probability. P-values don't tell us that. Студент: А Что они тогда сообщают? Ученый: Они сообщают, что наблюдаемые данные попадают в некоторый класс возможных результатов и что результаты этого класса наблюдаются менее чем в 1% случаев, если нулевая гипотеза верна.

P-значение не значит больше Ничего .

Ты не можешь просто уйти с п.

<0.01 to "Professor Plume is 99% guilty." A Bayesian will likely be better able to explain why than I am. In general, in science you cannot interpret one thing as something else. The numbers mean exactly what they mean, no more and no less. Студент: В целом отлично.

Я сначала не понял, что делать с вероятностями, но Сейчас Я до сих пор не понимаю, что делать с P-значениями.

Какой эксперимент необходим, чтобы наконец отправить Плюма в тюрьму? Ученый: На практике? Если еще пара экспериментов в других лабораториях подтвердит его вину с п.

<0.01, then most likely he Действительно виновный Байесовский: А «кризис воспроизводимости» — это когда позже поднимают этот вопрос и выясняется, что он это сделал.

Нет совершили убийства.

Ученый: В целом да.

Студент: Как-то неприятно получается.

Ученый: Жизнь вообще штука неприятная.

Студент: Итак.

байесианец, у вас, наверное, есть аналогичный ответ? Что-то вроде: если отношение правдоподобия достаточно велико, скажем, 100:1, то на практике соответствующую гипотезу можно считать истинной? Байесовский: Есть, но это несколько сложнее.

Допустим, я подбрасываю монету 20 раз и получаю ООООООООООООРРОР.

Загвоздка в том, что вероятность гипотезы «Монета гарантированно выдаст последовательность ОООООООРОРРОООООООРРОР» примерно в миллион раз выше, чем вероятность гипотезы «Монета с одинаковой вероятностью выпадет орлом или решкой».

На практике, если вы не передадите мне эту гипотезу в запечатанном конверте до начала эксперимента, я буду считать ее сильно переобученной.

Мне придется дать этой гипотезе штраф за сложность.

наименее в 2 20 :1, потому что одно только описание последовательности занимает 20 бит. Другими словами, понизьте априорную вероятность настолько, чтобы она более чем компенсировала преимущество в вероятности.

И это не единственный подводный камень.

Но тем не менее , если понять, как и почему работает правило Байеса, то в каждом конкретном случае можно разобраться по ходу дела.

Если отношение правдоподобия Плюма к любому другому подозреваемому составляет 1000:1, а подозреваемых всего шесть, то мы можем предположить, что априорная вероятность вряд ли будет значительно выше 10:1 против того, что он является убийцей.

Если да, то можно предположить, что он виновен с вероятностью 99%.

Ученый: Но тем не менее, напишите об этом в статье Нет расходы? Байесовский: Верно.

Как сформулировать.

Ключевое условие байесовского анализа состоит в том, что необходимо учитывать все релевантная информация.

Вы не можете исключить данные из анализа только потому, что они вам не нравятся.

Это фактически ключевое условие науки как таковой, независимо от используемой статистики.

Есть немало статей, выводы которых были получены только потому, что какой-то фактор не был учтен или выборка была нерепрезентативной по какому-то параметру.

Почему я говорю об этом? И кроме того, откуда мне (как экспериментатору) знать, что такое «вся релевантная информация»? Кто я такой, чтобы рассчитывать апостериорные вероятности? Возможно, кто-то опубликовал статью, содержащую дополнительные данные и дополнительное правдоподобие, которые мне следует принять во внимание, а я ее еще не читал.

Поэтому я просто публикую свои данные и свои функции правдоподобия, и все! Я не могу утверждать, что сделал обзор Все аргументы и теперь могут предложить надежные апостериорные вероятности.

А даже если бы я мог, через неделю могла бы выйти еще одна статья, и эти вероятности устарели бы.

Студент: Грубо говоря, экспериментатор должен просто опубликовать свои данные, посчитать для них несколько вероятностей и всё? А потом пусть кто-то другой решает, что с ними делать? Байесовский: Кому-то придется выбрать априорные вероятности — равные, или с максимальной энтропией, или со штрафами за сложность, или какие угодно — затем попытаться собрать все возможные данные, вычислить вероятности, убедиться, что результат не бредовый , И так далее.

И их все равно придется пересчитывать, если через неделю выйдет новая статья.

Студент: Звучит красиво трудоемкий .

Байесовский: Было бы намного хуже, если бы мы провели метаанализ P-значений.

Обновите байесовские вероятности много Полегче.

Достаточно просто умножать старые апостериорные вероятности в новые функции правдоподобия и нормализовать.

Все.

Если эксперимент 1 дает отношение правдоподобия 4:1 для гипотез A и B, а эксперимент 2 дает отношение правдоподобия 9:1 для обеих, то вместе они дают соотношение 36:1. Вот и все.

Студент: Разве вы не можете сделать это с P-значениями? Не означает ли один эксперимент с p=0,05 и другой эксперимент с p=0,01, что на самом деле p<0.0005? Ученый: Нет .

Байесовский: Дорогие зрители, обратите внимание на мою высокомерную улыбку.

Ученый: Но меня все еще беспокоит необходимость придумывать априорные вероятности.

Байесовский: Почему вас это беспокоит больше, чем то, что все решили рассмотреть один эксперимент и две повторности с p<0.01 as the criterion for Truth? Ученый: Вы хотите сказать, что выбор априорных значений не более субъективен, чем интерпретация P-значений? Хм.

Я имел в виду, что требование, скажем, p<0.001 should ensure objectivity. But then you will answer that the figure 0.001 (instead of 0.1 or 1e-10) is just as foolish. Байесовский: И я добавлю к этому, что требование любого произвольного значения P менее эффективно, чем высасывание априорной вероятности из того же пальца.

Одну из первых теорем, грозившую нарушителям аксиом вероятности египетским наказанием, доказал Абрахам Вальд в 1947 году.

Он пытался описать всё приемлемые стратегии , называя стратегией некий способ реагирования на то, что вы наблюдаете.

Конечно, разные стратегии в разных обстоятельствах могут быть более или менее прибыльными.

Приемлемая стратегия он назвал ту, в которой не доминирует никакая другая стратегия при всех возможных условиях.

Итак, Уолд обнаружил, что класс приемлемых стратегий совпадает с классом стратегий, которые содержат распределение вероятностей, обновляют его на основе наблюдений с помощью правила Байеса и оптимизируют функцию полезности.

Студент: Извините, а вы говорите по-русски? Байесовский: Если вы делаете что-то в отношении того, что наблюдаете, и получаете больше или меньше денег, например, в зависимости от того, каков реальный мир, то верно одно из двух.

Или Ваша стратегия в каком-то смысле содержит распределение вероятностей и обновляет его в соответствии с правилом Байеса: или Есть какая-то другая стратегия, которая никогда не уступает вашей, а иногда и превосходит ее.

То есть, например, вы говорите: «Я не брошу курить, пока не увижу статью, доказывающую связь курения и рака с п.

< 0.0001.” At least in theory, there is a way to say, “In my opinion, there is a 0.01% chance that smoking is associated with cancer.” What are your probabilities?”, which will be no worse than the first formulation, no matter what one’s a priori probabilities for the existence of such a connection are. Ученый: Серьезно? Байесовский: Ага.

С этой теоремы началась байесовская революция; С тех пор оно постепенно набирает обороты.

Стоит отметить, что Вальд доказал свою теорему спустя пару десятилетий после того, как были изобретены P-значения.

Это, на мой взгляд, объясняет, как так получилось, что вся современная наука оказалась завязана на заведомо неэффективной статистике.

Ученый: То есть вы предлагаете отказаться от P-значений и вместо этого публиковать только отношения правдоподобия? Байесовский: Короче говоря, да.

Ученый: Я как-то не очень верю в идеальные решения, подходящие для любых условий.

Я подозреваю — пожалуйста, не воспринимайте это как оскорбление, — что вы идеалист. По моему опыту, разные ситуации требуют разных инструментов, и было бы неразумно выбрасывать все, кроме одного.

Байесовский: Что ж, я готов объяснить, в чем я идеалист, а в чем нет. Сами по себе функции правдоподобия не решат проблему воспроизводимости.

Эту проблему невозможно полностью решить, просто сказав всем использовать более качественную статистику.

Популярность журналов открытого доступа не зависит от компромисса между правдоподобием и P-значениями.

Проблемы с системой отзывов тоже от этого не зависят. Ученый: А все остальное зависит? Байесовский: Не все, но они Теги: #Популярная наука #математика #Статистика в ИТ #статистика #математическая статистика #Байесовские методы

Вместе с данным постом часто просматривают: