Цифровой Вытрезвитель

" Я хочу быть объективным.
Я знаю, что спасение человечества и нашей планеты – в объективности.
(Виктор Конецкий, «Соленый лед»)

Обычно я провожу годы, обдумывая свои статьи.
Сегодня я поделюсь идеями, которые крайне далеки от завершения.
Многим из них требуется файл размером с самолет, а некоторые вообще не летают. Но я считаю, что если мы не поделимся ими сейчас, другая возможность может никогда не появиться.
Я верю в «частичные идеи».
Бывает, что человек прокручивает в голове половину чего-то важного.
А у кого-то есть вторая половинка.
Чтобы мысли встретились и щелкнули, кто-то должен опубликовать свою половину.
Сегодня я это делаю.
Считайте это приглашением к обсуждению, а не рецептом.

Либретто
Однажды мне захотелось написать небольшой скрипт машинного обучения (ML), который объединил бы прогнозы моих друзей по политическим и экономическим вопросам в единую картину.
Просто для того, чтобы лучше оценить будущее, а не думать в одиночку или усреднять мнения.
Проблема нетривиальная, но в некоторых настройках вполне решаемая.
В процессе работы я понял, что система, предсказывающая факты будущее в принципе может «предсказать» уже произошедшие факты.
То есть при определенных допущениях отличать в новостях правду от лжи.
Я бы долго вынашивал эту мысль, но потом все это произошло, и я понял, что лучше не затягивать.
Никогда не знаешь, что будет завтра.
Поэтому я делюсь тем, что у меня есть.

Почему это важно?
За последние сто лет^[ ¹⁰ ^] технологии создания идеологических иллюзий развивались лавинообразно.
Реклама, маркетинг и пропаганда опираются на колоссальную мощь средств массовой информации, талантливых креативщиков, хорошо изученные законы психологии, современные средства коммуникации, а в последнее время и на «ягоды» ИИ, такие как дипфейки или теория социальных сетей.
.
Практически каждый может создать иллюзию чего угодно, убедительную для 90% населения, за не слишком большие деньги.
Технологии проверки иллюзий на истинность отстали.
Собственно, кроме прорыва в статистике, ничего особенно нового в 20-21 веке не произошло.
Основными инструментами человека, желающего понять картину мира, по-прежнему остаются «тщательная проверка экспертом» и «тщательная проверка фактов».
Как правило, они цельные и изготавливаются практически вручную.
Результат очевиден.
" С самого своего возникновения письмо имело, казалось бы, единственного врага — ограничение свободы выражения мысли.
А теперь оказывается, что свобода слова едва ли не опаснее для мысли.
Запрещенные мысли могут циркулировать тайно, но что прикажете делать, если значительный факт утонул в потоке фальсификаций, а голос истины находится в оглушительном грохоте и, хотя и звучит свободно, но не может быть услышан? Развитие информационных технологий привело лишь к тому, что самый громкий голос, даже самый лживый, слышен лучше всего.
(Станислав Лем, «Голос Господень») Чтобы улучшить продажи, иногда проще вложить деньги в рекламу, чем в улучшение продукта.
Ибо.
ладно, не буду говорить о политике.
И эта проблема повсеместна.
и характерен для любой страны мира.
Я считаю, что нынешняя ситуация угрожает выживанию человечества.
Если каждая страна, каждая группа, каждый бизнес будет проводить свою линию, находясь в пузыре собственных иллюзий, серьезные столкновения в физическом мире неизбежны.
Нам нужен «цифровой вытрезвитель».
Причём, он основан не на ручной «фактчекинге» (какое убогое слово!), но и на современных технологиях обработки информации и, в частности, машинном обучении.
Вот почему я пишу здесь.
Здесь собрались умные, энергичные, знающие люди, готовые проводить эксперименты, хотя бы просто ради любопытства.
Вся надежда на них.

Что такое истина? (Общие Соображения)
Я привык опираться на следующую иерархию «судов истины» высказываний:
Личная уверенность.
Хорошо работает в повседневных, повседневных делах.
Корова скользит на льду в нетривиальных ситуациях.

Мнение большинства.
Уже лучше.
Но, очевидно, это не последняя мера.
Большинство людей тоже иногда допускают ошибки.
Большинством можно манипулировать.
И даже если ты убедишь каждый что реактор безопасен, у реактора еще может быть свое «мнение» на эту тему.

Математическое доказательство.
Это то же самое «мнение большинства», но построенное и проверенное по правилам, радикально снижающим вероятность ошибки.
К сожалению, математика тоже не всесильна.
Дьявол в том, что одно и то же явление можно описать разными математическими формулировками, в результате чего получается разная «истина».
Для галочки отметим, что сами правила и аксиоматики не все одинаково признаются всеми математиками, хотя для нас этот эффект пренебрежимо мал.

Физическая реальность и физический эксперимент. Трудно объявить химию фикцией, если разработанные на ее основе растворители растворяются, что и прогнозируется.
Квантовая механика верна, по крайней мере, в полупроводниках, потому что телефоны работают в руках.
Парацетамол снимает боль при определенном использовании, даже если вы не верите в медицину.

Смерть, в том числе массовая, при игнорировании «указов» предыдущей власти.
Мне очень хочется этого избежать, поэтому и пишу этот текст.
[Верующие помещают здесь еще один уровень – «божественную истину».
Я не берусь судить его.
]
Сегодняшние системы проверки достоверности информации опираются, как правило, на авторитеты №1 («экспертное заключение») или №2. При этом потенциал даже второго уровня используется лишь частично.
Вопрос часто решается путем голосования, т.е.
усреднения мнений.
Между тем, как методы машинного обучения могут^[ ²⁰ ^] объединить очень сложные, часто на первый взгляд противоречивые оценки в значимое целое гораздо более эффективными способами.
Итак, представьте, что один человек оценивает расстояние до города в километрах, второй в милях, а третий в количестве возможных поездок туда и обратно за день.
Если их усреднить, то получится ерунда.
Но нейронная сеть или случайный лес могут объединить их утверждения в значимый и очень точный результат. Хабр, возможно, и стал успешной социальной сетью для умных людей отчасти потому, что придавал разный «вес» голосам своих участников, но это все равно очень простой вариант. Потенциал уровней №3 и №4, как правило, затронут лишь слегка.
Да, Википедия обычно предоставляет ссылку на эксперимент, подтверждающий статью.
А вот статья, расположенная в 3-4 ссылках от этой, вполне может содержать не слишком явное противоречие результатам эксперимента.
Потому что ни у кого нет времени и сил вручную отслеживать семантическую связность в таком многомерном пространстве.
И это также предполагает, что Википедия не подвергается скоординированному давлению со стороны большой группы людей, явно уверенных в своей правоте и способных просто выкинуть указанную ссылку.
Отслеживание согласованности между элементами массива данных — едва ли не основной способ обнаружения фейков.
Ведь вы можете создать любое видео, написать любой текст, приписать его любым авторам.
Цифровая подпись будет лишь доказывать, что «А не подписывал это известной нам подписью» или что «сообщение не было изменено после его появления», и не более того.
И она ничего не скажет о ее истинности.
Вот перекрестные проверки может определить, согласуется ли информация с совокупностью доказанных знаний или противоречит ей.
Некоторые формы хранения знаний имеют внутреннюю структуру, которая предотвращает ошибки и даже преднамеренные модификации.
Итак, в физике невозможно внезапно изменить массу электрона, не вызвав при этом миллион противоречий, просто повсюду .
Точно так же невозможно объявить, что Гуру X месяц бегает без еды, не нарушая при этом все учебники физики.
Минимум, что можно сделать – это вырезать целую теорию (например, СТО), заменив ее другой.
Но для этого нужен чудовищнейший труд, колоссальный ум и десятилетия, чтобы «связать» все концы, связывавшие ранее СТО.
Этого, кстати, не понимают разного рода сторонники лунного заговора или отрицатели эволюции.
Они думают, что если нашли два-три сомнительных места, то всё, теорию можно выбрасывать на помойку.
Они просто не осознают, что точек стыковки на самом деле тысячи, и что все они нуждаются в проверке.
К сожалению, такой последовательности в современных новостях нет. Журналист, да и вообще кто угодно, может написать что-то, что противоречит не только науке, но даже тому, что было написано месяц назад, и в лучшем случае это обнаруживается немногими читателями.
Более того, в доставке новостей не существует системы, которая бы не позволяла перевернуть смысл с ног на голову мелкими манипуляциями.
Берем речь человека Х, опускаем пару фраз, высовываем какую-то оговорку — и все.
Потому что нет такой совокупности знаний, с которой это могло бы противоречить.
Как глава Ландау будет противоречить физике после аналогичной операции.
Большой массив данных необходим и для борьбы, пожалуй, с главным современным методом введения в заблуждение, называемым «ложью по умолчанию».
Это когда некоторые пиксели на экране креативно закрываются до тех пор, пока оставшиеся не образуют нужное слово.
Каждый из пикселей честно говорит свою правду, но действительно ли это слово написано на экране? Теперь несколько слов о прогнозировании.
Если мы собираемся использовать контролируемое машинное обучение, его нужно будет чему-то обучить.
Размещение меток истинности и ложности в обучающих данных является делом автора и, следовательно, в общем случае произвольным.
«Задавайте любые вопросы, получайте любые ответы».
Поэтому по идее эти векторы должны быть взяты из высших и «твёрдых» «экземпляров» истины, где вероятность ошибки мала.
Даже если вам потом придется каждый раз «бежать» от них по длинным путям к проверяемым утверждениям.
Но даже самый тщательный выбор обучающих векторов не гарантирует правильность разметки.
Есть неверные интерпретации, есть ошибки, в том числе и в физике.
Наконец, есть ошибки.
Для их выявления система должна время от времени обращаться к неизвестным фактам.
никто .
То есть попытаться предсказать будущее, а затем сравнить его с результатом работы.
По крайней мере, в мелочах.
Да, предсказание будущего — очень приятная функция.
Но прежде всего оно должно присутствовать в виде ежедневного unit-теста системы.
Как способ регулярно искать и исправлять в себе ошибки.
В противном случае вы можете быстро потерять связь с реальностью.

Что это не так?
Попробуем рассмотреть системы, в чем-то соответствующие моей идее, но Нет существование.
Это поможет обозначить требования к нему.
Во-первых, и самое главное, это не централизованная система.
Ее работа потенциально может подорвать миллиарды прибылей производителей иллюзий, а теоретическая способность предсказывать будущее будет отдавать аналогичными прибылями.
Если у вещи с такими свойствами будет обнаружен центр или владелец, ее обязательно засекут или перекупят. Следовательно, в системе не должно быть ни хозяина, ни места, ни переключателя.
Это должна быть почти самостоятельная форма жизни, как Биткойн.
И я не хочу произносить слово «блокчейн», но подозреваю, что решение должно как минимум позаимствовать эту технологию.
Отсутствие центра и контроля означает, кстати, невозможность «традиционной» монетизации через оплату или рекламу.
Как ни крути, криптовалюта снова работает. Это не Википедия.
Вики задумана как собрание объективных фактов, и во многих отношениях это работает. Но ей многого не хватает:
Он опирается на мнение большинства.
Что может быть неправильно.
Я хочу, чтобы истина была триангулирована («обратное распространение ошибки») на основе «твердых» фактов, таких как функциональность телефона, основы геометрии или результаты раскопок в точке X.
Не проверяет автоматически сохранение согласия с источником при уходе от него по ссылкам (уже обсуждалось выше)
Из-за стилистических ограничений не все готовы туда писать.
Например, за всю свою жизнь я сделал всего пару незначительных правок.

Он ориентирован в первую очередь на текстовую информацию.

Оно во многом централизовано.
Его можно отменить, заблокировать или выкупить повторно.

Это не традиционная наука с ее системой цитирования источников.
На самом деле научное знание, пожалуй, наиболее близко по организации к тому, что хотелось бы получить.
Но:
Он занимается только тем, что считается «наукой».
А если вы примените ее вполне рабочие методы к чему-то постороннему, то получите либо Шнобелевскую премию, либо удивленное недоразумение.
По какой причине многие люди не замечают науку (которая, по сути, есть не что иное, как рациональное мышление «на стероидах»), считают ее чем-то эзотерическим и в дискуссиях с оппонентами используют ее в том же тоне, что и «магию».

Проверка истинности выводов по ссылкам требует огромного ручного и чрезвычайно высококвалифицированного труда.
Не масштабируется.

Это не современные коммерческие социальные сети типа FB или Twitter.
Да, они принимают информацию в любом формате и от кого угодно.
Но там все оптимизировано не для поиска истины путем обсуждения, а для вовлечения, и ладно бы оно было в виде кошек.
«Хороший» пост обычно вызывает больше всего дискуссий.
То есть чаще неправильно сформулированные, с неряшливыми выводами, наполненными эмоциями.
Социальные сети не находят истины.
Мнения разных людей в них не соединяются в содержательную картину, а, наоборот, сталкиваются головами.
И я хочу ее найти.
В этом смысле «старый трубочный» Живой Журнал еще ближе к этой цели.
По крайней мере в нем ИИ не скрывает в произвольной форме чужие посты.

Кроме того, случайно сделанные правильные выводы или ход рассуждений не используются повторно в других обсуждениях.

Ну, конечно, они централизованные.

Это не рынок прогнозов, такой как Metaculus или Augur:
Сосредоточен на предсказании будущего за счет проверки настоящего.

Поддерживает только очень узкий диапазон форматов вопросов, обычно с двоичным или числовым ответом («Будет ли X избран президентом к дате YЭ»)
Методы объединения мнений устарели.
По крайней мере внешне они выглядят как усреднение или какой-то софтмакс.

Методы, с помощью которых отдельные успешные люди делают правильные прогнозы, скрыты и не могут быть повторно использованы для решения аналогичных задач.

И у Метакула тоже есть центр.
Кстати, в США в 2003-2015 годах закрылось немало весьма успешных рынков предсказаний.

И это, конечно, не Quora, не подобная «экспертная» система и не фактчекинговые организации:
Никакой «проверки реальности»
Опора на мнение единичных «экспертов»
Плюс почти все недостатки вышеперечисленных систем
Это не вычислительная система, которая работает только на компьютерах.
.
Нет только какой-то гигантский распределенный Kubernetes. Причина проста.
Важные, даже критически важные новости, факты, события могут прийти в любом формате.
От видео до текста на любом языке с тончайшими смысловыми нюансами.
Неправильное преобразование этих данных в векторы приведет к сбою.
Автоматические методы «понимания» этой информации достигли значительных успехов, но до необходимого уровня надежности еще далеки.
^[ ³⁰ ^] .
Человек по-прежнему является высшим авторитетом в интерпретации человеком производимой информации.
Это означает, что люди должны быть включены в систему массово, как в роли интерпретаторов («первый слой»), так и в роли «мыслителей».
Да, люди тоже несовершенны.
В программах есть ошибки, у людей есть тараканы, и только совместная работа обеих форм интеллекта может гарантировать какую-то надежность.

Общие очертания
.
выяснилось следующее.
Нам нужна система:
Способен прогнозировать факты и проверять их на соответствие прочным знаниям, накопленным «сегодня»
Распределенный, без центра и переключателя
Массивный, со свойствами социальной сети
Принимает все основные форматы, используемые людьми для общения (текст, звук, графика), без существенных ограничений стиля.

Занимается непрерывным «обратным распространением ошибок» от максимально возможных иерархий истинности (в идеале «твердых физических фактов») к поступающей информации.

Использует автоматические вычисления для отслеживания «перекрестных ссылок» и обнаружения несоответствий между ними.

Использование ML для объединения возможно противоречивых сигналов в единое целое
Использование сочетания машинного обучения и человеческого понимания
Устойчив к ошибкам даже больших групп людей
В идеале — возможность повторно использовать правильные решения для новых задач.

Варианты дизайна
[Еще раз напоминаю, что это черновой вариант, и я осознаю, что эти идеи далеки от совершенства.
] А.
Простейший консенсус.
Самая простая конструкция, но за счет этого, видимо, самая реалистичная.

Мы определяем узкий круг проблем, которые хотим предсказать.
Лучше с двоичными ответами (да-нет) и однотипными.
И лучше, чтобы реальность каждый день давала новые наблюдения.
Типа «будут ли сегодня новости о дорогах на площадке Х».
Возможны и более медленные, но тогда вам придется тренироваться на старом историческом материале, который наверняка уже видели участники.

Набираем N > > 1 экспертов
Мы предлагаем им решить k задач по математике, физике и «здравому смыслу».
Эти N k-мерные векторы будут частью нашего набора обучающих данных.
За что? Этот шаг дает «привязку» к «твердой» реальности.
Более того, вполне возможно, что по некоторым вопросам эксперты, которые неправильный решал физические задачи.
Их вклад также необходимо будет учитывать посредством ОД.

Далее мы добавляем к обучающим данным m прогнозов от каждого эксперта по прошлым вопросам.

Обучаем модель с помощью нейронной сети или (что лучше для небольших и качественных оцифрованных данных) чего-то из семейства Random Forest (сам RF, AdaBoost, Gradient Boosting Trees — неважно)
Когда реальность ставит новый вопрос такого типа, мы просим экспертов сделать индивидуальные прогнозы и объединить их с обученной моделью для оценки будущего или настоящего факта.

[Внимание! Именно здесь может произойти классическая ошибка предсказания последовательности.
Когда в одном и том же наборе обучающих данных определенное поле «вчера» является меткой, а «сегодня» — признаком, то хороший ML мгновенно это заметит и схитрит, «предсказывая» вчерашнюю метку из «сегодняшнего» будущего.
Обучение AUC окажется сумасшедшим, но, конечно, такой ML ни черта не узнает о требуемой задаче.
] Плюсы:
Только.
Это напишет любой ML-инженер с парой лет опыта.

Это почти наверняка сработает. Вообще-то, я знаю, что нечто подобное уже пробовали, так что хоть как-то это будет работать.

Учитывает «физическую реальность»
Его также можно использовать для проверки истинности уже свершившихся фактов.

Минусы:
Работает над очень узким кругом вопросов.
Если мы хотим начать гадать «вырастут ли акции X» вместо «вырастут ли акции X», все обучение придется начинать заново.

Централизованный и переключаемый.

Правдивость фактов обучения оценивается кем-то со стороны.
Со всеми вытекающими рисками.

Можно ли улучшить эту конструкцию, заставив ее работать над более широким кругом задач? Вот здесь и начинаются тонкости.
Б.
Смешанное сознание.
Современный МО прекрасно «вычисляет» уже оцифрованные данные.
Но оцифровывает он их плохо.
Плохо-плохо, не заморачивайтесь насчет нейронных сетей.
Этот внезапный диван^[ ⁴⁰ ^] бывает, то шизофренический диалог^[ ³⁰ ^] .
Точности достаточно, чтобы вести рекламу по площадям или принимать телефонные звонки первого уровня.
Но совершенно упускает момент, когда необходимо уловить тонкие нюансы семантики, аллегорий, иронии и намеков.
Из них состоит треть современной рекламы и пропаганды.
Многие вопросы при едва заметной правке кардинально меняют свой смысл, а иногда и вовсе неверны.
«Достаточно ли нефти на ЗемлеЭ» не имеет ответа.
Потому что это предполагает забытое «почемуЭ» и «насколько это дешевоЭ» Человек же все эти вещи понимает на ура.
Но он плохо «рассчитывает» и очень плохо выполняет «обратное распространение ошибок», даже если его принудительно выстроить в нейронную сеть.
Итак, вот оно.
Возможно ли «объединить бренды»? Пусть люди «оцифровывают» произвольные сигналы, а МО связывает результаты оцифровки в оценку/прогноз? В принципе, попытки объединить человеческое и машинное мышление уже предпринимались.
Вот «кентавр» — человеческое сознание сидит на выходе нескольких процессоров ML и интерпретирует их результаты.
Так работают военные, исследовательские ведомства и эксперты.
Вот «осьминог» — выхлоп от большого количества людей объединяется в осмысленное целое сидящим сверху ML-процессором.
Я сильно подозреваю, что именно так работает ФБ.
Но нам нужен «мозг»: сеть, элементами которой практически в любом порядке могут быть как люди, так и элементы ML любой специализации.
При этом последний уровень системы должен быть Нет коммерческий или другой человек-заказчик (он быстро настроит всю систему под свои непосредственные нужды), а «неопровержимые факты».
Как это:
На вход поступает новая единица данных.
Текст, статья Wiki, новости, видео или вывод из другой подобной системы.

Некоторые люди реагируют на эти данные.
Хотя бы лайками, хотя возможны и более интересные варианты.
Набор этих лайков и будет вектором «оцифровки» принятого сигнала.

Никто не мешает добавить к нему аналогичный вектор оцифровки из элементов ML (проверка на редактирование; статистические характеристики текста; другие предикторы, тоже пытающиеся что-то предсказать).
Например, Latent_Dirichlet_allocation для векторизации текстов.
Не просто вместо , ведь так можно потерять самые важные смысловые «хвосты».

Вектор изменений подается на «верхний» уровень ML. Возможны следующие варианты:
Новой единице уже присвоено известное истинное или ложное значение.
ML создает обучающий круг на основе этого примера.
Однако важно внести в систему как множество «достоверных» фактов, так и намеренных фейков.
Не факт, что людям это понравится.

Выходной (верхний) слой получает набор метрик из «физического» мира: начало (или неначало) войн, падение/рост фондового рынка, изменение объёмов эмиграции, признание нового открытия физиков.
, создание патента или бизнеса на основе новостей и т. д. ML пытается предсказать эти параметры.

После обучения новые новости оцениваются на предмет истинности/ложности или ожидаемого воздействия на мир.

Плюсы:
Легко распространяется.
На шагах 2-3 вы можете подать в систему выхлоп практически от чего угодно.

Работает с любыми данными.

Минусы:
Это работает?
Неясно, решит ли это проблему перекрестных ссылок на большие расстояния.
Я, например, сомневаюсь, что можно пробежаться через это всю Википедию за разумное время.

Задачи «проверки на истинность» и «предсказания будущего» оказываются разделенными, я не вижу, как их здесь объединить в одну.

«Проверка истинности» все еще может зависеть от определений, сделанных наблюдателем, внешним по отношению к системе.

C. Прогнозирующая социальная сеть Социальная сеть, где каждый может написать что угодно.
Кошки, новости, мысли.
Но каждая часть контента помечается автором комбинацией следующих четырех флагов: а) Это «данные».
Фотография, наблюдение, память, результаты экспериментов.
Автор, если он не добавил других флажков, не претендует на выводы или прогнозы.
б) Это «предсказание».
Автор делает проверяемое предсказание, которое могут проверить другие участники.
«Завтра будет дождь», «в ближайшие пять лет аварийность ракет этого типа превысит 4%» и т. д. в) Это «способ рассуждения».
«Если вам нужно решить кубическое уравнение/выбрать хорошую камеру/отличить грипп от простуды, то это то, что вам нужно».
Статья, которую вы читаете, кстати, относится к этой категории.
г) Это «искусство».
Автор делает прогноз, что его работа кому-то понравится.
Публиковать сообщения в Интернете могут как люди, так и роботы.
И тогда действуют следующие правила: а) За сбывшееся предсказание или за любовь к искусству автор зарабатывает вкусности.
Криптовалюта, баллы, места в рейтинге и т. д. Для этого нужна работа по отсеиванию тривиальных прогнозов с нулевой информацией («завтра будет снег или нет»), но давайте пока примем, что это сделано.
б) Данные или методы рассуждения, использованные другими авторами для успешных предсказаний, также получают бонусы.
То же самое и с искусством, использующим другое искусство.
в) Основная трудность, конечно, состоит в том, как определить, что что-то «основано» или «использовано методом X».
Для решения этой проблемы предусмотрено несколько механизмов:
в.
1.) Авторы сами могут указать использованные ресурсы.

в.
2.) В процессе написания постов ML может просматривать то, что уже содержится в сети, и предлагать прошлые посты, если пара «этот, тот пост» генерирует высокую вероятность значения «использует», полученного в результате обучения на всех предыдущих парах.

в.
3.) Более сложные ML-боты могут просматривать уже написанное и искать пары «использования» в прошлых текстах.
Правда, их придется воспитывать на мнении большинства.
Однако есть надежда, что его ошибки, даже намеренные, в делах использовать будет в основном ортогональным ошибкам в вопросах правда , и, следовательно, не будет нарушать сходимость метода.

Важно изначально «засеять» эту социальную сеть достоверными «достоверными» фактами.
По крайней мере, с научной точки зрения.
Тогда, возможно, дальнейшие дополнения как минимум не будут им противоречить.
Плюсы:
Система предсказывает будущее.
Более того, оно может сделать это даже на основе ложных фактов.

Минусы:
Социальная сеть.
Неясно, удастся ли набрать достаточное количество желающих принять участие? Хотя бы в качестве эксперимента?
Неясно, сработает ли все это, и если да, то к чему это приведет.
Д.
ЭМ подходы.
Здесь вообще не нужно думать.

Они подбросили смесь фактов всех рангов и мастей, от утверждений квантовой механики до шуток и новостей.

Мы оцифровали их, показали людям и получили рейтинг истинности 0 или 1 для каждого факта.

Мы предполагали, что каждый факт генерируется одним из K «генераторов реальности».

Мы применили кластеризацию и разделили наши данные на K «картин мира», более или менее внутренне непротиворечивых.

Здесь есть один плюс: он прост, как топор, пишется одной левой рукой на колене, и он обязательно должен сработать.
Основной недостаток очевиден: подход не разделяет данные на «истинные» и «ложные».
Он лишь делит их на классы.
Но все равно вместо миллиона видов бреда мы получаем всего 5-10. Вы можете их систематизировать или наладить диалог между системами.
Кроме того, вы можете увидеть, какие предсказания составляет каждое из «царств» и сравнивает его с нынешней реальностью.
Это быстро позволит вам отсеять совершенно неадекватные системы убеждений.
Вторичный недостаток заключается в том, что вы можете получить столько кластеров и настолько разных, насколько существует алгоритмов кластеризации и метапараметров.
Они просто более плотно переупаковывают данные, вот и всё.
Дизайн можно немного изменить.
Пусть входными данными являются векторы , причем оценки допускаются от любых, от «заведомо» правильных до даже «заведомо ошибочных».
Таким образом, в выборке могут присутствовать и одинаковые векторы с противоположными оценками одних и тех же событий.
Предположим далее, что во время подготовки этих данных использовалось K различных механизмов для оценки достоверности данных.
То есть наш обучающий набор представляет собой смесь K моделей.
Возможно, противоречащие друг другу, но внутренне последовательные.
Как разделить эти модели? Следуя парадигме ожиданий-максимизации^[ ⁵⁰ ^], сделайте следующее:
Добавляем еще один столбец к данным для номера модели, которая его сгенерировала.

Каждому вектору (с оценкой) присваивается случайное значение номера модели от 0 до К-1.
Создаем K бинарных классификаторов
Каждого из них мы обучаем на всех данных, включая столбец «номер модели».
Нам необходимо предсказать оценку истинности в каждом векторе.

Тогда для каждого наблюдения: 5.1. Применим все K-классификаторы 5.2. Находим к* - номер классификатора, оценка вероятности истинности которого для данного наблюдения оказалась наиболее близкой к записанной для него 5.3. Для этого наблюдения мы пишем k* в столбце «номер модели».

Повторите 4-5, пока не соберетесь вместе.

И оно будет сходиться, это главное свойство Ожидания-Максимизации.
Правда, не факт, что быстро.
Результат, в целом, почти такой же, как выше.
Но в качестве «бонуса» у вас также есть K предикторов, которые описывают K основных способов оценки истинности наблюдаемого «дикого».

Что это нам даст?
Предположим, что система написана и даже работает отлично.
Перестанут ли люди, политики, реклама, новости вводить в заблуждение? Ни за что.
Для них выводы системы — это в лучшем случае «другое мнение».
На самом деле, то, что они делают, нельзя назвать ложью.
Это «разговор», извините, прямиком из Хайдеггера: « Беспочвенные высказывания и дальнейшие пересказы полезны "Конечно, все будет продолжаться.
Почему? Я вижу три преимущества в зависимости от достигаемой функциональности:
Нахождение кратчайших путей от заданного утверждения к противоречивому ему.
" Рациональное мышление не работает " И " компьютер, с которого вы это продвигаете, работает «Находят прямое противоречие.
Даже такая элементарная способность уже позволит нам ограничить информационный шум и лучше участвовать в дискуссиях.

Создание «точки сборки» для людей с рациональным мышлением.
Для людей, объединенных эмоциями, мы (технари!) уже создали такую точку сборки.
Все эти фейсбуки, твиттеры и ватсапы, в общем, вот оно.
Надеюсь, это во благо, но вы сами видите, сколько человеческих «приливов» поднимают умело вброшенные в него эмоции.
В то же время рациональные люди часто

Теги: #Машинное обучение #Криптовалюты #искусственный интеллект #Анализ и проектирование систем #Распределенные системы #машинное+обучение #децентрализация #прогнозирование будущего #проверка фактов

Последнее изменение: 2024-10-19 21:10:22

Вместе с данным постом часто просматривают:

Цифровой Вытрезвитель

Либретто

Почему это важно?

Что такое истина? (Общие Соображения)

Что это не так?

Общие очертания

Варианты дизайна

Что это нам даст?

Поисковые Системы Предлагают Переводить Иностранные Страницы

Парсинг Веб-Страниц Для Веб-Разработчиков: Краткое Изложение

Карманный Алкотестер Drinkmate

Языки Программирования – Статистика Использования За Июнь 2010 Года

Jets – Flight & Seat Advisor – Приложение Для Выбора Мест В Самолетах

Mixpanel: Стартап, Который Помогает Uber И Spotify Увидеть Будущее

Etag Спешит На Помощь

Как Вы Относитесь К Хабраленте?

Обработка Данных В Реальном Времени В Облаке Aws. Часть 1

Настройка Jvm На Примере Одного Проекта

Автор Статьи

Роман Иванов

Интересно

Bobocomm – Создатели Рекламы...

Growbydata — Программное Обеспечение Для Конкурентной Разведки...

Neolive - Программное Обеспечение Для Цифровых Вывесок...

Casey Powell Lacrosse 18 Xbox One X S Активация...

Увеличение Трафика На Выставке За Пределами Выставочного Зала...

Партнерам Нужна Надежная Маркетинговая Стратегия, Чтобы Добиться Успеха В...

Федуленков...

Dima Manisha