Сложная техника рандомизированных ответов была впервые использована Google для сбора статистики Chrome. Последует ли Apple этому примеру? Об авторе.
Мэтью Грин: криптограф, профессор Университета Джонса Хопкинса, автор блог по разработке криптографических систем Опубликовано 14 июня 2016 г.
Вчера на WWDC компания Apple представила ряд новых функций безопасности и конфиденциальности, включая одну функцию, которая привлекла много внимания… и запутала.
А именно, Apple объявила об использовании новой технологии под названием «Дифференциальная конфиденциальность» («Differential Privacy», сокращенно: DP) для улучшения защиты конфиденциальности при сборе конфиденциальных пользовательских данных.
Для большинства людей это вызвало молчаливый вопрос: «Что за.
??Э», потому что мало кто раньше слышал о дифференциальной конфиденциальности, а тем более понимал, что это значит. К сожалению, Apple не совсем прозрачна, когда речь идет о секретных ингредиентах, лежащих в основе их платформы, поэтому, надеюсь, они решат опубликовать больше информации в будущем.
Все, что мы знаем на данный момент, содержится в руководстве по предварительной версии Apple iOS 10. «Начиная с iOS 10, Apple использует технологию дифференциальной конфиденциальности, чтобы помочь выявить модели поведения большого числа пользователей, не ставя под угрозу конфиденциальность какого-либо отдельного человека.
Чтобы скрыть личность человека, дифференциальная конфиденциальность добавляет математический шум к небольшой выборке индивидуального шаблона поведения конкретного пользователя.
Когда больше людей демонстрируют один и тот же шаблон, начинают проявляться общие шаблоны, которые могут дать нам информацию и улучшить общий пользовательский опыт. В iOS 10 эта технология поможет улучшить QuickType и подсказки Emoji, подсказки Spotlight и подсказки поиска в заметках».
Короче говоря, похоже, что Apple хочет собрать с вашего телефона гораздо больше данных.
В основном они делают это с целью улучшения своих сервисов, а не для сбора информации об индивидуальных привычках и особенностях каждого пользователя.
Для этого Apple намерена использовать сложные статистические методы, чтобы совокупная база — результат вычисления статистической функции после обработки всей вашей информации — не выдавала отдельных участников.
В принципе, звучит неплохо.
Но, конечно, дьявол всегда кроется в деталях.
Хотя у нас нет этих подробностей, сейчас, похоже, самое время поговорить о том, что такое дифференциальная конфиденциальность, как она может быть реализована и что это может означать для Apple — и для вашего iPhone.
Мотивация
За последние несколько лет «обычный пользователь» привык к мысли, что его устройство отправляет огромные объемы личной информации различным сервисам, которыми он пользуется.Опросы общественного мнения также показывают, что граждане начинаю чувствовать дискомфорт по этой причине .
Этот дискомфорт имеет смысл, если подумать о компаниях, которые используют нашу личную информацию, чтобы заработать на нас деньги.
Однако иногда есть веские причины для сбора информации о действиях пользователей.
Например, Microsoft недавно представила инструмент, который может диагностировать рак поджелудочной железы анализируя ваши поисковые запросы Bing. Google поддерживает знаменитый сервис Тенденции Google по гриппу прогнозировать распространение инфекционных заболеваний на основе частоты поисковых запросов в различных областях.
И, конечно же, мы все получаем от этого пользу краудсорсинг данные , которые улучшают качество используемых нами сервисов: от картографических приложений до обзоров ресторанов.
К сожалению, даже сбор данных в благих целях может нанести вред. Например, в конце 2000-х Netflix объявил конкурс на разработка лучшего алгоритма рекомендаций для художественных фильмов.
Чтобы помочь участникам конкурса, они опубликовали «анонимизированный» набор данных со статистикой того, как пользователи смотрели фильмы, удалив из него всю личную информацию.
К сожалению, такой «обезличивания» оказалось недостаточно.
В известном научном труде Нараян и Шматиков показали, что такие наборы данных можно использовать для деанонимизации конкретных пользователей — и даже для прогнозирования их политических взглядов! - только если вы знаете немного дополнительной информации об этих пользователях.
Такие вещи должны нас беспокоить.
Не только потому, что коммерческие компании регулярно делятся между собой собранной информацией о пользователях (хотя они это делают), но и потому, что случаются взломы, и потому, что даже статистика по собранной базе данных может каким-то образом прояснить детали о конкретных отдельных записях, которые использовались для составления агрегированной выборки.
Дифференциальная конфиденциальность — это набор инструментов, предназначенных для решения этой проблемы.
Что такое дифференциальная конфиденциальность?
Дифференциальная конфиденциальность - определение защита пользовательских данных, первоначально предложенная Синтией Дворк в 2006 году.Грубо говоря, кратко ее можно описать так: Представьте, что у вас есть две идентичные базы данных: одна с вашей информацией внутри, а другая — без нее.
Дифференциальная конфиденциальность гарантирует, что статистический запрос к одной и второй базе данных вернет определенный результат с (почти) одинаковой вероятностью.
Вы можете думать об этом так: DP дает вам возможность понять, оказывают ли ваши данные статистически значимое влияние на результат запроса.
Если нет, то их можно без опасений добавлять в базу данных, ведь вреда это практически не причинит. Рассмотрим этот глупый пример: Представьте, что вы включили на своем iPhone функцию сообщать Apple о том, что вы часто используете смайлы.
в своих сеансах чата iMessage. Этот отчет состоит из одного бита информации: 1 означает, что он вам нравится.
, а 0 означает нет. Apple может получать эти отчеты и вводить их в гигантскую базу данных.
В конечном счете, компания хочет иметь возможность узнать количество пользователей, которым нравится определенный смайлик.
Само собой разумеется, что простой процесс суммирования результатов и их публикации не удовлетворяет определению DP, поскольку арифметическая операция суммирования значений в базе данных, содержащей вашу информацию, потенциально даст иной результат, чем суммирование значений.
из базы данных, которая не содержит вашей информации.
Поэтому, хотя такие суммы будут даны Немного информацию о вас, но все равно часть личной информации утечет. Основной вывод исследования дифференциальной конфиденциальности заключается в том, что во многих случаях принцип ДП Может достичь, если добавить случайный шум к результату.
Например, вместо того, чтобы просто сообщать окончательный результат, сообщающая сторона может реализовать распределение Гаусса или Лапласа, поэтому результат не будет таким точным, но он будет маскировать каждое конкретное значение в базе.
(Для других интересных функций есть много другие техник ).
Что еще более ценно, так это расчет количества добавленного шума.
можно сделать, не зная содержимого самой базы данных (или даже ее размера) .
Правильно, шумное вычисление можно сделать, основываясь только на знании выполняемой функции и приемлемом уровне утечки данных.
Компромисс между конфиденциальностью и точностью
Теперь очевидно, что подсчет количества влюбленныхсреди пользователей - довольно неудачный пример.
Что важно в DP, так это то, что тот же общий подход можно применить к гораздо более интересным функциям, включая сложные статистические вычисления, подобные тем, которые используются в системах машинного обучения.
Его можно применять, даже если в одной базе данных оценивается множество различных функций.
Но есть одна загвоздка.
Дело в том, что размер «утечки информации» от одного запроса можно минимизировать в небольших пределах, но он не будет равен нулю.
Каждый раз, когда вы запрашиваете базу данных с помощью какой-либо функции, общая утечка увеличивается и никогда не может быть уменьшена.
Со временем, по мере увеличения количества запросов, утечка может начать расти.
Это один из самых сложных аспектов ДП.
Оно проявляется двумя основными способами:
- Чем больше вы намерены «спросить» базу данных, тем больше шума вам придется добавить, чтобы минимизировать утечку информации.
.
Это означает, что DP на самом деле представляет собой фундаментальный компромисс между точностью и конфиденциальностью, что может стать большой проблемой при обучении сложных моделей машинного обучения.
- Как только данные просочились, они исчезли.
.
Когда утечка информации выходит за пределы расчетных пределов, которые говорят, что вы в безопасности, вы не можете продолжать — по крайней мере, без риска для конфиденциальности пользователей.
В такой ситуации лучшим решением может быть просто уничтожить базу данных и начать все заново.
Если это возможно.
Главный урок ДП заключается в том, что дьявол кроется в бюджете.
Установите слишком высокое значение, и важные данные утекут. Установите слишком низкое значение, и полученные результаты запроса могут оказаться бесполезными.
Теперь в некоторых приложениях, как и в большинстве приложений на наших iPhone, неточность не будет большой проблемой.
Мы привыкли к тому, что наши смартфоны совершают ошибки.
Но иногда, когда DP используется в сложных приложениях, таких как обучение моделей машинного обучения, это действительно важно.
Смертность и коэффициент раскрытия, от работа Фредериксона и др.
с 2014 года .
Красная линия соответствует смертности пациентов.
Чтобы дать вам абсолютно сумасшедший пример насколько важным может быть компромисс между конфиденциальностью и точностью, посмотрите на это научная статья Фредериксона и др.
с 2014 года .
Авторы начали с сопоставления данных о дозировках лекарств из открытой базы данных.
Варфарин со специфическими генетическими маркерами.
Затем они использовали методы машинного обучения для разработки модели расчета дозировки на основе данных из базы данных, но при обучении модели использовали DP с различными параметрами бюджета конфиденциальности.
Затем они оценили уровень утечки информации и успешность использования модели для лечения виртуальных «пациентов».
Результаты показали, что точность модели сильно зависит от бюджета конфиденциальности, установленного во время ее обучения.
Если бюджет установлен слишком высоким, из базы данных утечет значительный объем конфиденциальной информации о пациентах, но полученная модель принимает решения о дозировке, которые так же безопасны, как и стандартная клиническая практика.
С другой стороны, когда бюджет сокращается до уровня, предполагающего приемлемую конфиденциальность, модель, обученная на зашумленных данных, имеет тенденцию убивать своих «пациентов».
Прежде чем вы начнете паниковать, позвольте мне объяснить: твой iPhone тебя не убьет .
Никто не говорит, что этот пример даже отдаленно похож на то, что Apple собирается сделать на смартфонах.
Вывод из этого исследования таков: в каждой системе на базе DP существует интересный компромисс между эффективностью и защитой конфиденциальности — этот компромисс во многом зависит от конкретные решения , которые были сделаны разработчиками системы, выбранные параметры работы и т. д. Будем надеяться, что Apple вскоре расскажет нам, что это были за опции.
И вообще, как собирать данные?
Вы заметите, что во всех приведенных выше примерах я предполагал, что запросы выполняются доверенным оператором базы данных, имеющим доступ ко всем необработанным базовым данным.Я выбрал эту модель, потому что это традиционная версия модели, которая используется почти во всей литературе, а не потому, что это хорошая идея.
На самом деле, был бы повод для беспокойства, если бы Apple действительно реализует вашу систему аналогичным образом.
Это потребует от Apple собрать всю необработанную информацию об активности пользователей в огромную централизованную базу данных, а затем («доверьтесь нам!») рассчитать статистику по ней безопасным способом, защищающим конфиденциальность пользователей.
Как минимум, этот метод делает информацию доступной для получения через повестку в суд, а также для иностранных хакеров, любопытных руководителей Apple и так далее.
К счастью, это не единственный способ реализовать систему дифференциальной конфиденциальности.
Теоретически статистика может быть рассчитана с использованием причудливых криптографических методов (таких как конфиденциальный вычислительный протокол или полностью гомоморфное шифрование ).
К сожалению, эти методы, вероятно, слишком неэффективны, чтобы их можно было использовать в том масштабе, который нужен Apple. Гораздо более многообещающим подходом представляется вообще не собирайте необработанные данные .
Google недавно был первым, кто применил этот подход для сбор статистики в браузере Chrome .
Их система называлась РАППОР на основе внедрения 50-летней технологии рандомизированный ответ .
Рандомизированный ответ работает следующим образом:
- Когда пользователь хочет отправить часть потенциально конфиденциальной информации (придуманный пример: ответ на вопрос «Вы используете BingЭ»), он сначала подбрасывает монету, и если монета упадет орлом, случайный ответ возвращается — рассчитывается путем подбрасывания другой монеты.
В противном случае отправляется честный ответ.
- Сервер собирает ответы от всей выборки пользователей и (зная вероятность того, что монета упадет «орлом»), подстраивается под существующий уровень «шума», чтобы вычислить приблизительный ответ для истинного ответа.
На формальном уровне рандомизированный ответ действительно обеспечивает дифференцированную конфиденциальность , с конкретными гарантиями, которые можно настроить, регулируя характеристики монет. RAPPOR использует эту относительно старую технику и превращает ее в нечто гораздо более мощное.
Вместо того, чтобы просто отвечать на один вопрос, система может сообщать о сложном векторе вопросов и даже возвращать сложные ответы, такие как строки, например, настройки домашней страницы вашего браузера.
Последнее достигается путем первого пропускания строки через фильтр Блума представляет собой последовательность битов, сгенерированную с использованием хеш-функций весьма специфическим способом.
Полученные биты затем смешиваются с шумом и суммируются, а ответы восстанавливаются посредством (довольно сложного) процесса декодирования.
Хотя четких доказательств того, что Apple использует такую систему, как RAPPOR, нет, есть несколько небольших подсказок, указывающих на это.
Например, Крейг Федериги (в жизни он выглядит точно так же, как на фото) описывает дифференцированную конфиденциальность Как «использование хеширования, субдискретизации и шумообразования для обеспечения.
краудсорсингового обучения, сохраняя при этом индивидуальные пользовательские данные полностью конфиденциальными» .
Я думаю, это довольно слабое свидетельство чего-либо, но наличие «хеширования» в этой цитате, по крайней мере, предполагает использование фильтров в стиле RAPPOR. Основная трудность систем рандомизированного ответа заключается в том, что они могут выдать конфиденциальные данные, если пользователь отвечает на один и тот же вопрос несколько раз.
РАППОР пытается решить эту проблему несколькими способами.
Один из них — определить статический фрагмент информации и таким образом вычислить «постоянный ответ» вместо того, чтобы каждый раз снова рандомизировать его.
Но можно представить ситуации, когда такая защита не сработает. Еще раз: дьявол часто кроется в деталях — их просто нужно увидеть.
Я уверен, что в любом случае будет опубликовано много интересных научных работ.
Так хорошо или плохо использование Apple DP?
Как учёный и специалист по информационной безопасности, я испытываю по этому поводу смешанные чувства.С одной стороны, я как учёный понимаю, насколько интересно наблюдать за воплощением передовых научных разработок в реальном продукте.
И Apple предоставляет Очень большая площадка для таких экспериментов.
С другой стороны, как практический специалист по безопасности, я обязан сохранять скептицизм — компания должна при малейшем вопросе показывать критичный для безопасности код (например, Google сделал с RAPPOR ), или хотя бы откровенно заявить, что именно он реализует. Если Apple планирует собирать огромные объемы новых данных с устройств, от которых мы зависим, нам нужно быть готовыми к этому.
Действительно уверены, что все делают правильно – и не аплодируют им бурно за внедрение таких крутых идей.
(Я уже однажды совершил эту ошибку и до сих пор чувствую себя из-за этого дураком.
) Но, возможно, все это слишком глубокие детали.
Ведь он определенно похож на Apple честно старается что-то сделать для защиты конфиденциальной информации пользователей , и учитывая альтернативы, это может быть самым важным.
Теги: #Популярная наука #математика #Смартфоны #iphone #ИТ-компании #ИТ-компании #Apple #chrome #конфиденциальность #статистика #дифференциальная конфиденциальность #фильтр Блума #распределение Гаусса #сбор статистики #зашумленная информация #RAPPOR #распределение Лапласа
-
Электронное Государство Будущего
19 Oct, 24 -
Мы Сделаем Этот Велосипед За Месяц
19 Oct, 24 -
Wecon Lx3V: Китайский Плк С Aliexpress
19 Oct, 24 -
Обновление Хабра
19 Oct, 24