Как данные в руках аналитиков Palantir превращаются из неструктурированных в структурированные.
Палантир — частная американская компания , четвёртый по капитализации стартап в мире (после Uber, Xiaomi и Airbnb) (данные на начало 2016 года).
Основными заказчиками являются ЦРУ, военные, Центры по контролю и профилактике заболеваний (CDC) и крупные финансовые организации.
По моему мнению, именно так «отцы-основатели» видели преимущества информационных технологий.
Ванневар Буш («Как мы можем думать») , Дуглас Онгельбарт («Мать всех демосов») И Джозеф Ликлайдер (Межгалактическая компьютерная сеть и симбиоз человека и компьютера) , о котором я писал чуть ранее.
Ниже приведены два дела (2010 г.
).
- Первый - анализ распространения вируса во время национальной пандемии на основе пятнадцати миллионов записей о посещениях больниц и трехсот пятидесяти семи тысяч записей о смертях.
- Второй — анализ сотен отчетов о расследовании глобальной сети торговцев оружием.
Перевод выполнен при поддержке Центра разработки программного обеспечения EDISON.
Вызов VAST 2010, часть.
1 https://www.youtube.com/watchЭv=ANjE_78m8U4 00:00 В этой презентации будет показано, как Palantir использует аналитику для превращения неструктурированных данных в структурированные.
Для этого будут использоваться отчеты о глобальной сети торговцев оружием.
00:10 Мы покажем, как территориальный, временной, социальный и ряд других анализов могут ответить на вопросы разведки об этой сети.
00:17 Эти значки на графике обозначают около сотни отчетов нашего расследования.
00:25 Textcloud поможет нам выделить ключевые слова из этих отчетов.
00:28 Появляются некоторые термины: пистолет, пистолет, покупка, Карачи, Пакистан и т. д., что говорит о том, что эта сеть связана с Ближним Востоком и Южной Азией.
00:37 Перенесём эти документы на карту.
00:42 Документы были распределены согласно указанным в них географическим названиям.
Мы также можем использовать временную шкалу, чтобы увидеть расположение документов по дате создания.
00:50 Теперь давайте очистим карту и найдем документы из Пакистана, один из самых популярных результатов в текстовом облаке.
00:57 Этот поиск выдаёт ряд документов, давайте посмотрим их через браузер.
01:01 В браузере аналитик может структурировать информацию, присваивая ей теги.
Выделим Малон Хаг Бухари.
01:10 Palantir автоматически ищет объекты, которые уже присутствуют в базе данных.
Мы также можем создать новый объект и выбрать для него специальные свойства, чтобы присвоить соответствующий тег.
01:19 Синяя линия под текстом показывает некую сущность, которой мы только что присвоили тег.
01:23 Двойной щелчок по тегу открывает полное досье объекта, его свойства, связанные медиафайлы, историю объекта и список всех источников данных.
01:35 Чтобы создать связи между объектами с тегами в тексте, мы просто перетаскиваем один на другой, а затем выбираем специальные свойства полученного соединения.
01:45 В полностью размеченном документе цвет и линии обозначают связи с существующими объектами, событиями и отношениями.
01:51 Теперь добавим в график данные, которые мы структурировали в документах, касающихся Пакистана.
01:57 На графике аналитик использует различные инструменты для анализа данных.
02:00 Здесь представлены сущности и события из пакистанских тегов.
Используя гистограмму, мы заполнили график людьми, и теперь аналитик может использовать этот инструмент для поиска связей между сущностями, которые могут возникнуть из документов, отмеченных другими аналитиками в нашей компании.
02:17 После построения графика ключевых сущностей и событий пакистанской сети мы можем использовать временную шкалу, чтобы понять временные аспекты сетевой активности, к которым относятся перелеты, встречи, платежи и тому подобное.
02:30 Аналитик также может поделиться графиком с другими аналитиками компании.
Здесь мы можем увидеть общие графики из Пакистана, Латинской Америки и Дубая.
02:40 Давайте посмотрим на график глобальной сети торговцев оружием, который включает в себя сущности и связи из всех тегов документов, назначенных нашей командой.
02:49 Мы используем Помощник по социальным связям, чтобы определить ключевые моменты для будущих расследований в нашей всемирной сети.
02:56 Давайте добавим немного цветового выделения.
Теперь мы видим, что Дубай, Бухари и Домбровский являются важными точками пересечения этой сети.
03:03 Перетащив все это на карту, мы сможем увидеть всю сетевую активность географически и во времени, если воспользуемся Timeline.
03:10 Это дает общее представление о том, когда и где работает каждая ячейка.
03:15 Например, ОА? играют важную роль, многие из наших целей были достигнуты здесь в апреле.
03:21 Структурируя данные из неструктурированных отчетов и используя инструменты анализа данных Palantir для достижения цели, наша команда добилась четкой карты сети торговли оружием в нескольких странах и указала место переговоров лидеров сети.
Вызов VAST 2010, часть.
2 https://www.youtube.com/watchЭv=QMPQrRvLhaY Записи о госпитализации: характеризующие распространение пандемии.
00:00 В этой презентации будет показано, как мы используем анализ Palantir's Horizon для анализа распространения вируса во время национальной пандемии.
00:05 Horizon предназначен для анализа больших объемов данных и теперь будет использоваться для быстрой визуализации и анализа пятнадцати миллионов записей о посещениях больниц и трехсот пятидесяти семи тысяч записей о смерти.
Необработанные данные были разделены по симптомам и введены в систему.
Написано: Horizon предназначен для анализа на двух экранах.
Видео будет переключаться между окном дерева анализа и окном визуализации.
00:20 Обратите внимание, что время обработки не включено в видео.
00:23 Давайте начнем с рассмотрения некоторых основных гистограмм, чтобы получить представление о данных.
00:27 Это гистограмма госпитализаций по возрасту, которая дает почти идеальный график распределения с вершиной около сорока четырех лет.
00:33 Это аномально, потому что мы ожидали большего количества посещений больницы в возрасте до сорока лет, исходя из типичного распределения по возрасту и состоянию здоровья.
0:43 Сейчас мы используем пакетную гистограмму посещений больницы пациентами, которые позже умерли, чтобы определить симптомы, которые чаще всего приводили к смерти.
00:53 Тремор и потеря слуха — примеры симптомов, связанных со смертью.
00:56 Чтобы изучить временные закономерности заболевания, давайте создадим гистограмму посещений больницы по дням, отфильтруем по смертям и создадим еще одну гистограмму смертей по дате.
01:12 В мае наблюдается небольшой рост количества обращений, одновременно увеличилось количество смертей.
01:22 Для выявления временных закономерностей заболевания будет полезно узнать, сколько времени прошло между моментом обращения в больницу и смертью.
01:29 Мы можем сделать это, добавив новое свойство, которое находит разницу между датой смерти и датой доступа.
01:38 Теперь мы можем создать гистограмму с этим новым свойством.
Из него видно, что почти все летальные исходы произошли на восьмой день после госпитализации, что, гипотетически, могло быть характерно для пандемического вируса.
01:51 Сосредоточив внимание на этих смертях, мы можем создать гистограмму наиболее распространенных симптомов.
01:58 Рвота и боль в животе — самые популярные результаты.
02:05 Давайте воспользуемся тепловой картой, чтобы увидеть, в каких географических регионах больше всего смертей.
02:12 В Пакистане много смертей, а в Таиланде и Турции их относительно мало.
02:20 Давайте создадим скаттерграмму по дням и местам, которая даст представление об интенсивности заболевания с течением времени.
02:34 Мы видим, что в Таиланде и Турции число смертей стабильно низкое, в то время как смертность в других местах достигает пика и снижается.
02:45 Сравнивая полученный график с гистограммой распределения смертей по датам, мы можем понять, когда началась пандемия.
02:57 С помощью этого нового подмножества мы можем создать новую диаграмму рассеяния для госпитализаций, чтобы увидеть, как болезнь распространялась с течением времени по территории.
03:07 Мы видим, что Кения, Пакистан и Сирия — страны с самыми ранними вспышками заболевания.
03:15 Для более точной информации о распространении заболевания во времени и пространстве мы можем обратиться к данным о смертности по каждой территории.
03:25 Выбрав данные, например, из Пакистана, мы можем создать гистограмму госпитализаций по датам из подгруппы пациентов, которые, как мы подозреваем, умерли от пандемии.
03:38 Используя Palantir's Horizon, мы смогли быстро импортировать, проанализировать и визуализировать данные о пандемии, выявить аномалии и охарактеризовать характер и прогрессирование заболевания с течением времени.
Подробнее о Палантире:
- Палантир и отмывание денег
- Палантир, мафия PayPal, спецслужбы, мировое правительство
- Palantir 101. Что простым смертным позволено знать о второй крутой частной компании Кремниевой долины
Я попытаюсь докопаться до первоисточников IT-технологий, понять, как думали и какие концепции были в головах первопроходцев, о чем они мечтали, каким они видели мир будущего.
Для чего были задуманы «компьютер», «сеть», «гипертекст», «усилители интеллекта», «система коллективного решения задач», какой смысл они вкладывали в эти понятия, какими инструментами хотели достичь результатов.
Я надеюсь, что эти материалы вдохновят тех, кто задается вопросом, как перейти «от нуля до единицы» (создать то, чего раньше никогда не существовало).
Мне бы хотелось, чтобы ИТ и «программирование» перестали быть просто «кодированием ради денег», а напомнили, что они задумывались как рычаг изменения методов ведения войны, образования, способа совместной деятельности, мышления и общения, как попытаться решить мировые проблемы и ответить на вызовы, стоящие перед человечеством.
Что-то вроде этого.
0 марта.
Сеймур Паперт 1 марта.
Ксерокс Альто 2 марта «Позвони Джейку».
История NIC и RFC 3 марта Грейс «Бабушка КОБОЛ» Хоппер 4 марта Маргарет Хэмилтон: «Ребята, я отправлю вас на Луну» 5 марта Хеди Ламарр.
И сниматься голым в кино и стрелять торпедой во врага 7 марта Великолепная шестерка: девушки, расчитавшие термоядерный взрыв 8 Марта «Видеоигры, я твой отец!» 9 марта С днем рождения, Джефф Раскин 14 марта Джозеф «Лик» Ликлайдер: «Межгалактическая компьютерная сеть» и «Симбиоз человека и компьютера» 15 марта Ванневар Буш: «Как мы можем думать» 16 марта С днем рождения, Ричард Столлман.
21 марта Дуглас Нгельбарт: «Мать всех демонов».
Часть 1 Теги: #аналитика #разработка #тестирование #Визуализация данных #edisonsoftware #edisonsoftware #edisonsoftware #Big Data #Визуализация данных
-
Проблемы С Компакт-Диском
19 Oct, 24 -
Введение В Visual Basic
19 Oct, 24 -
Использование Сторонних Брендов В Стартапе
19 Oct, 24 -
Первый Клиент
19 Oct, 24 -
Поиск Причин Странной Производительности
19 Oct, 24