Топливо Для Ии: Подборка Открытых Наборов Данных Для Машинного Обучения



Топливо для ИИ: подборка открытых наборов данных для машинного обучения

Связанные проекты сообщества открытых данных (связанный проект Open Data Cloud).

Многие наборы данных на этой диаграмме могут содержать данные, защищенные авторским правом, и не упоминаются в этой статье.

Если вы не создадите свой собственный ИИ прямо сейчас, другие сделают его вместо вас.

Ничто не мешает вам создать систему на основе машинного обучения.

Существует открытая библиотека глубокого обучения.

ТензорФлоу , большое количество алгоритмов обучения в библиотеке Факел , платформа для реализации распределенной обработки неструктурированных и полуструктурированных данных.

Искра и многие другие инструменты, облегчающие вашу работу.

Добавьте к этому наличие большей вычислительной мощности, и вы поймете, что для полного счастья не хватает только одного ингредиента: данных.

Существует огромное количество данных, но может быть сложно понять, на какие общедоступные наборы данных стоит обратить внимание, какие из них хороши для тестирования идей, а какие могут быть полезны в качестве средства тестирования потенциальных продуктов или их функций перед вы строите свой собственный.

собственные данные.

Мы изучили этот вопрос и собрали данные по датасетам, отвечающим критериям открытости, актуальности, скорости работы и приближенности к реальным задачам.



Компьютерное зрение



Топливо для ИИ: подборка открытых наборов данных для машинного обучения

Визуальный геном Открытие данных для машинного обучения похоже на бесплатное электричество для рынка электромобилей.

Поэтому большой вклад в процесс получения новых наборов данных вносят исследовательские группы, не преследующие прямой финансовой выгоды.

Так, международная команда исследователей, в которую вошли учёные из Стэнфордского университета, а также представители Yahoo и Snapchat, разработала новую базу данных Visual Genom и алгоритм оценки изображений, которые позволят системам искусственного интеллекта понять, что происходит на снимках.

Все изображения в базе данных Visual Genome помечены таким образом, чтобы содержать информацию обо всех объектах изображения, их особенностях и связях.

ImageNet Ранее исследователи из Стэнфордского университета представили набор данных ImageNet , который содержит более миллиона изображений, помеченных содержанием события, представленного на картинке.

Многие компании, создающие API для работы с изображениями, используют в своих REST-интерфейсах метки, подозрительно похожие на иерархию из 1000 категорий.

ВордНет из ImageNet. МИАС (Общество анализа маммографических изображений) Набор данных мамограмм, в которых врачи могут использовать алгоритмы для распознавания раковых опухолей.

Массив представляет собой реальные изображения молочной железы с известными типами заболеваний.

Ландсат8 Landsat-8 — спутник дистанционного зондирования Земли, запущенный на орбиту в 2013 году.

Спутник собирает и хранит мультиспектральные изображения среднего разрешения (30 метров на точку).

Данные Landsat-8 доступны с 2015 года, а также некоторые образцы изображений за 2013–2014 годы.

Все новые снимки Landsat-8 появляются каждый день буквально через несколько часов после их создания.

База данных рукописных цифр MNIST (Смешанный национальный институт стандартов и технологий) База данных рукописных чисел с подготовленным набором обучающих значений из 60 000 изображений для обучения и 10 000 изображений для тестирования.

Цифры, взятые из выборки Бюро переписи населения США (с добавлением тестовых выборок, написанных студентами американских университетов), нормализованы по размеру и имеют фиксированный размер изображения.

Эта база представляет собой стандарт, предложенный Национальным институтом стандартов и технологий США с целью калибровки и сравнения методов распознавания изображений.

Чарс74К Следующий этап эволюции для тех, кто прошел рукописные номера.

Этот набор данных включает 74 000 изображений различных символов (алфавитов, цифр и т. д.).

Данные биометрического распознавания с открытым исходным кодом Данные биометрического распознавания (фронтальное изображение лица), полученные с использованием механизма с открытым исходным кодом.

СВХН Номера домов из Google Street View. 73 257 чисел для обучения, 26 032 числа для тестирования и 531 131 немного менее сложная выборка для использования в качестве дополнительных данных для обучения.



Естественные языки



Топливо для ИИ: подборка открытых наборов данных для машинного обучения

Общий корпус сканирования Корпус данных веб-страниц объемом более 540 терабайт, состоящий из более чем 5 миллиардов веб-страниц.

Этот набор данных находится в свободном доступе на Amazon S3. Открытый набор данных Yelp Yelp — это сайт для поиска услуг на вашем местном рынке, таких как рестораны или парикмахерские, с возможностью добавлять и просматривать рейтинги и обзоры этих услуг.

За долгие годы работы у меня накопился огромный объем данных от пользователей сервиса.

Набор данных включает 4 700 000 отзывов о 156 000 компаний от более чем 1 000 000 пользователей.

Викитекст Набор данных представляет собой текстовую коллекцию, содержащую более 100 миллионов словоупотреблений, извлеченную из курируемых хороших и избранных статей Википедии.

Наборы данных Малууба Этот набор новостных статей CNN содержит 120 000 пар вопрос + контекст/ответ. Вопросы написаны людьми на естественном языке.

Вопросы могут не иметь ответов, а ответы могут быть многоязычными.

Набор данных Maluuba предназначен для создания умных чат-ботов, которые могут поддерживать принятие решений в сложных средах.

Детский книжный тест Основные данные, состоящие из пар (вопросы + контекст/ответы), извлеченные из детских книг, доступных в рамках проекта «Гутенберг» — попытки создать и распространить цифровую универсальную библиотеку.

Проект, основанный в 1971 году, предусматривает оцифровку и сохранение в текстовом формате различных произведений мировой литературы — преимущественно текстов, находящихся в свободном доступе на всех популярных мировых языках.

Более 53 000 документов доступны для бесплатного скачивания.

Анализ настроений в Твиттере Набор данных для анализа настроений «комментариев» в Твиттере.

Содержит 1 578 627 твитов, отражающих положительные и отрицательные настроения.



Речь



Топливо для ИИ: подборка открытых наборов данных для машинного обучения

Гугл Аудиосет Полный словарь аудиособытий.

632 аудиокласса событий и коллекция из 2 084 320 10-секундных голосовых роликов из видеороликов YouTube (более 5 тысяч часов аудиозаписей).

2000 HUB5 английский Набор данных английской речи, содержащий стенограммы 40 телефонных разговоров на английском языке.

Данные HUB5 по английскому языку за 2000 год сосредоточены на разговорной телефонной речи с конкретной задачей транскрипции речи в текст. ТЭД-ЛИУМ Аудиозаписи 1495 выступлений TED с полными стенограммами.



«Набор данных» наборов данных



Топливо для ИИ: подборка открытых наборов данных для машинного обучения

млданные Mldata (хранилище наборов данных машинного обучения) — хранилище наборов данных машинного обучения, содержащее более 800 общедоступных архивных наборов данных с рейтингами, просмотрами и комментариями.

Репозиторий машинного обучения UCI Крупнейшее хранилище реальных и модельных задач машинного обучения, датируемое 1987 годом.

Содержит реальные данные по прикладным задачам в биологии, медицине, физике, технике, социологии и других областях, ставших классическими для работы различных алгоритмов.

Наборы данных из этого репозитория часто используются научным сообществом для эмпирического анализа алгоритмов машинного обучения.

Включает интересные данные о текстах из спам-писем.

База спама UCI , который можно использовать в качестве платформы для обучения персонализированным спам-фильтрам.

Наборы данных для «Элементов статистического обучения» Наборы данных «Элементы статистического обучения», возглавляемые профессором Стэнфордского университета Тревором Хасти, содержат наборы данных по различным категориям, таким как минеральная плотность костей скелета, страны, галактика, маркетинговая информация, спам, почтовые индексы и многие другие.

Веб-сервисы Amazon (AWS) AWS предлагает несколько интересных наборов данных, включая всю электронную почту Enron, синтаксические n-граммы Google Books, данные NASA NEX (более 20 терабайт информации о климате, геологии и состоянии мировой флоры) и многое другое.

Каггл Это платформа, на которой все пользователи могут делиться своими наборами данных.

У них есть более 350 наборов данных, и более 200 из них указаны как рекомендованные платформой.

Потрясающие наборы общедоступных данных Несколько сотен наборов данных, классифицированных по разным категориям в разных областях.

К сожалению, он не содержит описания самих наборов данных.

данные.

мир Проект data.world описывает себя как «социальную сеть для людей с наборами данных», но точнее было бы описать его как «GitHub для данных».

Это место, где вы можете искать, копировать, анализировать и загружать наборы данных.

Кроме того, вы можете загрузить свои данные на data.world и использовать их для совместной работы с другими пользователями.

Одним из ключевых отличий data.world являются инструменты, которые они создали, чтобы упростить работу с данными.

Система поддерживает SQL-запросы для исследования данных и объединения нескольких наборов данных, также у них есть SDK, который позволяет легко работать с данными в выбранном вами инструменте (подробнее об этом можно прочитать в руководство по Data.world Python SDK ).

Разработчики часто забывают, что при создании новых ИИ-решений или продуктов самое сложное — это не алгоритмы, а сбор и маркировка собранных данных.

Стандартные наборы данных можно использовать для проверки или в качестве отправной точки для создания более специализированного решения.

Еще одно популярное заблуждение — идея о том, что решение проблем, связанных с одним набором данных, — это то же самое, что тщательное продумывание всего вашего продукта.

Используйте эти наборы данных для проверки или проверки своих идей, но не забудьте протестировать или создать прототип того, как работает продукт, и получить новые, более надежные данные, которые помогут вам усовершенствовать свой продукт. Успешные компании, ориентированные на данные, обычно уделяют большое внимание сбору новых, собственных данных, чтобы повысить производительность без увеличения риска.

Источники (по ссылкам вы также найдете еще больше примеров интересных датасетов): → Открытые данные для глубокого обучения КДНаггетс Подпитка золотой лихорадки: величайшие общедоступные наборы данных для искусственного интеллекта Теги: #Машинное обучение #программирование #данные #обучение #Открытые данные #набор данных

Вместе с данным постом часто просматривают: