Нейронная Сеть Научилась Рисовать Сложные Сцены Из Текстовых Описаний



Нейронная сеть научилась рисовать сложные сцены из текстовых описаний

Исследовательская группа Майкрософт представлен генеративно-состязательная нейронная сеть, способная генерировать изображения с несколькими объектами на основе текстового описания.

В отличие от более ранних аналогичных алгоритмов преобразования текста в изображение, которые могут воспроизводить только изображения базовых объектов, эта нейронная сеть лучше справляется со сложными описаниями.

Сложность создания такого алгоритма заключалась в том, что, во-первых, ранее бот не мог в хорошем качестве воссоздать все базовые объекты по их описаниям, а, во-вторых, он не мог анализировать, как несколько объектов могут соотноситься друг с другом внутри.

одна композиция.

Например, чтобы создать изображение с описанием «Женщина в шлеме сидит на лошади», нейросети пришлось семантически «понять», как каждый из объектов соотносится друг с другом.

Эти проблемы были решены путем обучения нейронной сети на основе открытых Набор данных COCO , содержащий данные разметки и сегментации для более чем 1,5 миллиона объектов.



Нейронная сеть научилась рисовать сложные сцены из текстовых описаний

Алгоритм основан на объектно-ориентированной генеративно-состязательной нейронной сети ObjGAN (Object-driven Attentive Generative Adversarial Newtorks).

Он анализирует текст, извлекая из него слова-предметы, которые необходимо разместить на изображении.

В отличие от типичной генеративно-состязательной сети, которая состоит из одного генератора, создающего изображения, и одного дискриминатора, оценивающего качество сгенерированных изображений, ObjGAN содержит два разных дискриминатора.

Анализируется, насколько реалистичен каждый из воспроизведенных объектов и насколько он соответствует существующему описанию.

Второй определяет, насколько реалистична вся композиция и связана с текстом.

Предшественником алгоритма ObjGAN был AttnGAN, также развитый Исследователи Microsoft. Он способен генерировать изображения объектов из более простых текстовых описаний.

Технология преобразования текста в изображение может использоваться, чтобы помочь дизайнерам и художникам создавать эскизы.

Алгоритм ObjGAN располагается общедоступен на GitHub. Больше технических подробностей.

Теги: #Машинное обучение #microsoft #github #открытый исходный код #искусственный интеллект #нейронная сеть #нейронная сеть

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.