Технология Google Увеличивает Разрешение Изображения До 16 Раз Без Потери Качества

В июле исследователи Google из Brain Team поделились своими достижениями в области масштабирования изображений.

Результаты своего исследования они опубликовали в блоге.

Google ИИ , посвященный исследованиям и разработкам в области машинного обучения и искусственного интеллекта.

В статье под названием «Создание высокоточных изображений с использованием диффузионных моделей» ( Генерация изображений высокой точности с использованием моделей диффузии ) была продемонстрирована технология масштабирования изображений на основе диффузионных моделей.

Говоря простым языком, Image Super-Resolution — это технология «умного» увеличения изображения.

Он заключается в обучении модели преобразованию изображения с низким разрешением в изображение с высоким разрешением (технология RAISR).

был описан в блоге Google AI в 2016 году).

Если быть точным, то в последней публикации описан подход, основанный на сочетании двух алгоритмов — SR3 и CDM. Он позволяет создавать изображения высокого разрешения без заметной потери качества.

СР3- Сверхразрешение благодаря многократным улучшениям - масштабирование путем многократного уточнения.

МЧР- Каскадные диффузионные модели - модели каскадной диффузии.

Сверхразрешение благодаря многократным улучшениям SR3 принимает на вход изображение с низким разрешением и пытается создать изображение с более высоким разрешением, добавляя к нему гауссовский шум и размытие каждый раз, когда оно повторяется.

Полученное изображение по существу содержит чистый шум.

Далее происходит обратный процесс — модель постепенно убирает шум для достижения желаемого результата.

Обученная на огромном массиве данных модель SR3 показывает хорошие результаты в задачах масштабирования в 4-8 раз изображений лиц и изображений объектов дикой природы: 64x64 → 256x256 (4 раза) и 256x256 → 1024x1024 (4 раза).

Объединив модели в каскад, можно масштабировать изображения до 16 раз: 64x64 → 1024x1024. Как оценить качество работы SR3? Результаты модели сравниваются с результатами других моделей.

Людям, участвующим в эксперименте, предлагается выбрать изображение, которое, по их мнению, было снято фотоаппаратом (так ставится вопрос).

Участники выбирают между изображением, созданным моделью, и исходным изображением с камеры.



Технология Google увеличивает разрешение изображения до 16 раз без потери качества

Результаты масштабирования трех алгоритмов (Бикубический, Регрессия, SR3): вверху — изображения с лицом (64х64 → 512х512), внизу — изображения животного (64х64 → 256х256).

Исходное изображение в правом столбце.

Эффективность модели измеряется с помощью коэффициента путаницы: в каком проценте случаев участники эксперимента выбирают результат модели, а не эталонное изображение (а идеальный алгоритм дает как раз «50-процентный коэффициент путаницы»).

Результаты этого исследования показаны ниже:

Технология Google увеличивает разрешение изображения до 16 раз без потери качества

Вверху: коэффициент путаницы в лицевой задаче (16x16 → 128x128).

Внизу: уровень путаницы в гораздо более сложной задаче, связанной с изображениями дикой природы (64x64 → 256x256).

Каскадные диффузионные модели CDM обучается на огромном количестве изображений из базы данных ImageNet, которые представляют собой довольно сложный набор данных.

Именно по этой причине CDM построен как каскад нескольких моделей.

Каскадный подход представляет собой цепочку из нескольких генеративных моделей, каждая из которых выдает изображение с разным разрешением: одна диффузионная модель генерирует изображение низкого разрешения, которое обрабатывается SR3, постепенно увеличивая разрешение до максимально доступного.

GIF 4,5 МБ

Технология Google увеличивает разрешение изображения до 16 раз без потери качества

Масштабирование изображения от 32x32 до 256x256. Информации о фактическом внедрении или коммерческом использовании пока нет.

Технология Google увеличивает разрешение изображения до 16 раз без потери качества

Изображения, созданные из изображений с низким разрешением.

Дополнительные материалы:

  1. Оригинальная статья
  2. Технология РАИСР
  3. BigGAN-метод глубокого масштабирования изображения
  4. Метод масштабирования изображения VQ-VAE-2
Теги: #Машинное обучение #Алгоритмы #Google #искусственный интеллект #ИИ #машинное обучение #Обработка изображений #CDM #SR3
Вместе с данным постом часто просматривают: