Как ИИ сделает вас стройнее

Блог компании Cloud4Y Машинное обучение *Искусственный интеллект

Перевод

Благодаря фотошопу и более простым фильтрам для улучшения портретов каждый может создать лучшую версию себя. С коррекцией фигуры всё несколько сложнее: это требует более глубоких умений в области ретуши. Впрочем, уже совсем скоро можно будет добавить мускулов или убрать последствия ночных дожоров за пару секунд.

Новое исследование академии Alibaba DAMO предлагает автоматически улучшать фигуру на фото с помощью искусственного интеллекта. Это не самое популярное направление в сфере компьютерного зрения, которое в настоящее время больше занимается манипуляциями с лицами, такими как дипфейки и редактирование лица на основе GAN. Однако спрос на него явно есть — в этих ваших инстаграмах полно людей, желающих выглядеть лучше.

Нейросеть в первую очередь оценивает положение костей скелета. Это позволяет справиться с основной проблемой систем синтеза и редактирования изображений во время концептуализации и параметризации изображений тела. Появляется возможность достичь хотя бы того уровня детализации, который позволяет выполнять осмысленное и выборочное редактирование.

Карты скелета помогают индивидуализировать подход и сосредоточить внимание на тех участках тела, которые могут быть отретушированы, например, область плеча.

В конечном итоге система позволяет пользователю устанавливать параметры, которые могут сделать тело стройнее или визуально увеличить мышечную массу людей, которые сфотографированы в полный рост или до середины бедра, а также выполнить преобразования на участках тела в одежде или без одежды.

Цель работы — автоматизировать процессы ретуши, на которые у фотографов и ретушёров, работающих в СМИ, сфере моды, в рекламе и т.п., уходит много времени и сил.

Сейчас подобные преобразования осуществляются методами «деформации» в Photoshop и других графических редакторах, причём чаще всего — для корректировки изображения женщин. Поэтому пользовательский набор данных для обучения нейросети в основном состоит из изображений женщин разнообразных возрастов, рас (африканцы: азиаты: европеоиды = 0,33: 0,35: 0,32), поз и в разной одежде.

Разработка набора данных

Как это обычно бывает с системами синтеза и редактирования изображений, архитектура проекта требовала индивидуального набора обучающих данных. Авторы поручили трем фотографам произвести стандартные манипуляции в Photoshop с подходящими изображениями с сайта стоковой фотографии Unsplash, в результате чего был создан набор данных под названием BR-5K*, состоящий из 5000 высококачественных изображений с разрешением 2K.

Поскольку фреймворк вообще не работает с лицами, они были размыты перед включением в набор данных.

Исследователи подчеркивают, что цель обучения на этом наборе данных состоит не в том, чтобы создать некий общий идеал внешности, а скорее в том, чтобы ИИ понял основные принципы профессионального редактирования фигуры на фото.

Архитектура и основные концепции

Рабочий процесс системы построен следующим образом. На входе подаются портреты с высоким разрешением. Далее происходит понижение разрешения до более низкого, с которым могут справиться имеющиеся вычислительные ресурсы. Происходит извлечение предполагаемого положения костей скелета (второй рисунок слева на изображении ниже), а также полей сродства частей (PAF), которые были разработаны в 2016 году Институтом робототехники Университета Карнеги-Меллона (см. видео ниже).

Поля сходства частей помогают определить ориентацию конечностей и общую связь с полной структурой скелета, предоставляя новому проекту дополнительный инструмент внимания/локализации.

PAF кодируют ориентацию конечности как часть двумерного вектора, который также включает общее положение конечности

Несмотря на их кажущуюся нерелевантность по отношению к внешнему виду тела, карты скелета полезны для направления окончательных трансформационных процессов на части тела, подлежащие изменению (плеч, ягодиц и бедер).

После этого результаты передаются в систему Structure Affinity Self-Attention (SASA)

SASA регулирует согласованность генератора потока, который подпитывает процесс. Результаты затем передаются модулю деформации (второй справа на изображении выше). Этот модуль применяет преобразования, полученные в результате обучения нейросети.

Модуль SASA распределяет внимание на соответствующие части тела, помогая избежать лишних или неуместных трансформаций.

Выходное изображение впоследствии повышается до исходного разрешения 2K, при этом используются процессы, не отличающиеся от стандартной архитектуры дипфейков 2017 года, из которой выросли такие популярные пакеты, как DeepFaceLab. Процесс повышения частоты дискретизации также распространен в средах редактирования GAN.

Сеть внимания для схемы смоделирована на основе Compositional De-Attention Networks ( CODA ), которая была результатом академического сотрудничества США и Сингапура в 2019 году с Amazon AI и Microsoft.

Тесты

Фреймворк был протестирован с использованием предыдущих, основанных на потоках методов FAL и Animating Through Warping ( ATW ), а также архитектур преобразования изображений Pix2PixHD и GFLA с SSIM, PSNR и LPIPS в качестве показателей оценки.

Результаты первоначальных тестов (направление стрелки в заголовках указывает на то, какие значения лучше: более низкие или более высокие).

Исходя из этих показателей, новая система превосходит прошлые архитектуры.

В дополнение к автоматическим метрикам, было проведено пользовательское исследование (последний столбец таблицы результатов), где 40 участникам задали по 30 вопросов, случайно выбранных из пула в 100 вопросов. Вопросы касались изображений, полученных с помощью различных методов. 70% респондентов оценили новую технику как более «визуально привлекательную».

Проблемы

Пока проект ограничивается изменением самого тела, в нём не реализована какая-либо техника рисования, которая могла бы восстановить фон, неизбежно деформируемый при коррекции фигуры.

Однако исследователи предполагают, что матирование портрета и смешивание фона с помощью текстурного вывода могут тривиально решить проблему восстановления окружающих объектов.