Недавно было опубликовано исследование специалистов Sony Уильяма Тонга и Алисы Сян и инженера-программиста Пшемыслава Йоньяка, которые считают, что в компьютерном зрении распространён одномерный подход, который пока не охватывает весь спектр оттенков человеческой кожи. Сейчас компании и разработчики используют шкалу цветов от светлого до тёмного. Исследователи Sony предлагают ввести новое измерение, которое охватывало бы диапазон от красного до жёлтого.
До сих пор стандартный способ проверки предвзятости алгоритмов, вызванной цветом кожи, использовал шкалу Фитцпатрика из шести оттенков, от самого светлого до самого тёмного. Изначально этот способ был разработан дерматологами для оценки реакции кожи на ультрафиолетовое излучение. В прошлом году Google представил шкалу социолога Гарвардского университета Эллиса Монка, назвав её более инклюзивной. В Monk Skin Tone уже 10 оттенков кожи.
Как пишет Wired, после появления доказательств, что основные алгоритмы анализа лиц были менее точными для людей с более тёмной кожей, такие компании, как Google и Meta, приняли меры и проверили эффективность своего ПО. Новая публикация исследователей Sony предполагает, что разработчики ИИ до сих пор не учитывают важнейший аспект разнообразия цвета человеческой кожи; а системы генеративного искусственного интеллекта, алгоритмы обрезки изображений и инструменты анализа фотографий предвзяты по отношению к людям с кожей жёлтого оттенка.
Работа исследователей Sony была представлена на Международной конференции по компьютерному зрению в Париже на этой неделе. Авторы рассказали, что они использовали международный стандарт цвета, известный как CIELAB, используемый при редактировании и производстве фотографий. При анализе фотографий людей с помощью CIELAB они обнаружили, что человеческая кожа на этих изображениях различается не только по тону (глубине цвета), но также по оттенку или по градации цвета.
Исследователи Sony протестировали системы искусственного интеллекта с открытым исходным кодом, в том числе программу обрезки изображений, разработанную Twitter, и пару алгоритмов генерации изображений. Во всех предпочтение отдавалось людям с кожей более красных оттенков, что потенциально ставило в невыгодное положение многие группы населения: выходцев из Азии, Латинской Америки и Ближнего Востока.
Чтобы отразить то разнообразие оттенков кожи, которое ранее игнорировалось, авторы работы предложили новый способ. Их система описывает цвет человеческой кожи, используя две координаты: по шкале от светлого до тёмного и по шкале от жёлтого до красного оттенков.
Когда команда Sony применила свой метод, она обнаружила отклонения и в генеративных моделях, и в наборах обучающих данных. CelebAMask-HQ, популярный набор данных, используемый для обучения программ компьютерного зрения, содержал 82% изображений людей с перекосом в сторону красных оттенков кожи. В другом наборе данных FFHQ, разработанном Nvidia, таких изображений было 66%. Две генеративные модели искусственного интеллекта, обученные на FFHQ, тоже оказались предвзяты: примерно четыре из пяти изображений, сгенерированных каждой из них, были искажены в сторону красных оттенков кожи.
Программы искусственного интеллекта ArcFace, FaceNet и Dlib лучше работали с изображениями людей с более красной кожей, когда их просили определить, соответствуют ли два портрета одному и тому же человеку. Облачные инструменты искусственного интеллекта от Microsoft Azure и Amazon Web Services для обнаружения улыбок также лучше работали с красными оттенками.
Не все согласны с результатами этого исследования. В комментарии для Wired социолог Гарвардского университета Эллис Монк заявил, что его шкалу Monk Skin Tone нельзя назвать одномерной. Кроме того, Монк критически оценил подход исследователей Sony из-за его полной автоматизации, когда при оценке не учитывается человеческое мнение. Он опасается, что объективные меры, подобные тем, что предложили исследователи Sony, могут привести к упрощению или игнорированию других сложных аспектов человеческого разнообразия.