Задержание активистки омоновцами, скрывающими свое лицо, на протестах в Минске
Видеоролик о том, что компьютерные технологии позволяют с высокой точностью распознавать лица людей, носящих защитную маску или балаклаву, и таким образом вычислить белорусских омоновцев, причастных к избиениям и задержаниям мирных демонстрантов, вызвал бурную реакцию в интернете. DW спросила у Валерия Тимошенко - эксперта по системам распознавания лиц - о том, что в подобном утверждении правда, а что - преувеличение.
DW: Валерий, действительно ли существуют компьютерные технологии, позволяющие узнавать людей, частично скрывших свое лицо?
Валерий Тимошенко: Такие технологии есть на самом деле, и они довольно широко применяются в разных продуктах. На данный момент немало программ, позволяющих распознавать людей в шарфах, шапках или даже с закрытым лицом. Они используются как в коммерческой области, так и в силовом блоке. К реализации таких программ есть два подхода. Первый - это так называемое "честное распознавание", которое позволяет определять людей по лицам, частично закрытым очками, шарфами или головным убором.
При этом задействуют нейронные сети. По фотографии делается цифровой слепок лица по ключевым точкам, которые с возрастом обычно не меняются. Это межзрачковое расстояние и другие анатомические особенности лица. Далее на основании этих электронных метаданных делается сравнение лиц и получается необходимый "результат похожести", который задается в процентах - например, 80-90 процентов.
Во втором случае может использоваться так называемая deepfake-технология. Это технология генеративно-состязательных сетей, которые на основании фотографий дорисовывают части лица либо все лицо целиком. Примеров deepfake-видео достаточно много в интернете. Какой подход выбирать, решает каждый разработчик.
- Какая часть лица должна быть видна, чтобы честное распознавание было более-менее точным?
- Объективно для точности распознавания хотя бы на 60-70 процентов необходимо, чтобы алгоритмам системы нейронного обучения было видно для обработки как минимум 50 процентов лица.
- Какова тогда вероятность того, что компьютер сможет распознать человека, на лицо которого надета балаклава?
- Опять же для эффективного распознавания не менее 50 процентов лица должно быть открыто, либо на изображении должны присутствовать какие-то его отличительные признаки, например, родинки или шрамы. Это тот признак, за который нейросеть может зацепиться и далее сравнивать его с исходной фотографией, давая процент похожести, достаточный для того, чтобы убедиться, что это тот самый человек.
- Какой из этих двух принципов распознавания, по вашему мнению, был использован в ролике?
- Я внимательно просмотрел запись несколько раз, но не могу ничего утверждать абсолютно точно. Сейчас в открытом доступе достаточно много программ, которые позволяют реализовать такой интерфейс и сравнение фотографий один к одному. Самая широко известная - это программа российского разработчика Fake Face. Она позволяет находить, в том числе, родственников и похожих на искомого человека людей во "В контакте", Facebook и любых социальных сетях. Однако на данный момент тестирование этой программы было остановлено.
Другой пример того, как можно дорисовать лицо или наложить его на другой фон, есть на любом компьютере, на котором установлен Skype. Сейчас я нахожусь в космическом корабле, а сейчас - на территории после пожара и т.д. Так что deepfake-технология, которая позволяет дорисовывать лица, доступна самым широким слоям населения и любому техническому специалисту.
Вопрос в том, какая технология была использована создателями ролика - было ли это честное распознавание? Действительно ли ребята сделали нейросеть, проработали алгоритмы, собрали бокс фотографий и обучили эту нейронную сеть распознавать такие вещи? Или все это - технология дипфейка, которая делает лишь красивую картинку? Если это так, то это означает, что на базе генеративно-состязательных сетей были сделаны маски, которые накладывались фотографии из соцсетей, чтобы получилось то, что мы видим в ролике. Если сделали первое - поздравляю, это большая работа. Если второе - сожалею.
- К какому варианту - первому или второму - вы все-таки склоняетесь?
- В принципе то, что показано в видео, можно сделать на данном технологическом уровне, но для этого потребуется довольно мощный ресурс, нужны специалисты по нейросетям, программисты, чтобы написать алгоритм, который будет адекватно работать и давать хорошую точку попадания и сравнения. Маленькой команде этого не сделать.
Rəy yaz