United Kingdom Creative Ideas Ltd. (UKCI) — международная компания с центральным офисом в Лондоне, являющаяся регистратором и владельцем доменной зоны. Основной проект компании — управление доменной зоной .art. Помимо этого, они развивают сервисы для художников и коллекционеров, объединяя искусство и технологии.
UKCI обратились к нам, чтобы разработать технологию для оценки произведений искусства с помощью смартфона. Суть идеи заключается в следующем: пользователь делает фотографию картины, и приложение автоматически определяет, кто является ее автором и когда она была написана.

Задачи
- Разработать алгоритм, который сопоставляет картину на фотографии с ее оригиналом из каталога музея The Metropolitan (The Met).
- Оценить качество поиска по каталогу, выявить основные проблемы и сформировать план их решения.
Решение
- Мы собрали данные, интегрировавшись с датасетом MetObjects. Это хранилище данных музея The Met, в котором описано примерно 470 000 объектов искусства.
- После анализа данных наша система теперь способна за 2 секунды определить характеристики картины: автора, век и название.
КАК ВСЕ УСТРОЕНО
Система ищет картины двумя способами:
- Через API музея The Met по ключевым словам: например, painting, landscape, portrait и др.
- По ключевым словам в датасете MetObjects.
ID картин, найденных этими способами, объединили. Всего таким образом нашли около 25 000 объектов.
Мы протестировали несколько алгоритмов для распознавания и сбора изображений. Один из них — эмбедеры.
Эмбедер — это нейронная сеть. Такая модель обучается как классический классификатор. На этапе применения модели обычно используется последний полносвязный слой, который преобразует изображение в числовой вектор длины n.
Эмбедер — это нейронная сеть. Такая модель обучается как классический классификатор. На этапе применения модели обычно используется последний полносвязный слой, который преобразует изображение в числовой вектор длины n.

SIFT и алгоритмы классического компьютерного зрения
Мы протестировали классические архитектуры классификаторов, такие как ResNet50 и MobileNet, а также архитектуры с использованием слоя ArcFace. Этот слой на этапе обучения увеличивает расстояние между эмбеддингами объектов разных классов.
Для уменьшения риска переобучения модели под обучающую выборку мы использовали различные форматы входных изображений, включая намеренные искажения.
Как только общие точки между двумя изображениями найдены, к ним можно применить специальные тесты для фильтрации шумовых совпадений. По количеству найденных общих точек между двумя изображениями судят о том, насколько эти изображения похожи.
Как только общие точки между двумя изображениями найдены, к ним можно применить специальные тесты для фильтрации шумовых совпадений. По количеству найденных общих точек между двумя изображениями судят о том, насколько эти изображения похожи.

Пайплайн
- Определение картин на фото.
- Матчинг выделенных детектором картин.
- Расширение каталога.
Детекция картин на фото
В качестве детектора была обучена модель CenterNet ResNet50. Для этого собрали обучающую выборку. Она включает в себя 367 фотографий музеев. Затем провели разметку картин и рисунков на этих фотографиях.

Тестирование
Детектор и пайплайн мы тестировали на тех же выборках, что и эмбедеры. Однако возникла сложность: на тестовых фотографиях присутствовала только одна картина, тогда как в реальных условиях в кадр могут попадать и соседние объекты. Чтобы убедиться, что детектор работает, мы решили научить его узнавать и их.

Сбор информации по выделенным детектором картин
После того как детектор выделяет все интересующие картины на фотографии, система приступает к поиску их соответствий в базе. Здесь возникает нюанс: мы используем расширенную валидацию, включающую не только основные картины, но и дополнительные, находящиеся рядом с ними.
Однако для большинства таких дополнительных картин у нас нет разметки на класс. Иными словами, в базе нет картин, с которыми их можно сопоставить. Поэтому следующая задача - расширить каталог.
Расширение каталога
Мы рассматриваем несколько способов расширения каталога, наиболее простой из которых — использование датасета Wikiart.
Изначально он содержал 81 000 картин, разбитых по стилям. Названия изображений включали только имя художника и название произведения.
Изначально он содержал 81 000 картин, разбитых по стилям. Названия изображений включали только имя художника и название произведения.
РЕЗУЛЬТАТЫ
- Алгоритм матчинга работает не только с фотографиями картин, но и с фотографиями рисунков.
- Выстроен рабочий пайплайнохватывающий весь процесс — от детекции картин и рисунков на фотографиях до их матчинга.
- Каталог был расширен до 90 000 объектов, включая картины и рисунки, а пайплайн успешно справляется с глобальным поиском, демонстрируя хорошие результаты.
Используемые технологии
- MetObjects
- ResNet50
- MobileNet
- Pytorch
- FAISS
Команда
- Андрей Татаринов, СТО;
- Александр Козлов, тимлид;
- Анна Закутняя, ML-инженер.