Как считается метрика? В продакшн-пайплайне у нас нет классического тестового датасета с «чистыми» ground truth разметками: ассортимент постоянно меняется, товары появляются и исчезают, а разметка обновляется инкрементально.
Поэтому основная E2E-метрика, которую мы можем считать автоматически, - это доля предсказаний, которые разметчик не изменил. Разметчик получает предразметку в виде top-1 предсказания текущего пайплайна. Если он подтверждает его, мы считаем такое предсказание корректным. Таким образом, метрика показывает, насколько часто система сразу даёт разметчику приемлемый результат, без необходимости ручной коррекции.
Эта метрика хорошо отражает реальную полезность системы в продакшне (экономию времени разметчиков и стабильность пайплайна). Однако у неё есть известное ограничение: в спорных случаях разметчики склонны подтверждать предсказание пайплайна, даже если они не полностью уверены в его корректности. Поэтому метрика имеет bias в сторону текущего решения и не является «чистой» accuracy в классическом ML-смысле. Тем не менее, при сравнении разных версий пайплайна в одинаковых условиях она хорошо коррелирует с реальным улучшением качества.