кто такой специалист по валидации

Валидация моделей машинного обучения

На связи команда Advanced Analytics GlowByte и сегодня мы разберем валидацию моделей.
Иногда термин «валидация» ассоциируется с вычислением одной точечной статистической метрики (например, ROC AUC) на отложенной выборке данных. Однако такой подход может привести к ряду ошибок.

В статье разберем, о каких ошибках идет речь, подробнее рассмотрим процесс валидации и дадим ответы на вопросы:

Расширяем понятие валидации

Что не так с валидацией как вычислением одной точечной статистической метрики на отложенной выборке данных?

Аргумент против № 1: одна метрика не может учесть все аспекты качества модели. Качество модели измеряется не только предсказательной способностью, но и, например, стабильностью во времени.

Аргумент против № 2: количественные оценки не всегда согласуются с бизнес-метриками и поэтому вводятся дополнительные. Например, мы можем разработать модель с хорошей интегральной оценкой, но при попытке интерпретации модели в разрезе отдельных факторов может выясниться, что фактор, который по бизнес-логике при увеличении значения должен снижать прогнозный показатель, в разработанной модели, наоборот, его повышает.

Аргумент против № 3: точечная оценка может варьировать в зависимости от состава валидационной выборки, особенно это касается не сбалансированных выборок (с соотношением классов 1:50 или более значимым перекосом). Поэтому стоит дополнительно делать интервальные оценки.

Аргумент против № 4: актуальные данные могут отличаться от исторических, на которых была построена модель, поэтому валидацию стоит делать и на актуальном срезе данных.

Аргумент против № 5: реальные проекты обычно представляют собой набор неоднородных (по сложности и перечню используемых технологий) скриптов, в которых могут быть неточности или неучтенные варианты поведения. Поэтому для корректной работы всего проекта необходимо проводить дополнительную проверку реализации модели, подготавливаемой к развертыванию, причем стоит учитывать не только зависимости между скриптами в проекте, но и порядок их запуска: при несоблюдении порядка они могут отработать без ошибок, но сформировать абсолютно не верный результат.

Валидация и жизненный цикл модели

Валидация — комплексный процесс, который осуществляется на протяжении всего жизненного цикла модели. Ее можно декомпозировать на составные части в соответствии с этапами жизненного цикла. На схеме ниже обозначено:

Профилирование (аудит витрины) осуществляется на этапе подготовки данных. Здесь проверяется соответствие собранных данных поставленной задаче, а также с помощью простых метрик (например, число пропусков в данных, диапазон значений в разрезе отдельных атрибутов) определяется качество витрины.

Когда модель построена, выполняется первичная валидация, чтобы доказать работоспособность и оценить целесообразность внедрения разработанной модели.

На этапе внедрения проводится два вида проверок.

Тут может появиться вопрос, чем валидация отличается от мониторинга. Если коротко, то мониторинг — более легковесный процесс, проводимый с большей частотой.

Методика валидации

Все используемые при валидации тесты можно разделить на две группы: количественные и качественные.

В качестве артефакта по результатам валидации предоставляется отчет:

Рассмотрим детальнее список тестов для моделей бинарной классификации на примере модели прогноза вероятности дефолта (PD-модели) по кредитному договору (подробнее о PD-моделях см. [1]).

Количественная оценка

К группе относятся расчеты метрик и статистические тесты, которые оценивают качество модели на разных этапах и разных уровнях (перечисляем не все, возможны и другие).

1. Дискриминационная способность модели

После разработки модели первый вопрос, который интересует бизнес-заказчика: а насколько хорошо модель справляется со своей задачей? Если мы построили PD-модель, то этот вопрос звучит так: насколько хорошо модель отделяет клиентов, которые уйдут в дефолт, от тех, кто в дефолт не уйдет, и насколько лучше эта модель, чем случайное угадывание?

Чтобы ответить на это вопрос, проводим тесты:

В случае бинарного целевого события коэффициент Джини рассчитывается как отношение площадей двух фигур:

Альтернативный способ определения метрики — пузырьковая сортировка (подробнее см. [2]). Пусть имеется список значений целевого события, порядок в котором совпадает с порядком значений вероятности, прогнозируемых моделью. Тогда показатель Swaps будет обозначать количество перестановок соседних элементов для приведения списка целевых событий к отсортированному виду без инверсий.

На примере ниже число таких перестановок Swaps = 2.

где: – число перестановок для валидируемой модели, – для случайной модели.

Однако, как видно из такой интерпретации, рост коэффициента Джини не всегда означает повышение пользы модели для бизнеса, поскольку не подразумевает изменения в ранжировании в сегменте пользователей, который интересен с точки зрения бизнеса. Ведь при подсчете перестановок не учитываются позиции элементов: на рисунке ниже отображены две возможные модели, которые улучшают базовую на одну перестановку: до порога отсечки и после. Обе модели одинаково улучшат значение метрики Джини, но с точки зрения бизнес-постановки задачи первая модель лучше, так как улучшает ранжирование после порога, среди клиентов, которым будет выдан кредит. Поэтому наравне с Джини нужны другие метрики — о них дальше.

О расчете коэффициента Джини для небинарных целевых событий см. в статье из цикла про риск-моделирование ([3]).

Если выборки не сбалансированы, то используется интервальная оценка с помощью техники бутстрэп. На основе исходной выборки генерируется B (

1000 и более) подвыборок, для каждой из которых рассчитывается коэффициент Джини. Затем проверяется, что заданный заранее перцентиль полученного распределения не пересекает фиксированный порог (например, если 2.5% перцентиль распределения коэффициентов Джини меньше 30%, то по тесту может быть выставлена оценка в виде красного сигнала).

Однако формирование подвыборок с помощью бутстрэпа – вычислительно сложная задача, которая может занять длительное время. С целью ее ускорения используется пуассоновский бутстрэп.

Извлечение с повторением элементов выборки размера n с фиксированной вероятностью можно заменить на сэмплирование с помощью биномиального распределения частот появления каждого элемента выборки. При условии достаточно большого размера выборки выполняется следующий переход от биномиального распределения к пуассоновскому [4]:

2. Оценка стабильности

Мы разработали модель, проверили ее дискриминационную способность, задеплоили, но спустя несколько месяцев показатели нашей модели ухудшились. После выяснения причин оказалось, что для обучения были отобраны нерепрезентативные данные. Вернемся назад во времени, попробуем предотвратить такую ситуацию и добавим еще один блок в отчет о валидации: стабильность.

где: — доля наблюдений с i-м значением фактора; — количество наблюдений, соответствующих i-му значению фактора; — общее количество наблюдений в выборке ( — валидационная выборка, — выборка для разработки). (Если вы хотите почитать, в каких случаях еще используется PSI, см. например, статью про моделирование компоненты LGD из цикла про риск-моделирование [3].)

Один из способов интерпретации PSI – через дивергенцию Кульбака–Лейблера [5], меру удаленности двух распределений P и Q:

Мера несимметрична () и из двух срезов данных мы не можем выбрать априорное распределение, с которым будет проводиться сравнение, поэтому для симметричности оценки можно использовать сумму двух мер от P до Q и от Q до P:

Когда мы убедились в стабильности модели, надо проверить, что уверенность модели в сформированных прогнозах соответствует моделируемым значениям целевого события. Для этого применяется калибровка. Здесь мы кратко остановимся на том, как она работает, подробности будут описаны в статье, которая выйдет чуть позже (stay tuned).

Модель считается хорошо откалиброванной, если фактический уровень целевого события (доля наблюдений с фактическим целевым событием = 1) близок к средней прогнозируемой моделью вероятности. Для оценки качества калибровки модели можно проверять попадание наблюдаемого уровня целевого события в доверительный интервал предсказанных моделью вероятностей целевого события: в целом по модели или в рамках бакетов предсказанной вероятности.

Примеры тестов и метрик:

Для проведения биномиального теста диапазон всех вероятностей целевого события разбивается на бакеты по принятой в финансовой организации шкале (мастер-шкале) или по перцентилям. Для каждого бакета рассчитывается доверительный интервал по предсказаниям модели и определяется, попадает ли фактический уровень дефолта в доверительный интервал.

Для формирования итогового решения о стратегии взаимодействия с клиентом может возникнуть необходимость определять разряд по заранее заданной шкале на основе значения вероятности дефолта, спрогнозированного моделью. В таком случае стоит проверить, что в распределении наблюдений по разрядам рейтинговой шкалы отсутствует перекос. Иными словами, чтобы предотвратить попадание большинства всех наблюдений в один-два разряда из всего набора.

Для проверки концентрации используется индекс Херфиндаля–Хиршмана как в целом по выборке, так и в разрезе отдельных сегментов.

Рассчитывается по формуле:

Подводя итог этого раздела, приведем пример пороговых значений метрик валидации моделей бинарной классификации и соответствующие им риск-зоны. В таблице для каждой метрики указаны пороговые значения риск-зон.

Мы перечислили тесты, применимые к моделям в разных доменных областях. Но могут быть метрики, которые отражают специфику конкретного продукта. Например, при моделировании операционных рисков может быть установлено дополнительное ограничение, связанное с пропускной способностью подразделения, проводящего расследования по признанным моделью подозрительными наблюдениям. После того как модель присвоила скоры всем пользователям, топ 1% или 5% пользователей по скору передается для проверки такому подразделению, другие пользователи не будут проверяться. Поэтому необходимо, чтобы максимальное число клиентов с y_true=1 попали в топ 1% или топ 5%.

Также для отдельных моделей могут быть предусмотрены специфические тесты. Например, для LGD-моделей Loss Shortfall.

Loss Shortfall – метрика, указывающая, насколько потери от фактического дефолта оказались ниже, чем было предсказано моделью (методика расчета описана в [3]). По шкале выставления оценки для метрики Loss Shortfall видно (см. рисунок ниже), что оценка риска в данном случае производится консервативно, модель считается хорошей только в тех случаях, когда предсказанные потери выше, чем наблюдаемые.

Качественные тесты

Не все аспекты качества модели можно оценить количественно, поэтому вместе с ними при валидации применяются качественные тесты. Что можно проверять с их помощью?

1. Качество документации модели. Для обеспечения воспроизводимости модели необходима хорошая документация.

Оценить качество документации можно, определив, насколько хорошо задокументированы:

2. Дополнительно можно проверить качество использованных при разработке данных:

Заказчик может дополнительно запросить интерпретацию модели: если это регрессионная модель, то коэффициенты факторов; если decision tree/decision list, то набор правил; если более сложные модели, то отчет интерпретаторов SHAP/LIME.

Эта информация поможет пройти приемку модели, поскольку наглядно показывает, что все важные фичи, на которых модель делает выводы, подкреплены бизнес-логикой.

Model performance predictor (MPP)

В определенных задачах бывает необходимо прогнозировать события, которые произойдут спустя месяцы. Например, клиент не выполнит свои обязательства по кредитному договору в течение года. Из-за этого лага возникает проблема: как понять, что модель стала хуже работать, до того как мы сможем увидеть это, до получения фактических значений целевого события?

Для решения такой проблемы наряду с основной строится дополнительная модель — Model Performance Predictor (MPP) [6].

Схема обучения MPP-модели

Для разработки MPP-модели используется тестовая выборка основной модели. Шаги по построению MPP-модели.

Заключение

В завершение сформулируем принципы, которые гарантируют, что валидация модели будет эффективна:

Бинарное целевое событие:

Тест	Блок	Виды тестирования по уровню «модель/фактор»	Дополнительные уровни тестирования
Джини индекс: абсолютное значение	Предсказательная способность	На уровне модели / факторов	По всей выборке / на уровне сегментов
Тест Колмогорова–Смирнова	Предсказательная способность	На уровне модели	По всей выборке / на уровне сегментов
IV	Предсказательная способность	На уровне факторов	По всей выборке / на уровне сегментов
Тест хи-квадрат	Калибровка	На уровне модели	По всей выборке
Биномиальный тест	Калибровка	На уровне модели	По всей выборке
Джини индекс: изменение	Стабильность	На уровне модели	Абсолютное / относительное изменение относительно предыдущего среза
PSI	Стабильность	На уровне модели / факторов	По всей выборке / на уровне сегментов
Тест Колмогорова–Смирнова	Стабильность	На уровне факторов	По всей выборке / на уровне сегментов
Индекс Херфиндаля–Хиршмана	Концентрация	На уровне модели	По всей выборке / на уровне сегментов
VIF	Дополнительно	На уровне факторов для линейных моделей	По всей выборке
Парная корреляция	Дополнительно	На уровне факторов для линейных моделей	По всей выборке
Значимость факторов (p-value)	Дополнительно	На уровне факторов для линейных моделей	По всей выборке

Тест	Блок	Виды тестирования по уровню «модель/фактор»	Дополнительные уровни тестирования
Джини индекс (Loss Capture Ratio): абсолютное значение	Предсказательная способность	На уровне модели / факторов	По всей выборке / на уровне сегментов
Корреляция Спирмена: абсолютное значение	Предсказательная способность	На уровне модели / факторов	По всей выборке / на уровне сегментов
MAE	Калибровка	На уровне модели	По всей выборке
Тест Манна–Уитни	Калибровка	На уровне модели	По всей выборке
Джини индекс (Loss Capture Ratio): изменение	Стабильность	На уровне модели	Абсолютное / относительное изменение относительно предыдущего среза
Корреляция Спирмена: изменение	Стабильность	На уровне модели	Абсолютное / относительное изменение относительно предыдущего среза
PSI	Стабильность	На уровне модели / факторов	По всей выборке / на уровне сегментов
Тест Колмогорова–Смирнова	Стабильность	На уровне факторов	По всей выборке / на уровне сегментов
VIF	Дополнительно	На уровне факторов для линейных моделей	По всей выборке
Парная корреляция	Дополнительно	На уровне факторов для линейных моделей	По всей выборке
Значимость факторов (p-value)	Дополнительно	На уровне факторов для линейных моделей	По всей выборке

Материал подготовили: Илья Могильников (EienKotowaru), Александр Бородин (abv_gbc)

Источник

Идеальный валидатор

Опишите идеального специалиста по валидации?

Такой вопрос иногда задают при собеседовании. Это уловка, чтобы заставить соискателя рассказать о себе. По неведомым причинам прямой вопрос: «Расскажите о себе с профессиональной точки зрения» ставит человека в тупик, а просьба описать идеального валидатора снимает эту проблему.

А если все-таки рассказывать не о себе, а действительно ответить на вопрос о том какой он «Идеальный валидатор»?

С моей точки зрения идеальный это тот, который отвечает требованиям, которые предъявляются к нему на рабочем месте.

Валидационная деятельность на предприятии определяется следующим:

С точки зрения качества

С точки зрения количества

Качества специалиста по валидации

Варианты

1. Нестерильное производство, слегка GMP

Специалиста по валидации может не быть, а его обязанности распределены по другим сотрудникам. Если он есть, то занимается любой ерундой начиная от валидации чистых помещений при помощи анемометра и заканчивая валидацией процесса одевания бахил. Посещение обучений вызывает грусть тоску печаль от осознания неприменимости полученных знаний… Проводить работу по уму невозможно либо по причине Невалидируемости объектов, отсутствия оборудования, отсутствия в компании понимания того как и зачем это делать. Долго на этой работе не задерживаются.

1.1. Чем занимается специалист по валидации

Подготовкой документации для аудитов в полном отрыве от реальности.

1.2. Качества специалиста по валидации

2. Нестерильное производство, почти GMP, большой продуктовый портфель

В компании есть понимание требований GMP, есть порядок и правильная организация работы. Все посильные работы по валидации выполняются, если они не сильно затратные и не требуют специального оборудования. При особо острой необходимости приглашаются аутсорсеры.

2.1. Чем занимается специалист по валидации

Всем понемногу, зависит от того, что уже сделано, что необходимо делать по контролю изменений и задач перед предприятием.

2.2. Качества специалиста по валидации

3. Предприятие: нестерильное производство, GMP

Бизнес-процессы отлажены и организованны. Персонал обучен и квалифицирован. Требования GMP соблюдаются строго, иногда со всем необходимым формализмом. Вопрос о деньгах как правило не стоит.
Самодурство отдельных сотрудников пресекается корпоративной политикой и внутренними инструкциями.

3.1. Чем занимается специалист по валидации

Много рутинной работы. Возможен проектный подход. Распространено использование аутсорсеров.

3.2. Качества специалиста по валидации

Асептика

Большой объем работ с использованием сложного и дорогого измерительного оборудования. Это всегда отдел Минимум 3 человека.

Если портфель продуктов маленький, то достаточно трех, если большой, то требуется больше людей на бумажную работу.

Отдел валидации также необходим для устранения внеплановых проблем.

По определению требуется порядок, и организация вариант «слегка GMP» не применим.

4. Асептическое производство, почти GMP

В компании есть понимание требований GMP, есть порядок и правильная организация работы. Все критические работы по валидации выполняются.

4.1. Чем занимается специалист по валидации

На предприятии большой парк валидационного оборудования. Большой объем измерительных работ с возможностью «Закрывать глаза» на ряд требований, не прописанных в Российских НД. Постоянный поиск баланса «Важно/не важно» «Нужно/не нужно».

4.2. Качества специалиста по валидации

Бумажной работы не много, учитывая, что у нас по определению отдел, а не один сотрудник. Много как рутинной, так и нерутинной работы, поэтому нужны люди как на рутину, так и на «Интерес». Разные требования к разным специалистам и к руководителю.

5. Асептическое производство, GMP

Бизнес-процессы отлажены и организованны. Персонал обучен и квалифицирован. Требования GMP соблюдаются строго, иногда со всем необходимым формализмом. Вопрос о деньгах не стоит.

5.1. Чем занимается специалист по валидации

Большой объем всего. Каждое предприятие уникально по распределению функционала и по подходу к решению задач. Многие задачи требуют качественно нового уровня решения.

5.2. Качества специалиста по валидации

Вопрос про требования к специалисту по валидации теряет смысл.

6. Холдинг

Все вышеупомянутые проблемы, собранные в одной компании. Работу осложняют командировки. Личное разгильдяйство сведено к минимуму. Самая большая текучка кадров.

Пока все. Каждый раз когда смотрю на этот текст хочется написать его по-другому, поэтому, пока оставлю так.

2 комментария к “Идеальный валидатор”

Здравствуйте Kirillcheg! Дай Бог Вам здоровья, читаю Вашу статью и умираю от смеха))) как говорится и смех и грех. Вариант 1 это наверное 70% фарм предприятий на постсоветском пространстве. И как будто Вы на всех их побывали. У Вас хорошее чувство юмора))). (Если он есть, то занимается любой ерундой начиная от валидации чистых помещений при помощи анемометра и заканчивая валидацией процесса одевания бахил.))))

Пишите почаще, у Вас есть свои читатели.))))

Здравствуйте. Мне очень приятно прочесть такой теплый комментарий. Мотивирует писать еще, но увы я смотрю на этот цирк уже почти 15 лет и пишу все реже ибо ничего нового. Чувство юмора не у меня, а у жизни ибо я ничего не придумал. Интересный момент. Задумался о предприятиях на которых работал. Если считать не места работы, а связанные Юрлица, то да, список получается большой:)

Но главное — знание принципов компенсирует не знание фактов.