В предыдущей (вводной) статье мы дали определения и математическое описание базовым понятиям связанным с Uplift моделированием. Рассмотрели принцип работы популярных Uplift моделей и их недостатки, а так же установили, как мы рассчитываем итоговый инкремент
, дали определения контрольной
и тестовой
группам. А так же условились, что же такое воздействие
на пользователя
.
Среди проблем с которыми сталкиваются современные Uplif модели, пожалуй, самая серьезная - counterfactual sample pairs problem, рассмотренная так же в предыдущей статье.
Данная статься посвящена как раз нивелированию данной проблемы. Так как мы используем архитектуру KDSM Uplift modeling, то первые две буквы аббревиатуры (KD - Knowledge Distillation) представляют собой название модели, задача которой является создание подмножеств генерального множества, таким образом чтобы минимизировать или же по крайней мери свести к минимуму влияния counterfactual sample pairs problem на результат и точность итоговой модели. Само по себе слово Distillation намекает, что мы будем стремиться стратифицировать множество таким образом, чтобы можно было найти “похожих” друг на друга пользователей
и
из
и
соответственно, объединить их в одно подмножество, чтобы в дальнейшем можно было сделать допущение, что
и
представляют из себя уже единого синтетического пользователя
. Где пользователь
вместе с его параметрами
выполняет роль пользователя
, с которым мы не взаимодействовали
, а пользователь
вместе с его параметрами
выполняет роль пользователя
, с которым мы провзаимодействовали
.