В предыдущей (вводной) статье мы дали определения и математическое описание базовым понятиям связанным с Uplift моделированием. Рассмотрели принцип работы популярных Uplift моделей и их недостатки, а так же установили, как мы рассчитываем итоговый инкремент , дали определения контрольной и тестовой группам. А так же условились, что же такое воздействие на пользователя .
Среди проблем с которыми сталкиваются современные Uplif модели, пожалуй, самая серьезная - counterfactual sample pairs problem, рассмотренная так же в предыдущей статье.
Данная статься посвящена как раз нивелированию данной проблемы. Так как мы используем архитектуру KDSM Uplift modeling, то первые две буквы аббревиатуры (KD - Knowledge Distillation) представляют собой название модели, задача которой является создание подмножеств генерального множества, таким образом чтобы минимизировать или же по крайней мери свести к минимуму влияния counterfactual sample pairs problem на результат и точность итоговой модели. Само по себе слово Distillation намекает, что мы будем стремиться стратифицировать множество таким образом, чтобы можно было найти “похожих” друг на друга пользователей и из и соответственно, объединить их в одно подмножество, чтобы в дальнейшем можно было сделать допущение, что и представляют из себя уже единого синтетического пользователя . Где пользователь вместе с его параметрами выполняет роль пользователя, с которым мы не взаимодействовали , а пользователь вместе с его параметрами выполняет роль пользователя , с которым мы провзаимодействовали .