一个简单的解决方式是构造实验变量和特点变量的交互项而且拟合一个线性函数:对没有交互项的函数,求解的实验效应是常数,即所有人实验效应相同;对于有交互项的函数,求解的实验效应是一个关于特点变量X的函数。对于该种HTE的方式,我们也可以称其为CATE (conditional average treatment effect),因为它conditional on 了特点变量X。
Q2:应用中研究的Uplift 模型中,什么情况下 meta learner 间接建模会比 casual tree 直接建模对 Uplift 效果更好?
A2:meta learner 在离线分析中的使用可能较少,多使用于线上剖析,因为它最大的优点是速度快,在线训练模型可能有一定优势。但是缺点是它不灵活,大部分 meta learner 只能对离散的实验变量去做建模。我们在对连续实验变量建模时,做了大量 research ,最后设计了一种可以拉通比较离散实验变量和连续实验变量模型的表现的方式,从而促使我们在模型选择上愈加灵活。
Q3:模型是如何评估的,如何判断模型是否确切?
A3:将数据分为训练集和测试集,在测试集上拟合,使用root mean square error评定模型表现。
Q4:如何选择混淆诱因,实际发觉X选择对 DML 影响很大,如何判定结果的置信度?
A4:使用非实验数据的情况下,对X通常建议应选尽选。在双重机器学习模型的应用中,我们会对Model Y 和 Model T 的方差去做检验,看其是否明显相关,且它们的均值是否有明显区别。因为这是 DML 的假定,如果连这个基本的假定都不能满足,那必然是有一个比较大的混淆诱因被 left over ,需要重新再去筛查。