当前位置:网站首页>论文笔记:LBCF: A Large-Scale Budget-Constrained Causal Forest Algorithm

论文笔记:LBCF: A Large-Scale Budget-Constrained Causal Forest Algorithm

2022-06-25 15:54:00 #Super Pig

论文原文:M. Ai et al., “LBCF: A Large-Scale Budget-Constrained Causal Forest Algorithm,” in Proceedings of the ACM Web Conference 2022, New York, NY, USA, 2022, pp. 2310–2319. doi: 10.1145/3485447.3512103.

Motivation

该工作以金币下发场景为背景,评估金币下发数量对用户观看时长的因果效应,并基于评估结果设计了个性化下发机制。

challenge

  • 大规模用户量;
  • multi-treatment;

contribution

  • 提出了LBCF方法解决了以上两个问题;
  • 提出了新的模型效果评估指标;
  • 在真实数据上进行了实验;

related work:
这一部分主要是围绕自己的challenge讲述了现有工作的不足,共分两类:

  • 第一类:LBCF批评他们在进行决策时采用贪心策略,并且通过举例说明这类贪心策略无法达到treament effect的最优值【表1】
  • 第二类:LBCF指出第二类虽然采用了优化算法来进行决策,但在面对大规模数据时性能表现不足,主要是:1. 他们只能做到cohort-level的优化,无法实现member-level的优化;2. 他们在解决multi-treatment时是构造了多棵causal forest,这样的话,不同forest所处的特征空间不同,那么评估出来的treatment effect也不可比。

Methodology

针对related work里的问题,LBCF提出了相应的解决方法,方法论主要分成两大部分:

  • 第一部分是causal forest的构建,在这一部分的主要贡献就是提出了新的分裂标准,并将他们的森林起名为UDCF;
  • 第二部分是优化问题的构造,在这一部分又提出了适用于大规模数据的优化算法,起名为DGB;

问题定义:
值得一提的是LBCF对multi-treatment下CATE的定义:
在这里插入图片描述
他们以Y(T=0)为基线,只考虑Y(T=j)到Y(T=0)的差值。

UDCF

作者针对multi-treatment问题,认为他们所构造的森林(即UDCF)需要满足如下两个要求:

  • Unified:是指,UDCF需要使得各个treatment的effect评估处于同一特征空间;
  • Discriminative :是指,UDCF需要使得不同treatment对应的effect足够异质;

所以,UDCF的全称也就是Unified Discriminative Causal Forest。

为了满足上述两个要求,作者分别提出了两个新的分裂标准

  • inter split:该标准是将GRF用于CATE的分裂标准进行了一点改动,使得CF能应用于multi-treatment的情形,满足了Unified特性,其形式化表达入如下:

    不熟悉GRF的移步论文笔记:GRF
    这个分裂标准延用了GRF的思想,是想要最大化子节点之间的异质性;
  • Intra split:该标准是针对Discriminative特性提出的【还附上了假设1】,其思想是最大化不同treatment之间的异质性,形式化表达如下:
    在这里插入图片描述
    基于以上两个分裂标准,作者提出了节点分裂的计算步骤:
    1. 首先根据inter split标准筛选出m个候选者;
    2. 再根据intra split标准筛选出最优分裂;

DGB

也是解决一个优化问题:
在这里插入图片描述
细节暂略

原网站

版权声明
本文为[#Super Pig]所创,转载请带上原文链接,感谢
https://blog.csdn.net/zyl_wjl_1413/article/details/125407379