本人才疏学浅,不足之处欢迎大家指出和交流。
本系列接下来要分享的文章是关于线性模型的,在15年后深度模型在ctr预估领域百花齐放之时,仍觉得传统的LR模型有着基石的作用,于是有了今天的分享。话不多说,今天会介绍的是经典的LR模型及Facebook在2014年提出的GBDT+LR(重点)。当时深度学习几乎还没有应用到到计算广告/推荐系统领域,Facebook提出利用GBDT的叶节点编号作为非线性特征的表示,或者说是组合特征的一种方式,可以自动实现特征工程,下面我们一起来看看吧。
两篇原文:
1、背景
这里是微软研究院在当时提出LR模型时的商业背景:搜索引擎主要靠商业广告收入,在广告位上面打广告,用户点击,之后广告商付费。在通用搜索引擎,通常广告位置是在搜索结果之前,或者在搜索结果右边,由此为查询选择正确的广告及其展示顺序会极大地影响用户看到并点击每个广告的概率。此排名对搜索引擎从广告中获得的收入产生了很大影响。此外,向用户展示他们喜欢点击的广告也会提高用户满意度。出于这些原因,能够准确估计系统中广告的点击率非常重要(朴素的想法即是放用户可能点击的广告,并且放每次点击广告商付费多的广告)。
于是就归结到点击率预估的模型选择和特征工程问题。
2、LR Model
2.1 LR的数学基础
为何在2012年之前LR模型占据了计算广告领域的极大部分市场呢,我们可以从数学角度稍作分析:
逻辑回归(logistics regression)作为广义线性模型的一种,它的假设是因变量y服