一个段子引发的内生性思考

一个段子引发的内生性思考

前几天在微信推文里看到了一个这样的段子:

用正经话来说,就是携程通过大数据分析发现,iphone手机越新版的用户在订酒店的时候愿意支付更多的钱。因此他们选择使用手机版本作为识别用户支付意愿和支付能力的代理变量(假如手机版本越新,这个代理变量的取值越大),根据上面大数据分析的正相关结果,他们根据这个代理变量来制定酒店的价格并且希望能由此获取更多的利润。乍一听,很天才的策略啊,但是为什么这么快就被用户发现了,然后又被用户想出办法反击呢?

这不就是计量经济学的内生性问题么!我们可以很容易发现携程制定这一个策略的思路是下面这样的:

但是实际上这个链条只是一个相关关系构成的因果链条,前后之间并没有强烈的因果关系(或者说是非常脆弱的因果关系)。这个案例可以从下面的结果角度来考虑。

角度1: 代理变量对真实变量的测量误差

毫无疑疑问,对于理性人或者说有限理性的人,根据收入来选择自己使用的手机的版本是非常合理的,因此通过观察一个人的手机可以一定程度上判断出这个人的收入情况。由此就可以使用价格歧视对使用不同手机的人开出不同的价格。
之所以选择代理变量来测量真实变量的原因在于真实原因的不可测度性。在这个案例中,我们需要的真实变量实际上是用户的财富状况,一个可以作为真实变量的变量是用户的资产状况,显然这个是很难观测到的。因此不得不使用代理变量,例如用户使用的手机型号、用户的消费习惯等等。既然使用的是代理变量,就一定会产生测量误差问题(内生性来源1)。在这里测量误差的表现为,有钱人不一定会使用最新版本的iPhone,反而是很多不够有钱的人由于非理性的因素使用着最新版本的iPhone。所以这个销售策略很容易失效。

角度2: 实验对象的自我选择因素

第二个角度就是实验对象能够进行自我选择。社会学科和自然学科之间的一个巨大不同在于社会学科的研究成果会很快影响到研究的对象,而自然学科中不会有这种情况,例如你不管怎么研究电流,电流都会始终以不变的规律作用。但是你如果研究一个人,他如果意识到自己处在实验中就会改变自己的行为模式,如果被他发现实验的规律,他就会利用这种规律为自己获利。现在携程的这个测量就像是对用户的一个实验,一旦用户发现了自己处在“实验”中,用户就会改变自己的行为模式,进而选择对自己有利的策略,也就是使用低版本的iPhone订酒店。由此该“实验”失败。这就是内生性的另外一个来源。

角度3: 错误的因果关系判断

就我来看,这个案例中的实际因果关系应该是下面这个样子的。

也就是说,使用什么版本的iPhone和订什么样的酒店都是用户收入水平决定的,两者之间是没有直接的因果关系的,因此携程的销售策略利用的是一个虚假的因果关系。

  • 事实上,数据挖掘的一个常见问题就是发现的模型常常是建立在一个伪因果关系上的,或者说模型具有非常严重的内生性。这也就是那些利用高大上的机器学习、神经网络模型炒股的无法获得超额收益的一个原因。事实上,很多神经网络模型在历史数据中表现的非常好,而用来预测未来的时候就效果非常差了。
  • 神经网络模型是非线性模型的一种,非线性模型的常见问题是过拟合。真实的数据往往是具有非常多的数据噪声(指误差等)的,如果建模的过程中把噪声也纳入了模型中,就会产生过拟合现象。噪声部分的随机性会使得模型的预测效果变差。这是建模中需要关注的地方。

附录

  • 本文中的流程图使用flowchart.js绘制,Atom的Markdown preview Enhanced插件支持该种流程图的绘制,另外Hexo的插件hexo-filter-flowchart支持flowchart.js绘制流程图。安装方法为npm install --save hexo-filter-flowchart。下面为本文中的流程图的绘制代码(flow):
1
2
3
4
st=>start: 用户很有钱
e=>end: 用户愿意支付高价格
io=>inputoutput: 用户会有能力和意愿使用最新版本的iPhone
st->io->e
1
2
3
4
5
6
7
8
9
st=>start: 用户很有钱
cond=>condition: 用户有支付高价
格的能力和意愿
op1=>operation: 用户会有能力和意愿使用最新版本的iPhone
op2=>operation: 用户会有能力和意愿订购更昂贵的酒店
e=>end: 制定相应的销售策略
st->cond
cond(yes, left)->op1->e
cond(no,right)->op2->e

# Stata

评论

程振兴

程振兴 @czxa.top
截止今天,我已经在本博客上写了607.9k个字了!

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×