December 25, 2014

微信数据分析:谈谈工具变量(IV)在计量经济学中的使用

2014.1.13 补充:本文已经和这篇结合我自己微信数据分析的文章加以整合,因此建议直接去看整合后更完整的文章。

2014.12.29 补充:感谢 DW 同学对本文的指正:“IV是一个很好的解决思路,但是在样本有限的情况下加入IV的意义就不大了,因为IV需要很大的数据量才会显著;此外找到一个合适的IV也是个问题。”

2016.5.15 补充:一年半后又写了一篇后续更新更正文章,欢迎阅读。

因此本文仅供参考。以下原文:


昨天,我收到了微信公众号“DW月谈”(微信号:DW_Journal)的新一篇推送《一个分享几人看:基于DW月谈的数据分享》,文章的作者 DW 根据她的微信号“DW 月谈”发表29篇文章的数据,做了回归分析并得出“一个分享大概 9 人看”的结论。这篇文章让我觉得非常有趣,一方面是这学期我开始学习计量经济学,虽然学的比较艰难,不过我越发觉得经济学和统计学在生活中真的非常实用;另一方面我自己也在运营微信公众号,喜欢看自己的运营数据,只是自己的样本实在太过有限根本无法跑回归。

不过 DW 的样本量就比较丰富了。事实上我关注“DW 月谈”这个公众号已经很久了,也一直在试图粗略估计 DW 月谈的关注量。不过我所能准确得知的唯一数据是每篇文章的阅读量(显示在每篇文章末尾)大概在两三千到六七千波动,另外我估计“DW 月谈”的阅读率会在 30%~40% 左右。(虽然对于很多公众号阅读率都可能达不到10%,但 DW 月谈的文章比较有趣,加上是个人账号推送也不算频繁,我对“DW 月谈”的阅读率估计要比常量高很多。)由此,我粗略计算出“DW月谈”的关注量大致会在 8000 至 10000 左右。不过DW在这篇文章中透露了真实数据:现在共有 5935 名关注者,文章的阅读率高达 53%。这个阅读率让我真的有点吃惊——我估计的还是太过保守,但是想到“DW 月谈”的确是我收到推送后几乎唯一会立即打开阅读的公众号,也能够信服。

在文章中DW试图找到影响单篇微信文章阅读量的因素。经过粗略的计算,DW认为文章分享量微信号关注人数,以及文章标题劲爆程度单篇文章的阅读量显著正相关,而文章字数、发布具体时刻、文章是否曾经发布过、文章标题字数等因素则与文章分享量不显著相关。DW根据数据进行了一个简单的多元回归,得到了关注者数量和分享量和阅读量的关系:阅读量 = 9.04 * 分享量 + 0.53 * 关注者人数 – 157,其中阅读量和分享量p-value < 0.01,同时通过计算了每篇文章预测值和真实值的差异,可以观察到“标题党”的阅读量显著高于预测值。DW 在文章总结到:“文章火起来的要点有三个:分享热、粉丝多、标题劲爆。

这样的回归分析比较有说服力,不过联想到最近所学的计量经济学内容,我便沿着这个回归过程进一步思考下去。显然,DW在该篇文章中使用了OLS (Ordinary Least Square,普通最小平方法)进行回归分析。在统计学中,OLS 是估计线性回归方程未知参数的一个普遍的方法,根据百度百科不严谨定义,“OLS 通过寻找参数β1、β2……的估计值,使式中的离差平方和 Q 达极小。”

回顾DW在文章中总结到,文章阅读量与分享量、关注者人数、标题劲爆程度这三个变量显著正相关,并跑出回归方程:阅读量 = 9.04 * 分享量 + 0.53 * 关注者人数 – 157。注意到在这三个显著影响关注量的变量中,“标题劲爆程度”无法用数值衡量,所以被放到了误差项(error term)中。但是这样的处理是否合理呢?标题劲爆程度虽然是不可衡量变量,但是它和分享数有很大相关性,因为一般来说,标题比较劲爆的文章分享数也会比较多。那么如果单纯用 OLS 做回归,即将标题劲爆程度放在误差项中,肯定会影响回归函数的准确性。一个解决的方法,便是引入工具变量(IV,Instrumental Variable)

什么是工具变量?根据维基百科,“在回归模型中,当解释变量与误差项存在相关性(内生性问题),使用工具变量法能够得到一致的估计量。”当一个解释变量(regressor)和误差项(error term)相互独立,并不对因变量产生影响,称为外生性(exogeneity)。与外生性相对立的是内生性(endogenous),也即误差项和解释变量存在相关性。在回归模型中,如果遇到内生性问题,使用OLS会出现不一致的估计量。那么可以使用工具变量(Instrumental Variable,简称 IV)解决这个问题。这里,工具变量应该满足: 1>和内生解释变量存在相关性;2>此变量和误差项不相关,也就是说工具变量严格外生。

在 DW 的数据中,应该选择什么作为工具变量呢?我自己觉得可以选择“关注数”作为一个较为合理的 IV。IV 的选择不是唯一的,只要满足所找的 IV 与分享数有关但是和标题劲爆程度无关即可。找到合理的 IV 之后,我们需要用Two-stage Least Squares(2SLS)做回归,得到结果后,可以用 Hausman Test 检验所选取的 IV 是否恰当。这样,我们就可以得到一个比使用 OLS 做线性回归更为一致的估计量了。

作者菜鸟水平,若有问题非常欢迎指正。


附:参考和推荐资料(不完整~将继续补充):

Books:

Videos: (良心视频~)

Other Learning sources:

Other Useful Links:

Share with your friends: Twitter Facebook
comments powered by Disqus