您好、欢迎来到现金彩票网!
当前位置:彩63彩票app下载 > 高维索引 >

【香樟推文0837】高维数据下的因果推断

发布时间:2019-06-04 02:28 来源:未知 编辑:admin

  图片是四维数据的可视化,第四维以颜色表示。左图和右图前面三维数据相同,不同的仅是第四维数据。

  利用普通回归估计因果效应,一个重要假设就是控制了其他因素后,感兴趣的变量是随机的。譬如,感兴趣政策对失业的影响,那么控制其他因素后,政策安排就要是随机的。但其他因素有很多呀,能控制得完吗?Belloni et al.(2014)以机器学习中的lasso模型为例提出了一种方法,该方法表明,你可以尽可能多地搜集变量,包括交叉项、二次项等,然后加入到模型中来,也不必担心变量个数超过样本个数,通过对这些海量自变量的某种选择,利用OLS一样可以实现对感兴趣变量的因果推断。

  其中,di是处理变量,α0是感兴趣的系数。海量自变量zi通过函数g(zi),m(zi)影响结果变量和处理变量。然后使用控制变量的一个线性组合来逼近g(zi), m(zi):

  其中rgi,rmi是逼近误差,xi就是从海量变量中选出来的变量。只要满足稀疏性假设(该假设的具体公式可以见原文),rgi,rmi就可以足够小,从而使得大量变量的线性组合也能逼近g(zi),m(zi)。通过上述表述,可以得到(1)式的诱导式如下:

  通过对上述两个诱导方程分别进行lasso变量选择,从而得到两个变量集,用yi对这两个变量集的并集以及di进行OLS,就可以得到想要的α0,对于α0的推断与传统回归推断无异。作者把他这种从两个方程中选择变量然后做OLS的方法称为后双重选择估计量(post-double-selection estimator)。

  为理解这种双重选择的重要性,作者通过将该估计量与后单一估计量(post-single-selection estimator)进行比较来获得一种直觉。所谓后单一估计量是仅仅利用下式进行变量选择,然后进行OLS:

  两种方法的比较涉及大量公式。但粗略地说,当通过筛选而去掉了某些自变量时,后单一选择估计量可能存在很大的偏误,而后双重选择估计量则不存在这个问题。

http://bed-plans.net/gaoweisuoyin/374.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有