发文新思路!5分钟读懂:SCI新宠儿「孟德尔随机化」
时间:2023-10-19 18:56:55 热度:37.1℃ 作者:网络
在医学变量之间的关联分析中,我们时常面对的一个问题是:很难确定一个变量是否是真正的因果变量,而非有其他未观测的因素同时影响这个变量与结果,造成这个变量与结果相关联。
在循证医学中或是制定干预策略时,明确因果性是十分必要的。这个问题实际上与内生性(endogeneity,这里的内生性在统计学上是指在回归分析中,解释变量(x)与误差项相关) 相关,包括:反向因果关系(reverse causation),忽略的混淆变量造成的偏倚(omitted variable bias due to confounding),测量误差(measurement error),以及双向因果关系(bidirectional causality)等等问题。
一般来说,明确因果关系的金标准是随机对照试验 (RCT,randomized control trial), 即对受试者随机分为对照组和实验组,以研究某个因素的影响。但现实中,想要完成随机对照试验的难度非常高,需要大量的人力物力;有时,因为伦理问题,对某个因素的研究几乎是不可能的。
这时就要借助其他方法,而孟德尔随机化就是其中之一!
孟德尔随机化(MR,Mendelian randomization)便是为了解决以上问题而开发的方法,MR与RCT直接相关,两者有很高的相似性,如下图所示:
MR与RCT的对比
孟德尔随机化是基于等位基因在配子形成时遵循随机分配原则,可用基因型作为待研究中间表型的工具变量来推断其与疾病状态的因果关联,并且其效应估计值不会受到混杂因素及反向因果关联的影响。
其核心是利用孟德尔第二定律,也就是自由组合规律(law of independent assortment):当具有两对(或更多对)相对性状的亲本进行杂交,在子一代产生配子时,在等位基因分离的同时,非同源染色体上的基因表现为自由组合。
MR是利用工具变量(Instrumental variables,IV)来研究因果性,处理混杂因素的一种遗传流行病学方法。
①工具变量z与混杂因素u无关联(独立性);
②工具变量z与暴露因素x有关联(关联性);
③工具变量z与结局变量Y无关联,z只能通过变量X与Y发生关联(排除限定准则)。
包括:单样本MR、两样本MR、两阶段MR、双向MR
通常可以用两阶段最小二乘法(2SLS,2 stage least squared method)来估计X对Y关联效应大小。
第一步:建立G—X回归模型,获得暴露因素预测值(Predicted value,P);
第二步:构建P—Y的回归模型,即获得暴露因素预测值P和结局变量Y之间的回归方程。
由于该方法局限于单个样本,把握度较小,工具变量的选择也比较局限,易受到潜在混杂因素的影响。
分析方法:2SLS的分析方法在Stata软件中可以使用“ivregress”(StataCorp)、在R软件中使用“ivpack”(R Foundation)来实现。
设计策略为:获得“基因-暴露”和“基因-结局”关联的样本分别来源于两个独立样本(如GWAS与暴露,GWAS与结局的关联数据),要求两样本来自同一种族人群。因为样本量较大,该方法可以获得更大的把握度。目前,两样本MR因为全球大量GWAS合作组的公共数据而被广泛使用。
两阶段MR需要使用遗传工具变量来评价因果关联的可能中间变量M(Mediation),来探讨环境暴露因素是否通过表观中间变量(M)而导致疾病改变。
第一阶段,通过MR计算暴露因素与中间变量M之间的关联;
第二阶段,通过MR计算中间变量M与结局之间的关联,最后整合计算E和O之间的直接效应(E-O)和间接效应(E-M-O)。
①找工具变量,从其他研究中挑选特定基因作为工具变量,从基因库中挑选需要的和暴露相关的基因变量SNPs。
②估计工具变量对结局的作用,工具变量对结局的作用也是从所有的研究中估计出来的整体效应,这样可以拒绝单个研究的偏倚。
③合并多个SNP的效应量,效应量是得到暴露和结局因果效应的前提。
④用合并后的数据进行孟德尔随机化分析和相应的敏感性分析。
①逆方差加权法(inverse variance weighted.Ivw):IVW是MR在分析多个SNP时对多个位点效应进行Meta汇总的方法。IVW的应用前提是所有的SNP均为有效的工具变量且相互之间完全独立。
②加权中位数估计(Weighted median,WM):WM为所有的个体SNP效应值按照权重排序后得到的分布函数的中位数。当至少50%的信息来自于有效的工具变量时,WM可得到稳健的估计值。
③MR-Egger法:MR-Egger不强制回归直线通过原点,允许纳入的工具变量存在定向的基因多效性。当回归截距不为零且P for intercept <0.05时表明基因多效性的存在。
④MR-PRESSO法:可以通过排除异常值(outliers)排除特定的SNP以获得更加接近真实值的估计值。
①遗传相关中,因果关系的方向是确定的,遗传多样性导致了不同的表型,反之则不成立。
②一般情况下我们所测量的环境暴露因素都或多或少与行为,社会,心理等因素相关,造成偏倚。但遗传变异则不受这些混淆因素影响。
③相对来说,遗传变异与其效应的测量误差较小。
①弱工具变量偏倚(weak instrument bias):单个遗传工具所能解释的表型变异程度有限,需要扩大样本量以获得足够的把握度。
②多效性问题(pleiotropy):当工具变量存在多效性问题,其因果推断的结论解释需谨慎,需要采用不同的方法进行分析,以期得到稳健的结果。
③Beavis效应:基于GWAS结果的MR可能会出现“胜利者的诅咒(the winner’s curse)”偏倚。在两独立样本的MR中使因果关联被低估。
④发展补偿(canalization):对于某些不良暴露,个体在长期发育过程中可能会形成补偿机制,降低不良遗传因素的影响,可能会引起效应值的高估。
⑤生物学机制(biological mechanism):MR的结果解释需要生物学机制的支持,不能仅依靠统计学效应值。
[1]孟德尔随机化系列之一:基础概念 Mendelian randomization I
[2]Melinda C. Mills, Nicola Barban, and F. C. T. An Introduction to Statistical Genetic Data Analysis. (2020).
[3]Zheng J, Baird D, Borges MC, Bowden J, Hemani G, Haycock P, Evans DM, Smith GD. Recent Developments in Mendelian Randomization Studies. Curr Epidemiol Rep. 2017;4(4):330-345.
[4]Katan MB. Apolipoprotein E isoforms, serum cholesterol, and cancer. Lancet. 1986 Mar 1;1(8479):507-8.
[5]Smith GD, Ebrahim S. 'Mendelian randomization': can genetic epidemiology contribute to understanding environmental determinants of disease? Int J Epidemiol. 2003 Feb;32(1):1-22.