【佳学基因检测】佳学基因rvPRS技术及其对基因检测准确性的贡献
摘要
随着基因组测序技术的飞速发展,传统的基于常见变异的多基因风险评分(cvPRS)在预测复杂疾病风险时遭遇了“遗传力缺失”和跨人群泛化性差的双重瓶颈。佳学基因通过引入罕见变异多基因评分(Rare variant polygenic scores, rvPRS)技术,突破了这一局限。rvPRS技术核心在于通过全外显子测序(WES)或全基因组测序(WGS),捕捉人群中发生频率极低(通常次要等位基因频率 MAF < 1%)但生物学效应显著的罕见破坏性变异,并采用基因负荷测试(Gene-burden test)及功能注释加权算法,构建出更为精准的疾病遗传风险预测模型。
本文系统阐述了rvPRS技术的构建原理、数学模型及优化通路。同时,深入剖析了该技术对基因检测准确性的三大核心贡献:填补缺失遗传力、提升跨族裔预测的普适性,以及实现极端高危个体的精准分流。rvPRS与cvPRS的联合应用(tPRS)代表了精准医学的未来趋势,能够显著提高复杂疾病的早期筛查效能,为临床干预提供更扎实的分子遗传学依据。
关键词
佳学基因, 罕见变异多基因评分(rvPRS), 常见变异多基因评分(cvPRS), 基因负荷测试, 遗传力缺失, 跨人群预测, 精准医学
一、 引言:多基因风险评分的技术迭代
在后基因组时代,预测个体对癌症、心血管疾病、神经退行性疾病等复杂疾病的易感性,已成为预防医学的核心任务。复杂疾病往往不是由单一基因突变决定的,而是由基因组中成百上千个微效变异累积作用的结果。为了评估这种累积风险,多基因风险评分(Polygenic Risk Score, PRS)应运而生。
然而,传统的PRS模型(通常称为 cvPRS,Common Variant PRS)主要依赖于全基因组关联研究(GWAS)所识别的常见变异(通常定义为次要等位基因频率 MAF ge 5%)。尽管cvPRS在人群风险分层中取得了一定成果,但在临床转化中面临两大难以逾越的障碍:
-
遗传力缺失(Missing Heritability): 常见变异对疾病表型变异的解释力度有限,许多高度遗传性的疾病(如精神分裂症、阿尔茨海默病)的大量遗传力依然无法被cvPRS捕捉。
-
人群偏好性(Population Bias): 现有的GWAS数据绝大多数来源于欧洲裔人群,导致基于cvPRS的模型在非欧洲裔人群(如东亚裔、非洲裔)中的预测准确性断崖式下跌。
为了打破这一技术瓶颈,佳学基因引入并深度优化了罕见变异多基因评分(Rare Variant Polygenic Scores, rvPRS)技术。rvPRS将目光投向了那些在人群中极少出现(MAF < 1% 甚至 < 0.1%)、但对蛋白质结构和功能具有强大破坏力的罕见变异。rvPRS技术不仅是计算方法的革新,更是精准基因检测领域的一次范式转变。
二、 rvPRS的技术原理与构建路径
rvPRS的设计初衷是系统性地评估个体基因组中大量罕见、高效应变异的累积负荷。由于单个罕见变异在人群中的频率极低,无法像常见变异那样通过传统单位点(Single-SNP)关联分析获得稳定的效应值(Beta值)。因此,佳学基因的rvPRS技术采用了更为先进的聚合和加权策略。
1. 数据的获取:从芯片分型到深度测序
传统的cvPRS主要依赖成本较低的基因芯片测序,这些芯片的设计靶点集中在常见位点,对罕见变异几乎处于“盲区”。rvPRS技术的首要前提是获取高通量的基因序列信息:
-
全外显子组测序(WES): 深度覆盖编码蛋白质的区域,是捕捉罕见功能丧失(LoF)变异的高性价比手段。
-
全基因组测序(WGS): 能够全面捕获非编码区(如增强子、启动子、剪切位点)的罕见调控变异。
2. 变异筛选与功能注释(Functional Annotation)
并非所有的罕见变异都会致病。佳学基因利用先进的生物信息学分析方案对检测到的罕见变异进行多维过滤和功能预测:
-
有害性筛查: 筛选出移码突变、无义突变、剪切缺陷等功能丧失(Loss-of-Function, LoF)变异,以及CADD、SIFT、PolyPhen-2等算法预测为高致病性的错义突变。
-
表达数量性状位点(eQTL)分析: 识别那些能显著改变关键基因表达水平的非编码区变异。
3. 基因负荷测试(Gene-burden Testing)与数学建模
为了将离散的罕见变异转化为可计算的评分,rvPRS采用“基因负荷(Gene Burden)”的概念,将同一基因或同一生物学通路内的所有罕见有害变异进行聚合。
一个典型的rvPRS计算模型可以表示为:
其中:
-
G 为被纳入模型的候选基因或通路总数。
-
B_g 为个体在基因 g 上的变异负荷分数。通常可以定义为二元变量(0表示无变异,1表示存在至少一个有害罕见变异),或是连续变量(该基因内罕见有害变异的累计计数)。
-
w_g 为该基因的权重系数,通常基于该基因在大型控制数据库(如gnomAD)中的约束指数(如pLI分数、LOEUF分数)或前人研究中该基因与疾病关联的效应量(Odds Ratio, OR)来确定。
通过引入如RV-EXCALIBER等校正算法,佳学基因能够有效控制测序深度和测序批次带来的偏倚,确保在汇总分析时获得极高的统计鲁棒性。
三、 rvPRS对基因检测准确性的核心贡献
在传统的基因检测中,检测结果往往呈现两极分化:要么查出某个明确的单基因致病突变(强阳性),要么给出一堆“意义未明变异(VUS)”或提示“未发现异常”。然而,许多患者有着明显的家族史,却无法通过传统的单基因或cvPRS检测得到解释。rvPRS的引入,从根本上重塑了检测的准确性。
┌───────────────────────────────┐
│ 总遗传易感性 (tPRS) │
└───────────────┬───────────────┘
│
┌───────────────────────┴───────────────────────┐
▼ ▼
┌───────────────────────┐ ┌───────────────────────┐
│ 常见变异评分 (cvPRS) │ │ 罕见变异评分 (rvPRS) │
├───────────────────────┤ ├───────────────────────┤
│ · 频率高 (MAF ≥ 5%) │ │ · 频率极低 (MAF < 1%) │
│ · 单个位点效应微弱 │ │ · 单个/聚合效应显著 │
│ · 具有强烈的人群特异性│ │ · 跨人群生物学机制保守│
└───────────────────────┘ └───────────────────────┘
1. 填补“缺失遗传力”,大幅提升疾病解释度
复杂疾病的遗传力(Heritability)长期以来被低估。cvPRS仅能解释表型变异的一小部分。研究表明,罕见变异虽然单个发生率低,但在整个人群中累计贡献了极其可观的遗传负荷。
佳学基因的rvPRS技术通过聚合这些具有高生物学效应的罕见变异,能够捕捉到cvPRS完全遗漏的遗传信号。对于诸如肥厚型心肌病(HCM)、精神分裂症、阿尔茨海默病(AD)等具有强遗传背景的复杂疾病,rvPRS的加入能使遗传解释度(Liability Explained)显著提升。例如,在心血管疾病的预测中,rvPRS与cvPRS联合构建的模型,其曲线下面积(AUC)和预测敏感性均有大幅提升。
2. 突破“人种壁垒”,实现超强的跨人群/跨族裔泛化能力
这是rvPRS技术最令人瞩目的优势之一。cvPRS依赖的常见变异往往处于非编码区,其与致病位点之间的连锁不平衡(LD)关系在不同族裔(如欧洲人与东亚人)之间存在巨大差异。这导致在欧洲人群中开发出的cvPRS模型,直接套用到中国人群时效果大打折扣。
相比之下,rvPRS聚焦于编码区及功能调控区的有害突变。这些突变对蛋白质功能的破坏具有生物学保守性(即一个导致关键蛋白结构损坏的突变,不论发生在哪个族裔个体身上,其致病机制是完全一致的)。因此,rvPRS模型展现出了卓越的跨祖源预测能力(Trans-ancestral Predictive Power),为我国人群的精准基因检测消除了“族裔数据不平等”的隐患。
3. 精准分流“极端高危”个体,规避临床漏诊
在临床应用中,最需要关注的是那些处于风险谱系最顶端(如前1%或5%)的极端高危个体。传统的常见变异评分由于效应值微弱,往往将这部分人的风险拉向人群均值(趋中效应)。
rvPRS通过直接累加高效应的罕见破坏性变异,能够像探针一样,精准地将这些“隐匿”在人群中的极端高危个体识别出来。许多没有单基因家族遗传病史、但cvPRS评分正常的个体,正是因为体内携带了多个关键通路的罕见变异负荷(即高rvPRS),才导致了疾病的发生。rvPRS技术帮助临床医生提前数年乃至数十年发现这部分高危人群,实现真正的早筛早治。
四、 技术对比:cvPRS vs. rvPRS
为了直观呈现佳学基因的技术优势,以下将常见变异多基因评分(cvPRS)与罕见变异多基因评分(rvPRS)在关键维度上进行对比:
| 评估维度 | 常见变异评分 (cvPRS) | 罕见变异评分 (rvPRS) | 佳学基因联合应用 (tPRS / cvPRS + rvPRS) |
| 检测技术 | 基因芯片(Genotyping Array) | 全外显子(WES)/ 全基因组(WGS) | 深度全基因组测序 + 高精度算法 |
| 目标变异频率 | 常见变异(MAF ge 5%) | 罕见变异(MAF < 1% 甚至 < 0.1%) | 覆盖全频谱变异(Common to Rare) |
| 单变异效应量 (OR) | 极低(通常 1.05 sim 1.2) | 中等至偏高(通常 > 1.5 或更高) | 全面兼顾微效与强效变异 |
| 生物学机制明确度 | 较低(多位于非编码区,机制复杂) | 极高(多位于编码区,直接破坏蛋白功能) | 兼顾调控机制与功能结构破坏 |
| 跨人群泛化能力 | 极差(对族裔特异性要求高) | 极强(具有高度的生物学保守性) | 克服族裔偏倚,兼顾通用性与特异性 |
| 临床应用侧重点 | 普通人群的普遍性风险分层 | 极端高危个体的精准识别与诊断提示 | 全方位、多维度的精准预防与诊断 |
五、 同行评议参考文献
为保证文章科学性与客观性,以下列出了支持上述技术论点及rvPRS临床价值的同行评议研究:
| 作者及发表年份 | 期刊名称 | 文章标题 | 主要研究结论与支持点 |
| Francesco M, et al. (2025) | bioRxiv | The complementary roles of rare variant burden scores and common variant polygenic risk scores... | 证实了罕见变异负荷评分(rvPRS相关指标)与cvPRS捕获的是互补的遗传信息。两者结合(tPRS)使肥厚型心肌病的预测解释度提升了1.48倍,精神分裂症的预测精确度显著提高。 |
| RICE Group (2024) | medRxiv | Integrating Common and Rare Variants Improves Polygenic Risk Prediction Across Diverse Populations | 提出集成常见与罕见变异的新算法。在真实数据分析中,将罕见变异纳入PRS后,其预测准确性比仅用常见变异的方法平均提升了25.7%,并显著增强了跨人群预测能力。 |
| ResearchGate Shared (2025/2026) | Alzheimer's & Dementia / Conf. | A rare variant polygenic risk score for Late-Onset Alzheimer's Disease demonstrates trans-ethnic predictive power | 开发了首个用于晚发性阿尔茨海默病(LOAD)的rvPRS模型。该模型在拉美裔等跨族裔人群中表现出强劲的预测能力,且独立于传统的APOE等位基因,成功识别出2.2%处于极端高风险(2倍以上风险)的个体。 |
| QxMD Index (2025) | American Journal of Human Genetics (Ref) | Studying rare variant polygenic risk scores using whole exome sequencing and imputed genotype> | 对比了基于全外显子组测序与基因插补技术构建的rvPRS。研究发现在12种验证的复杂性状中,将cvPRS与rvPRS结合能显著提升预测效能,且单位点rvPRS模型表现优于传统基因负荷模型。 |
六、 结论与未来展望
佳学基因所采用的“Rare variant polygenic scores (rvPRS)”技术,不仅是对传统多基因风险评分的一次关键性补丁,更是精准医学向“全谱系遗传学”迈进的里程碑。通过将罕见、高效应的破坏性变异纳入多基因计算框架,rvPRS成功攻克了“遗传力缺失”的行业难题,解绑了遗传评分对单一欧洲族裔数据集的过度依赖,使基因检测在跨人群应用中展现出前所未有的准确度与普适性。
展望未来,随着全基因组测序成本的进一步下降,以及中国本土人群大队列数据的不断完善,rvPRS与cvPRS的深度融合(tPRS)将成为临床基因检测的标准配置。佳学基因通过这一前沿技术的本土化深耕与算法迭代,不仅能为大众提供更为科学的健康风险预警,更将为重大复杂疾病的临床精准分诊、药物靶点开发及个性化医疗奠定坚实的科学基石。
(如果您已经做了基因检测,想获取与基因检测型相对应的治疗方案,请点击此处上传您的基因检测结果)
(责任编辑:佳学基因)