时间:2022-04-08 11:34
听力障碍(HL)是世界上最常见的残疾之一。据统计,现代社会每1000名新生儿中就有1-2名存在听力障碍的情况,而其中约60%的听力障碍是由遗传因素引起的。目前,二代测序技术(NGS)已被广泛用于听力障碍病因诊断当中,并且取得了大量的相关研究成果。但这些研究成果分散在不同的文献中。如何能够从这些成果中轻松获取和分析听力障碍相关基因变异与临床表型之间的关联,并且利用其进行更加深入科学研究,是科学家、临床医生和生物学家面临的共同挑战。
2021年10月中旬,frontiers in genetics 杂志发表了题为“Gene4HL: An Integrated Genetic
Database for Hearing Loss”的研究成果。在该项研究中,研究团队开发了一个一站式的听力障碍相关基因和变异数据库,Gene4HL (http://www.genemed.tech/gene4hl/),便于对遗传数据进行分类、搜索、浏览和分析。
研究方法简介
数据采集研究团队检索了PubMed数据库中截至2021年3月31日的相关文献,以获得与HL相关的基因和变异的完整详细信息。用于搜索的关键字是“(听力损失或听力障碍)和(突变或变异)(标题/摘要)”。对于SHL,常见疾病包括 Alport 综合征、Branchio-Oto-Renal 综合征、CHARGE 综合征、Jervell & Lange-Nielsen综合征、Norrie Disease、Pendred综合征、Perrault 综合征、 Stickler综合征、Treacher Collins综合征、Usher综合征、Waardenburg综合征。通过对文献的深入阅读,提取基因和变异的注释、患者临床数据的详细信息(图1)。
图 1 本研究的总体路线图。左侧部分显示了 Gene4HL 的数据收集和分析过程。Gene4HL 支持搜索模块、分析模块、基因模块、上传和下载模块,如右图所示。中间部分显示了变异级别和基因级别的注释信息
综合注释Gene4HL整合了62个公共数据库的信息,从基因层面对六个方面进行了注释,包括:1)基本信息、2)基因功能、3) 表型和疾病、4)基因表达、5) 不同种群的变异、6) 药物-基因相互作用。每个变异的注释包括基本信息(位置、PubMed ID、变异类型、遗传模式、不同人群的等位基因频率等)、预测分数和致病性、变异和相关疾病或表型信息、总基因检测样本、阳性样本等。
基因排序研究团队根据先前提出的功能效应和 ReVe得分,将变异分为五类:1)功能损失(LoF)变异;2) 破坏性错义变体(ReVe得分>0.7);3)容忍错义变异(ReVe得分≤0.7);4) 同义变异,5) 非移码插入缺失变异。接下来,扩展了之前在其他遗传疾病中开发的评分系统,以优先考虑与 HL 相关的基因,以量化不同类别变异的贡献将它们整合并优先排序。LoF 变异的证据分数为5;破坏性错义变异和容忍错义变异的证据分数分别为3 和2;非移码插入缺失和非编码变异的证据评分为1。通过将所有研究中每种变异类型的证据评分相加,计算出每个基因的综合证据评分。本研究中整合的所有基因分为三类:高置信度(得分≥20)、强相关(得分为 10-20)和提示相关(得分为 5-10)。
时空表达模式分析
小鼠内耳器官(耳蜗和椭圆囊)在四个发育阶段(E16、P0、P4 和 P7)的转录酶来源于之前的一项研究(Shen 等,2015)(https://shield. hms.harvard.edu/)。我们应用加权基因共表达网络分析 (WGCNA)(Langfelder 等人,2008 年)标准方法分析所有 16 个样本,使用 8 的幂来聚类时空表达模式和产前层流表达谱给定的基因组。
功能网络分析
使用STRING v11.0数据库(Szklarczyk et al., 2019)进行排列测试以研究HL相关基因(证据评分≥5)的互连性和功能相关性。此外,我们使用STRING在线分析平台(https://string-db.org/)构建了一个蛋白质-蛋白质相互作用(PPI)网络,置信度得分> 0.4。功能网络由基因本体论(GO)(http://www.geneontology.org/)的多个生物过程聚集在一起。
研究结果
数据库概述
共纳入有 1,608 篇文献。整合了326个HL相关基因,包括170个NSHL相关基因和156个SHL相关基因,涉及3,872个遗传变异。相应的详细遗传和临床信息也被整合到 Gene4HL 数据库中。该数据库在变异级别和基因级别进行了全面注释。在这些变异中,2,115 个(54.7%)被归类为P,748 个(19.3%)为LP,127 个(3.3%)为LB,474 个(12.2%)为B,406 个(10.5%)为VUS。在 Gene4HL 中列出的3,873 个变异中,在DVD 中发现了 2,343 个(图2)。
图2 Gene4HL中常见基因以及遗传变异类型
Gene4HL 中的快速和高级搜索查询界面包含用于快速和高级搜索的界面。快速搜索自动识别七个关键术语,例如基因符号、基因组区域、细胞带、转录本、特定基因或转录本中的核酸变化、变异的基因组坐标和 Gene4HL ID。高级搜索支持批量搜索并允许用户指定带注释的数据库。高级搜索为主要信息、非同义变异的预测算法、不同人群中的等位基因频率以及疾病相关和表型相关信息提供了选项。快速和高级搜索结果都提供了基因和变异的详细注释数据(图3)。
图3 Gene4HL中搜索模块和分析模块。顶部显示了 Gene4HL 中快速搜索模块和主页。中间部分显示了Gene4HL 中搜索模块。底部显示了 Gene4HL 中分析模块
Gene4HL 中的自定义分析Gene4HL 为用户提供了自由分析基因数据的端口。用户可以上传遗传变异数据(VCF格式)以识别与 HL 和 Gene4HL 相关的共分离变异。
HL 相关基因优先排序研究团队开发的加权评分系统对 HL 相关基因进行优先排序,对71个高置信度基因(得分≥20)、42个强相关基因(得分为 10-20)、52个提示相关基因(得分为 5-10)进行了优先排序,共164个基因(表1)。
表1 Gene4HL 中的优先候选基因
参与内耳发育的 HL 相关基因的表达模式
研究团队进行了 WGCNA 并确定了三个独立模块 (M1-M3),包括 109 个基因,以表征内耳发育过程中164 个HL 相关基因的时空表达模式。与周围细胞相比,M1 内的大部分基因 ( n= 44) 在E16、P0、P4 和 P7 期间在耳蜗和椭圆囊的毛细胞中表达较低。M2 基因(n = 35)在耳蜗和椭圆囊的毛细胞中表达升高。M3 模块 (n = 30)中的基因在内耳蜗和椭圆囊毛中的表达模式类似于M2 模块。然而,在P0、P4和P7时期,M2基因在耳蜗和椭圆囊毛细胞中的表达较低(图4)。
图 4 小鼠内耳器官(耳蜗和椭圆囊)在四个发育阶段的时空表达模式。基于FACS 的 RNAseq 数据
HL 相关基因的功能此外,研究团队并确定了三个独立的网络(N1 红色、N2 绿色和 N3 蓝色)来表征164 个基因的PPI模式。164 个 HL 相关基因中有 163 个相互作用,在蛋白质水平上有 930 个相互连接。PPI 和共表达分析研究相关的功能通路,结果集中在声音的感官知觉、机械刺激的感官知觉、感官知觉、内耳发育、耳朵发育、系统过程、耳朵形态发生、内耳形态发生和内耳受体细胞分化。这些结果表明这163个基因与听觉生物学功能有关,它们的缺陷增加了HL的风险(图5)。
图 5 HL相关基因的功能网络和生物学进展。(A)基于 STRING 数据库的HL 相关基因的功能网络。通过 k 均值聚类算法确定了三个独立的网络(N1 红色、N2 绿色和 N3 蓝色)。节点着色以显示关联,连接节点的线的粗细表示节点之间关联的强度。(B) GO 富集分析三个独立网络 N1、N2 和 N3 中基因对功能信号通路的贡献
Gene4HL为研究人员和临床医生提供了全面的 HL 遗传知识和分析平台,加速了对 HL 发病机制的了解