UK 100K 数据分享 I 13,037例罕见病及相关病例WGS结果分析

840



2001年人类基因组草图发布后更多大规模基因组研究计划逐步开展,英国十万人基因组项目(UK 100K)已完成85,000例全基因组测序,包括罕见病患者及其家属,癌症患者的健康及肿瘤样本在内共计10万份WGS数据Congenica参与支持UK 100K 并为NHS基因组医学服务提供独家临床决策支持


微信图片_20210627103625.png


2020年6月,UK 100K针对部分使用Congenica软件13,037名参与者分析结果在Nature发表,通过全国范围内临床试验和研究的标准一体化加速了罕见病病因的发现。除了编码区变异外,WGS还可以识别非编码区变异,探索调控区变异将成为未来研究和临床干预的热点。


背景介绍
鉴于多数罕见病患者未接受过分子诊断而且超过一半疾病的发病原因和致病变异尚未明确, 我们在全国范围内使用全基因组测序WGS进行流程化诊断,以期发现编码区和非编码区的致病变异。截止目前共计对13,037人(其中9,802人罹患罕见病)进行了WGS,并为7,065人中有详细表型的1,138人进行基因诊断。研究发现了95个符合孟德尔遗传模式的罕见疾病相关基因,其中11个基因是2015年以来发现的,超过79个基因被证实为致病原因。分析UK Biobank病例的WGS数据,发现影响数量性状的罕见等位基因往往存在于基因的极性尾端。此外研究发现了4种新发非编码区变异,由于干扰ARPC1B、GATA1、LRBAMPL的转录而致病,我们的研究证实了WGS可以常规应用协同查找病因。
引言
大约每20人中就有1人罹患罕见病却只有少数患者得到基因诊断。目前已知约10,000种罕见疾病,却只有不到一半的疾病有明确的遗传病因。即使已明确病因的疾病由于基因片段分型和疾病特异性基因检测的局限性,其应用也会受到影响。一个分子病因的明确可能需要数年不下20次的就诊方可解决。WGS技术的发展使其可以与卫生系统整合进行系统全面的基因检测,发现编码区和非编码区的致病原因。我们对来自英国57个NHS国家卫生服务中心和其他国家26家医院(Fig 1a, 扩展数据Fig 1a和补充数据Table 1)的13,037名患者进行了WGS并根据临床标准分成3组(Fig 1b)。受试者性别分布大致均匀(补充数据Table 1),种族分布与英国人口普查报告一致(Fig 1c)。每个病例按照标准分入18个组别(补充表1)。罕见病小组含15类疾病共计7,388例,对照组共计50例, Genomics England(GEL)试点小组共计4,835例,764例为UK Biobank小组红细胞指数升高病例(扩展数据Fig 1b, 补充信息和补充数据Table 1)。不同小组样本量不同可能源于病例招募的差异。占比75%共计9,802名参与者患有罕见病或其数量性状显示异常,其中9,024名为先证者778名为受累亲属。除Leber遗传性视神经病变相关疾病和Ehler–Danlos/Ehler–Danlos综合征外的多器官系统异常患者,使用人类表型术语HPO对罕见疾病小组进行表型分析(Fig2a和扩展数据Fig 1c),GEL小组包含2种异常表型,所有患者共计使用了19,605个HPO


生物信息学分析(扩展数据Fig 2-4)后,最大的一组包含10,259名参与者(maximal set of unrelated participants, MSUP)的病例中鉴定了172,005,610个变异。这些变异包括157,411,228(91.5%)个SNVs, 14,594,382(8.5%)个≤50 bp的Indels(扩展数据Fig 5)。其中48.6%的SNV和40.8%的Indel未包含在主要的公共变异数据库中(Fig 1d),54.8%的次等位基因变异频率为1。其中82.6%为新发变异,新发变异中9.08%的次等位基因变异频率大于1,通常由相似血统群体的个体携带(Fig 1e)。如果SNV和Indel在我们的数据集中很常见,那么它们在主要的变异数据库中有很好的代表性,但是如前期预测多数变异都非常罕见且大多数尚未被收录。通过两种算法我们从13,037名参与者中筛选出>50bp 的缺失177,550个以及复杂结构变异如倒位,然而这些可能并不可靠因为无法解释不同个体的结果(补充信息)。只有13个(0.1%)个体具有非标准WGS检测的性染色体核型结果(扩展数据Fig 3e-g)。根据入组标准,多数家庭为单样本检测(Fig 1f),但是从遗传信息(补充资料)中获得家庭成员关系。

微信图片_20210627103625.png

临床报告

逐个分析15种罕见病小组结果,回顾科学文献建立诊断级基因(diagnostic-grade genes, DGGs)清单并进行相应的转录本(补充信息)分析。清单中基因数目从包括从与妊娠胆汁淤积症相关的2个基因,到与神经发育障碍相关的1,423个基因不等。不同列表中的基因互不排斥,因为不同基因会引起多种疾病的病理学异常(Fig 2b)。12个专家组成的MDT小组确认与HPO表型匹配的DGGs中观察到的罕见变异,根据指南分为“致病”或“可能致病”,并评估其对疾病的贡献度为“完全”还是“部分”。如果单一CNV缺失可导致疾病表型,则该变异的贡献被评估为“完全”,否则被评估为“部分”。7,065例(16.1%)患者中1,138例发放了包含分子诊断结果的临床报告,包括329个DGGs小组的1,103个致病变异(731个SNVs,264个Indels,102个缺失和6个复杂结构变异)(补充表2)。995个SNV和Indels中的266(26.7%)个变异为新发变异,因为未被HGMD和ClinVar收录。根据临床报告数量对329个DGGs进行排序,排在DGGs前三位的基因是BMPR2、ABCA4、TNFRSF13B占比报告的1/4。排在其后的是19个DGGs,约占1/4,剩余为307个DGGs(Fig 2c和扩展数据Fig6)。不同种类疾病的诊断率从原发性膜增生性肾小球肾炎的0%(0/184)到遗传性视网膜疾病的53.9%(391/725)不等(Fig 2b),诊断率的不同可能与入组前表型和基因型预筛选、疾病遗传方式、对遗传病知识的了解不同相关。


使用常染色体测序深度>35×的PCR-free WGS可以为临床报告提供更丰富的信息。例如,有1例Hermansky-Pudlak综合征病例WES未发现异常,而WGS发现了1个HPS6 起始端缺失的致病性SNV。与英国Biobank、INTERVAL和哥伦比亚大学慢性肾病外显子组测序研究(补充信息)的读长覆盖率相比, WES成本较低但已知致病性SNV或Indel的基因组位点内和位点之间的覆盖率差异也远远大于WGS(扩展数据Fig 7)。本研究中有938个常染色体SNV,WES数据集中覆盖率不足导致可靠的常染色体SNV数量在25到99之间(2.67–10.5%)(扩展数据Fig 7)。此外,由WES发现的跨越多个外显子或单一外显子的部分缺失可能不可靠,本研中的102个不同缺失中(长度范围203 bp–16.80 Mb;平均值786.33 kb;中位数15.91 kb)有22个(21.6%)只与一个外显子重叠。已有临床和研究显示WES覆盖度可能不同,但我们无法获得用于比较的临床数据集。


表型量化可以辅助查找疑难病例的遗传病因。缺乏DGGs编码蛋白的患者,缺乏临床表型,通过WGS数据寻找复合杂合变异进行解释。两名伴有原因不明严重出血性疾病的患者发现其致病原因是由于血小板膜上缺乏αIIbβ3整合素而在ITGB3 的9号内含子中携带复杂变异:一例携带串联重复序列,另一例携带SINE-VNTR-Alu(SVA)逆转录转座子,均未被结构变异工具筛选出来,但通过长读长测序发现(扩展数据Fig 8a-e)。第3例患者由于红细胞膜中缺乏RhD和RhCE蛋白而患有严重的溶血性贫血,发现是由RHAG 中的大片段串联重复导致(扩展数据Fig 8f)。


本研究的研究结果为治疗决策提供了依据:KMT2B 介导的早发性肌张力障碍患者接受脑部深度刺激治疗;DIAPH1 相关的血小板减少症和耳聋患者术前使用艾曲波帕Eltrombopag治疗;1例因SRC13 基因功能获得性突变导致严重血小板减少、骨髓纤维化和出血通过异体基因造血干细胞移植治愈。部分研究结果帮助实现了患者护理的分层管理:研究发现NFKB1 变异可导致原发性免疫障碍,是多变异免疫缺陷中最常见的单基因原因,伴有不明原因脾肿大且癌症风险增加;与19例ACTN1、CYCSTUBB1变异引起的血小板减少症相比,27例由ANKRD26、ETV6 RUNX1 异引起的单一性血小板减少症的恶性肿瘤风险更高。部分研究结果也提高了预后的准确性:BMPR218 EIF2AK419 突变导致的肺动脉高压预后比平均预后差, 对四个基因(ATP13A3、AQP1、GDF2、SOX17 ) 进行预后相关研究后已经进行了报道。

微信图片_20210627103625.png

罕见病的遗传关联研究

罕见病遗传原因的发现通常需要在多个相似病例中有体现,Matchmaker Exchange(补充信息)可汇总来自不同研究的病例,分析后发现了新的致病原因SLC18A222 WASF123。在该大型研究中统计分析数据后发现了致病原因。


通过BeviMed鉴定不同遗传模式下基因与罕见病之间的相关性(补充信息),如果疾病表型一致即用同一标签标记(补充表3),每组病例病例数从3例(Roifman综合征)到1,101例(肺动脉高压)不等。独立分析每个基因标签对,关联后验概率>0.75作为遗传病因的强证据。为了解释标签之间的相关性,记录获得最高关联后验概率的标签。根据基因和标签的因果关系,BeviMed综合分析遗传模式的后验概率,即变异导致疾病风险的级别(例如5′非翻译区的变异或功能丧失变异)以及每个特定变异的致病性。


分析显示95个基因和29个标签之间存在具有有力证据的关联,后验概率分布显示阳性预测值可达93%。95个基因中68个基因建立了DGGs,11个基因是2015年以后发现的,仍有16个基因需要进一步验证(Fig 2d和补充表3)。因此,在真阳性预测值为83%情况下95个关联中有79个得到证实,这与对照统计分析中约79%的阳性预测值(补充信息)基本一致。约611.3个病例可以用79个已确认变异进行解释,其中115.6个病例可以用BMPR2 与肺动脉高压的相关性来解释。95个基因中51个基因的关联完全依赖于来自单基因变异的证据,显示了罕见变异关联分析统计模型的作用。只有3个未经证实的关联依赖于1个以上病例携带的等位基因证据,显示了对隐性关联分析的稳健性。有一个基因GP1BB,BeviMed推断的遗传模式与文献报道不同并对之前的假设表示质疑。这些结果和本项目的其他发现表明,对大型表型异常罕见病队列研究中收集的遗传和表型数据进行统一分析是遗传学发现的有力途径。

微信图片_20210627103625.png

数量性状的遗传学分析

一些罕见遗传性疾病(例如,家族性高胆固醇血症、复杂免疫缺陷、血小板减少症和血管性血友病Von Willebrand病)的诊断和临床特征会参考数量性状评估致病性。对数量性状影响较大的等位基因倾向于处于极端尾部,从而产生负选择压力。这样的等位基因比较罕见,对UK Biobank样本进行WGS并对单变量数量表型的尾部进行分析确认可能介导红细胞相关病理学的基因,通过计算优化罕见变异分析能力。等位基因频率


对红细胞全血细胞计数GWAS的表型分析多基因预测因子在各自尾部的群体分布中分别显示左移和右移(Fig 3d)。然而这些变化并没有高斯方差模型预测的那么突出,差异可能由于罕见等位基因在尾端的密度过高(表型峰度=6.9)。左尾、未选择、右尾的WGS-GWAS没有产生新的关联。BeviMed分析中将每个极性尾端组作为一组病例进行分析,确定了12个后验关联概率>0.4的基因(Fig 3e)。已知致病变异HBB TFRC 会引起微细胞性贫血,其他基因包括CUX1 ALG1 均为可能的候选基因。这些结果(补充表3)表明,在表型健康人群中进行数量极值分析可识别医学相关基因座。


调控元件致病变异

调控元件中的罕见变异可通过干扰转录或翻译而致病,最新研究表明,至少在神经发育异常疾病中,一部分新发非编码区SNVs可能源于相关组织中活跃的调控元件。相比SNVs,较大的变异对调控元件的破坏性更大。在与隐性造血相关疾病相关的246个DGGs的调控元件中寻找致病变异,包括大片段缺失(补充信息)。首先,为六种血液细胞类型定义一组活性调节元件,即“regulome”,通过ChIP-seq鉴定转录因子结合位点,即被称为RedPop的结合区域。RedPop可检测转座酶的染色质测序(ATAC-seq)和调控元件中组蛋白H3 K27乙酰化(H3K27ac)的ChIP-seq覆盖情况(补充信息)。通过分析基因组邻近性和启动子捕获pcHi-C,将调控元件与基因连接起来。其次,根据细胞类型及与三类罕见病小组(出血、血栓和血小板疾病、原发性免疫疾病、干细胞和髓系疾病)的相关性,将调控因子regulome与三类罕见病中的一个或多个匹配(补充表3)。最后,在相关细胞类型的调控元件中发现1例罕见的纯合子或半合子缺失病例,并与该病例所在小组DGGs有关。按照筛选标准在DGGs小组罕见编码区变异中查找复合杂合缺失并探讨与疾病相关性,对3个病例进行了解释:1例是原发性免疫疾病患者,在ARPC1B 的5′端非翻译区发生缺失并导致移码突变的复合杂合突变,1例是患有自闭症和血小板减少症的男孩,携带GATA1 增强子的半合子缺失,1例是患有多种自身免疫相关的血小板减少症,携带内含子CTCF结合位点处LRBA42 的纯合子缺失。


携带X连锁变异的自闭症男孩缺少了GATA1 增强子和HDAC6 的1-4号外显子(Fig 4和扩展数据Fig9),除轻度红细胞生成障碍外,血小板计数持续偏低,平均血小板体积升高(15.1 fl),红细胞参数正常。电镜分析显示血小板α颗粒含量低于正常水平,干细胞培养显示巨核细胞血小板形成不良。这些都是编码区携带致病性GATA1 等位基因患者的典型症状。血小板中GATA1水平极低,增强子缺失导致转录减弱。微管中HDAC6会促使Lys40α-微管蛋白脱乙酰化,而HDAC6缺失会导致血小板中乙酰化α-微管蛋白增加。小鼠体内Hdac6 敲除后α-微管蛋白乙酰化发生异常,从而导致出血及其他异常。因此,GATA1 表达的减少和HDAC6的缺失共同导致了以前未见过的伴有神经发育异常的血小板减少综合征。LRBA的1号内含子CTCF结合位点发生纯合子缺失的患者,由于失去对多种自身抗原的耐受,表现出自身抗体介导的全血细胞减少,这是LRBA功能受损的特征。


采用以上方法鉴定调控元件中的致病性缺失,鉴别非编码区的致病性SNVs。对CADD评分>20并在DGG小组中具有高影响力的编码区变异SNVs进行重点研究。使用该方法又发现了2个潜在影响蛋白功能的致病变异AP3B1 MPL 。对携带MPL 变异(1号染色体:43803414G>A)(扩展数据Fig 10)的1名10岁的男孩进一步详细研究发现,MPL 编码巨核细胞生长因子血小板生成素受体。MPL缺失会导致慢性巨核细胞血小板减少症,该SNV位于RedPop鉴定的巨核细胞特异性调控元件中。CADD=21.8,gnomAD中未报道,MPL第10号外显子复合杂合缺失。该突变导致启动子活性降低50%并导致导致血小板MPL水平显著降低。MPL阴性患者骨髓中巨核细胞仅中度减少,而MPL 阳性患者由于骨髓几乎没有巨核细胞而导致血小板严重减少,血小板计数为45×109l−1。由于SNV无法完全消除对MPL转录的影响,该男孩的临床表型比MPL 阴性病例表现轻微。

微信图片_20210627103625.png

讨论

全国范围内临床试验和研究的标准一体化加速了未知罕见病病因的发现。英国国家医疗服务系统(NHS)的WGS诊断服务从每月8,000个样本增加到30,000个样本。为了实现这一目标,临床基因组实验室的数量减少到7个,同时组织WGS、信息学和基因组学的统一培训。统计学的发展对新数据的解释和病人知情同意随访以及后续实验至关重要。此外,可能需要长读长测序方法解决目前WGS复杂结构变异分析过程中遇到的困难。UK Biobank样本的WGS工作已经启动,用于确定罕见变异与数量表型极端尾部的相关性。而这些均未被GWAS包括,这些相关性分析可以筛选符合孟德尔遗传模式的致病原因。不同细胞类型的表观遗传学数据结合WGS可以识别非编码区包含致病性变异的调控元件,探索调控区变异是未来研究和临床干预的热点。


在线内容

所有方法、参考文献、报告摘要、原数据、补充数据、补充信息、致谢、同行评审信息,作者贡献和竞争利益以及数据和代码可用性声明,请参考原文。





方法

病例入组、研究伦理和知情同意

2012年12月至2017年3月期间,由剑桥大学医院国家健康研究所生物资源(NBR)的协调,通过三种机制中的一种进行入组登记。罕见病患者及其亲属在NBR测序和信息学委员会批准的15个罕见病小组登记。对照组的纳入由剑桥大学协调,GEL小组由Genomics England协调登记,UKB(极端红细胞异常样本)小组由NBR和UKBiobank联合协调登记。罕见病小组主要在NHS医院招募,同时也有部分海外医院参与(扩展数据Fig 1a和补充表1)。所有13,187名参与者均根据伦理委员会(REC)相关要求签订知情同意书。海外样本由各项目负责人协调,NBR保留海外样本的空白知情同意书,通过协议对样本和数据交换进行规范。

微信图片_20210627103625.png

临床和实验室表型数据

医院工作人员根据要求收集提供相关信息如疾病描述(补充资料)等,临床和实验室表型数据通过病例报告、纸质问卷或在线数据采集系统完成并纳入NBR研究数据库。在线数据采集时可输入HPO术语,协调中心会将纸质问卷数据或文本条目转换为HPO术语,NBR罕见病HPO数据参考扩展数据Fig1c。


DNA测序

EDTA处理的全血样本预处理后送至剑桥NBR实验室提取DNA。样品进行WGS之前检测DNA浓度,DNA降解QC(凝胶电泳)和纯度(A260/280),确保浓度 30 ng/μl的DNA样本至少110μl, A260/280介于1.75-2.04,96孔板干冰运输至实验室。测序仪进一步对样品进行质量控制并确保DNA浓度>30 ng/μl,并且每个样本都可获得高质量的基因芯片结果。芯片重复率小于0.99、交叉污染水平高、与声明性别不匹配、无法进一步查证或已撤销知情同意的样本不再进行WGS(n=59)。阳性结果提交之前对基因分型数据进行审核。每个样本均使用Covaris LE220(Covaris)将0.5μg DNA打断为平均450 bp的DNA片段,使用Illumina TruSeq DNA PCR-free样品制备试剂盒进行制备。使用罗氏LightCycler 480 II(罗氏诊断)和KAPA文库定量试剂盒(KAPA Biosystems)获得所需浓度。从2014年2月到2017年6月,使用了100 bp、125bp和150 bp(分别为377、3,154和9,656个样本)三种读长,100 bp和125 bp使用HiSeq2500的三通道和两通道,150 bp使用HiSeq X单通道。至少95%的常染色体基因组达到15×覆盖,最大5%的插片段必须小于读长的两倍。在进行样本和数据质控后,剑桥大学高性能计算服务中心(HPC)收到了13,187份WGS数据文件进一步质量控制。


WGS数据处理流程

对13,187例样本进行WGS数据分析(扩展数据Fig2)。核型分析确定性别后与亲属样本进行匹配,以检查重复提交样本和样本输入错误,通过四个质控步骤确保SNV和Indel数据满足高标准要求。共计150个样本(1.1%)被排除,剩余13,037例样本继续后续分析。13,037例样本按照“欧洲”、“非洲”、“南亚”、“东亚”或“其他” 不同种族进行归类。亲缘性分析后生成样本相关病例网络,共计10,259个MSUP。13,037例患者的变异经配对后用bcftools标准化并通过HBase数据库进行过滤筛选。通过性别核型,种族,亲缘性分析,结合登记资料对样本和变异进行注释。注释包括是否受影响,是否与先证者关联,是否为MSUP,种族和性别核型等,并参考是否导致功能影响,是否被HGMD收录,是否为人群特异性等位基因频率等。


相关发现

15个罕见病种类(即除UKB、GEL和质控样本)均由该领域专家生成DGGs清单,有充足文献证据表明疾病相关性的基因方被列入。2,497个基因标签对中与疾病相关的DGGs共计2 ,073个,经人工检阅并用RefSeq和/或Ensembl进行转录本分析后对变异进行注释。根据(按优先顺序)人群信息、参考基因组中的位点选择转录本,在Ensembl中标记为“典型”。如下情况则标记为SNV和Indel变异:(1)如果MAF小于1/1000对照人群则被定义为新发致病变异,如果小于25/1000则被HGMD定义为致病变异,这些SNV和Indel变异均被列入检阅名单;(2)如果VEP预测影响为“高”或“中”,或者包括“剪接区变异”或“非编码区转录本外显子变异”,则被归类为非编码区变异;(3)与患者疾病相关的DGGs变异。如果变异超过3个等位基因或MAF≥10%,则排除,以避免重复区域错误,去除潜在系统误差。使用上述筛选标准对除ICP外的所有疾病进行分析,ICP对新发变异和已报道变异均采用较高的3%作为MAF阈值。设定较高阈值可以避免将男性和未生育女性人群高频致病性变异错误过滤。使用这一策略可使MDTs审查的变异数减少。


遗传相关性分析

使用BeviMed统计方法分析据库中罕见病的遗传相关性,每次BeviMed分析均有病例和对照组,互不相关且包含可疑变异。选择可能由共同遗传病因(例如表型相似)导致的病例,同时选择对表型作用机制相似的罕见变异(例如,预测对特定基因产物有相似作用)。BeviMed计算无关联、显性关联和隐性关联的后验概率分析变异的致病性。分析致病变异的结构,并根据不同变异与疾病的相关性进行分组。BeviMed根据假设的病因机制进行变异分类,通过因果关系后验概率计算每个基因变异相关的病例数。该方法在补充信息中有详细描述。使用BeviMed分析罕见变异基因型与各种病例对照组(tags)之间的相关性,只有后验概率超过标签时方被记录并认为有相关性。

未标题-1_03.jpg

调控因子分析

使用BLUEPRINT对ChIP-seq数据进行分析,在有活性的CD4+T细胞、B细胞、成红细胞、巨核细胞、单核细胞和静止CD4+T细胞中筛选调控因子。每种细胞类型都使用开放染色质数据(ATAC-seq或DNase-seq)和组蛋白修饰数据(H3K27ac)以及RedPop识别调控元件(补充信息)。此外,对于巨核细胞和红细胞,同时进行转录因子ChIp–seq数据分析,查看结合峰其他调控因子:对于巨核细胞,查看FLI1、GATA1、GATA2、MEIS1、RUNX1、TAL1和CTCF;对于红细胞,查看GATA1、KLF1、NFE2和TAL1;对于单核细胞和B细胞,查看CTCF。不同细胞类型调控因子的分析过程如下:(1)使用ATAC-seq或DNase-seq和H3K27ac-seq数据筛选RedPop区域;(2)使用ChIP-seq数据筛选转录因子和CTCF结合峰(如有),计算富集分数;(3) 去除富集分数


GATA1 增强子和HDAC6 缺失的功能分析

用引物HDAC6-F: 5′-catctcagaggatcagagg-3′和HDAC6-R: 5′-catagctcagaggtt-3′ 进行PCR证实了GATA1 增强子和HDAC6 的缺失。电子显微镜分析血小板,免疫染色分析静息血小板和纤维蛋白原扩散血小板以以及结构光照明显微镜分析。从血小板中获得总蛋白裂解物后,采用以下抗体进行SIM和免疫印迹分析:兔抗HDAC6、小鼠抗乙酰化微管蛋白抗体、小鼠抗α-微管蛋白抗体、兔抗VWF、小鼠抗CD63抗体,大鼠抗GATA1N6抗体,兔抗GATA1抗体、兔抗GAPDH抗体和抗β3整合素抗体。GATA1统计分析见补充资料。


血小板MPL表达

血小板膜上MPL蛋白水平通过单克隆抗体流式细胞进行检测: APC标记的抗CD42b IgG1抗体,PE标记的抗CD110 IgG1抗体,PE标记同型对照。EDTA抗凝血液样本与抗CD110(或对照)和抗CD42b抗体孵育30分钟后测定抗CD110抗体产生的平均荧光强度(MFI)。

未标题-1_06.jpg

Nanopore测序

基于纳米孔技术通过PCR扩增长片段目标DNA,分析Glanzmann’s血栓患者ITGB3的9号内含子结构。流动池运行3h,平均覆盖度为863986×。


报告摘要

有关研究设计的更多信息参考本文链接。


数据保存

国家健康研究所(NIHR)十万人基因组项目中罕见病试点4,835名参与者和UK Biobank样本764例根据相关流程申请查看。MDT报告的等位基因和临床解释已经上传至ClinVar(文件名称‘NIHR Bioresource Rare Diseases’) 和DECIPHER数据库。


参考文献

Turro, E., Astle, W.J., Megy, K. et al. Whole-genome sequencing of patients withrare diseases in a national health system. Nature 583, 96–102 (2020).