【佳学基因检测】基因解码如何使用UCSC/Ensembl数据库进行基因检测结果的分析

来源：基因检测的优势
作者：基因解码者
时间：2024-07-14 11:21
阅读数：次

基因解码说明：从技术上讲，RefSeq 基因和 UCSC 基因是基于转录本的基因定义。该数据库根据转录数据建立了基因模型，然后将基因模型同人类基因组序列进行比对。相比之下，Ensemble Gene 和 Gencode Gene 是基于组装的基因定义，试图直接从人类基因组的参考序列构建基因的判断。这两个数据分析方法从不同的角度出发，试图做同一件事：将基因测序获得的DNA序列给矛盾适当的基因

【佳学基因检测】基因解码如何使用UCSC/Ensembl数据库进行基因检测结果的分析

ANNOVAR 可以选择处理 UCSC 已知基因注释或 Ensembl 基因注释，这两种注释都比 RefSeq 更全面，包括许多注释不良或计算预测的基因。下面显示了使用 UCSC 已知基因注释变体的示例：

[jiaxuejiyin@genejiedu ~/]$ annotate_variation.pl -out ex1 -build hg19 example/ex1.avinput humandb/ -dbtype knownGene
NOTICE: The --geneanno operation is set to ON by default
NOTICE: Reading gene annotation from humandb/hg19_knownGene.txt ... Done with 78963 transcripts (including 18502 without coding sequence annotation) for 28495 unique genes
NOTICE: Reading FASTA sequences from humandb/hg19_knownGeneMrna.fa ... Done with 45 sequences
WARNING: A total of 43 sequences will be ignored due to lack of correct ORF annotation
NOTICE: Finished gene-based annotation on 15 genetic variants in example/ex1.avinput
NOTICE: Output files were written to ex1.variant_function, ex1.exonic_variant_function

转录本名称（在 ex1.exonic_variant_function 文件中）看起来像 uc002eg1.1 等，它们是 UCSC 基因标识符。

要使用 Ensembl 基因注释变体，请使用以下命令。输出格式与上面描述的类似。 “ENSG”和“ENST”是注释基因和转录本的 Ensembl 标识符。

[jiaxuejiyin@genejiedu ~/]$ annotate_variation.pl -out ex1 -build hg19 ex1.hg19.avinput humandb/ -dbtype ensGene
NOTICE: The --geneanno operation is set to ON by default
NOTICE: Reading gene annotation from humandb/hg19_ensGene.txt ... Done with 196501 transcripts (including 101155 without coding sequence annotation) for 57905 unique genes
NOTICE: Reading FASTA sequences from humandb/hg19_ensGeneMrna.fa ... Done with 20 sequences
WARNING: A total of 6780 sequences will be ignored due to lack of correct ORF annotation
NOTICE: Finished gene-based annotation on 15 genetic variants in example/ex1.avinput
NOTICE: Output files were written to ex1.variant_function, ex1.exonic_variant_function

由于输出仅包含 Ensembl 标识符，因此如果想将其翻译为基因同义词，可以下载 hg19 的此文件并自行使用两列文件进行翻译。

比较来自三个不同基因定义系统的程序消息（“Done with xxxtranscripts for yyy uniquegenes”），可以看到，Ensembl 注释了人类基因组中贼多数量的基因，而 RefSeq 注释了贼少数量的基因。

基因解码说明：从技术上讲，RefSeq 基因和 UCSC 基因是基于转录本的基因定义。该数据库根据转录数据建立了基因模型，然后将基因模型同人类基因组序列进行比对。相比之下，Ensemble Gene 和 Gencode Gene 是基于组装的基因定义，试图直接从人类基因组的参考序列构建基因的判断。这两个数据分析方法从不同的角度出发，试图做同一件事：将基因测序获得的DNA序列给矛盾适当的基因名称。

然而，这两种分析方法会产生不同的分析结果。例如，RefSeq 通过组装群体中的转录数据来构建基因模型，但参考人类基因组可能有一个等位基因是一个次要等位基因。在这种情况下，获得的序列可能无法与基因组 100% 对齐，从而导致基因测序结果的 FASTA 文件与从全基因组序列（通过将外显子连接在一起）生成的 FASTA 文件之间存在差异。

由于这些原因，外显子变异的正确注释不能依赖于公共数据库中的cDNA序列，而只能基于基因组本身中实际的chr:start-end位点。为此，基因解码针对几个特定基因组构建了FASTA序列，基因检测机构可以直接从ANNOVAR网站下载序列；基因解码还提供程序 (retrieve_seq_from_fasta.pl) 来为未提供预构建文件的任何其他基因组构建 FASTA 序列。

由于这些原因，基因解码提供的文件中的 FASTA 序列可能与您从 RefSeq 获得的 FASTA 序列不同。 ANNOVAR 使用的序列是基于特定基因组构建和组装的“理论”序列，但 RefSeq 编译的 FASTA 序列是来自大型数据库的“观察到”序列，与特定组装版本没有任何关系。它们可能具有相同的标识符，但它们是不同的东西。

(责任编辑：佳学基因)

顶一下

(6)

75%

踩一下

(2)

25%

推荐内容：