首页 / 文章汇 / 技能干货 / 软件使用

NCBI蛋白质BLAST检索数据库最新变更

  • 看不见的线
  • 78
  • 2025-06-16 08:46:55
  • 原创

1、NCBI蛋白数据库变更

自2025年8月起,ClusteredNR将取代传统的标准NR数据库,成为蛋白质BLAST搜索的默认数据库。这一变更旨在提升搜索效率和结果质量。当然,传统的NR数据库仍可通过手动选择继续使用。

2、ClusteredNR的优势

更快的搜索速度:通过聚类减少数据量,加速分析流程。

减少冗余结果:每个聚类仅保留代表性序列(基于标题和功能筛选),避免重复相似序列的干扰。

更广的分类覆盖范围:结果中能体现更多物种的多样性信息(某些物种代表性过高,在蛋白质搜索中占据主导地位,例如示例中人类朊蛋白的搜索结果覆盖了132条序列的聚类)。

3、ClusteredNR的来源

ClusteredNR的本质是对标准NR数据库进行去冗余聚类,通过90%相似性+90%长度的阈值,将高度相似的蛋白质归为同一簇,并选取代表性序列优化 BLAST搜索体验。

聚类方法:使用MMseqs2对NR数据库中的蛋白质序列进行聚类,保证序列相似性≥90%(即同一簇内的蛋白质序列彼此间至少90%相同)。长度≥90%的最长成员(确保短片段或截断序列不会影响聚类质量)。

代表性序列的选择:每个簇选取一个注释良好的代表性蛋白质,在BLAST结果中,仅显示该代表性序列的标题,以减少冗余信息。

用户可以展开Cluster,查看或下载所有成员蛋白质的序列报告。

参考文件(NCBI):

1、Faster, Better Results for Protein BLAST Searches

2、New ClusteredNR database: faster searches and more informative BLAST results

推荐课程

【课程】个人电脑上如何通过BLAST软件做比较基因组学分析

  • 点赞 (0人)
  • 收藏 (0人)
看不见的线
  • 课程数:
  • 文章数:
  • 学习人数: 0
关注
--- 作者文章 ---
  • 暂无内容
作者课程
  • 暂无内容
相关好课严选

官方微信公众号

客服热线:15618809518

【勤学如春起之苗,不见其增日有所长。假以时日,你定会为你的努力学习而倍感骄傲,加油!】