在最近发表在《Nature Communications》杂志上的一项筹商中,筹商东谈主员分析了来自63,000多个宏基因组和近88,000个区分基因组的数据,构建了一个新的民众微生物袖珍怒放阅读框架(smORFs)目次,名为民众微生物袖珍怒放阅读框架目次(GMSC)。该目次诓骗顶端的卵白质基因组学和比拟基因组学本事,对75个栖息地中逾越9.64亿个非冗余smORF进行了全面谛视,其范围约为以往任何smORF责任的20倍。筹商东谈主员进一步树立并发布了一种公开可用的果决和谛视用具,名为“GMSC-mapper”,使将来的筹商大致快速表征他们的微生物宏基因组数据集,而且比往日可能的准确性大大普及。临了,本筹商发现古生菌中smORFs的比例昭彰高于细菌,这标明小卵白在古生菌生物学中的作用更为复杂,并凸起了微生物组生态学中无数小卵白的各样性。
人妻管理员小怒放阅读框(smORFs)是短的(小于100个密码子)DNA片断,赓续出现时基因组中,可能编码推定的肽。它们在生物体的整个三个范围皆被发现,揣测占整个谛视基因的5%到10%。往日被以为包含无功能的“垃圾”DNA,但越来越多的早期展望模子和最近的筹商揭示了它们在应激反映、基因抒发、管家功能、信号通路、抗菌活性和光谐和用中的世俗生物学作用,颠倒是在微生物中。
传统的卵白质发现本事在诓骗基因组数据可靠地识别和表征smORFs方面靠近着要紧挑战,导致它们在微生物组宏基因组筹商中被世俗忽视。高通量比拟基因组学、核糖核酸测序和卵白质基因组学的最新发达一经处治了这些挑战的本事方面的问题。然则,无数潜在的smORF和潜在的假阳性smORF展望功令了民众smORF数据库的发展,荫庇了微生物组筹商筹商的接力。
本筹商应用高度同样的smORF养殖推定肽的“重叠寂寥不雅察”原则,从表面上最大限制地减少smORF假阳性展望,从而允许树立民众微生物smORF目次(GMSC)。该筹商的数据来自SPIRE数据库(63,410个拼装的宏基因组)和ProGenomes2数据库(87,920个区分基因组)。
使用MEGAHIT 1.2.9软件将果决出的≥60个碱基对(bp)的reads拼装成contigs。随后通过改良的Prodigal算法传递这些contigs以识别smORFs。使用SPIRE数据库对假设的smORFs进行了栖息地微生物学(8类)标志,并使用GeoPandas平台对其地舆范围进行了标志。
然后使用启发式Linclust算法使用分层聚类错误构建非冗余smORF目次,从而识别单序列聚类(singleton)。为了考据这些簇并真贵smORF重叠,筹商东谈主员仔细揣测了假阴性单基因的比率,允许那些包含生物学上有趣味的同源序列的单基因。临了,为了测试果决的smORF的质地,筹商东谈主员进行了世俗的硅质测试(QC),并与已有的卵白质序列数据库(RefSeq和东谈主类微生物组小卵白家眷数据集)交叉援用获取的成果。通过整个QC的smORFs被标志为“高质地”。
为了普及目次的实用性和用户友好性,筹商东谈主员树立了一个名为“GMSC-mapper”的表征和谛视用具。该用具不错扫描呈现的宏基因组,并从宏基因组数据靠拢自动识别和谛视小卵白质(假设的肽)。为了考据和展示最终目次和用具的实用性,筹商东谈主员分析了来自RefSeq的古细菌和细菌宏基因组。他们使用他们的新用具来比拟这两个人命范围的smORF密度。
筹商成果标明,Prodigal算法的初步成果细目了27.2亿个潜在的smORF,其中84.7%被归类为“单据”。随后的假阳性筛选分析将这些假设的smORF减少到96,497,049个smORF,包括GMSC目次。
值得细心的是,尽管这个近10亿个巨大的smORF目次比往日细见识大20倍,但疏远分析标明,这只代表了民众可用smORF各样性的一小部分。
在缠绵机QC和附加数据库基因组展望匹配中,43,642,695(4.5%)的GMSC数据库为“高质地”。每个高质地的展望皆标有详尽谛视,如分类、栖息地和(要是可用)生物功能。
“为了评估咱们目次的全面性,咱们将GMSC smORF编码的小卵白与RefSeq数据库和先前发表的东谈主类微生物组小卵白家眷数据集进行了匹配。在咱们的目次中,唯有5.3%的smORF与这些先前报谈的小卵白同源。另一方面,咱们的目次包含了80%以上的参考数据集。”
基于GMSC的smORF密度比拟知道,尽管采样数目昭彰减少(18个古细菌门对131个细菌门),但古细菌含有的smORF比例昭彰高于细菌。这一发现激励了对于古细菌中小卵白质功能各样性和进化趣味的真谛问题。苦难的是,鉴于现时古细菌宏基因组学文件的局限性,对这些人命神志中smORF生物学功能的展望无法得到充分考据。
本筹商先容了第一个民众微生物袖珍怒放阅读框架目次的树立,定名为GMSC第1版(GMSCv1)。该目次包含了近10亿个展望的smORF,比往日已知的加多了约20倍。其中4300万个smORF被QC考据为“高质地”,并对其分类单位、潜在生物功能、地舆位置和栖息地进行了全面谛视。
筹商东谈主员还树立并考据了一种自动谛视用具(GMSC-mapper)东流影视限制分级,该用具大致筛选(元)基因组数据集,并灵验地表征其中smORF的各样性。这项筹商的公开成果为微生物组筹商东谈主员提供了前所未有的数据拜谒,使小蛋鹤发现这一严重未被树立的范围干与了一个新期间。