CheckM2: a rapid, scalable and accurate tool for assessing microbial genome quality using machine learning

编辑 / 发布于2025-04-22 / 更新于2025-04-23 / 阅读 4

Methods

Simulating genome completeness and contamination

NCBI 上 4978 个 bacterial 和 322 个archaeal,Galah去重(99%)。Prodigal预测基因,BBMap采样预测的蛋白质。创建完整度5-100%的片段,同一个蛋白质采样多次模拟污染 0-35%。

完整度: 模拟genome的氨基酸/完整genome的氨基酸

污染度:蛋白质采样超过1次的氨基酸/完整genome的氨基酸

两个估计和训练集有差别的测试集来测试。

20-kb-fragment 方法:基因组分割成平均20000方差2000的片段,BBMap采样,这些分割后的片段不会再重新拼接成contig(这些就作为contig)。

MAG-derived-length-fragmentation 方法: GTDB数据库,contig数量>10 和<350的MAG作为分布的参考pool,每个MAG用checkm1评估需要满足 comp>65%, cont<5%。对于测试genome。每个模拟的测试基因组,随机选择一个MAG contig 分布,然后根据这个分布将完整的genome切割成片段(考虑genome length,长度顺序随机),采样获得数据集。

Annotation of genomes

Prodigal预测genes , KEGG注释,blastp 比对到uniref100( 包含KEGG Orthology (KO)),然后过滤。把注释转化成一个包含所有现存KEGG IDs的频率矩阵,行表示一个simulated genome,在同一通路中发现的 KO 彼此相邻分组,允许 NN 的滑动卷积窗口从该分组中提取有用的信息。存在于多个通路中的 KOs 仅根据通路字母顺序分配给第一个通路。模块、途径和类别的 KEGG 定义于 2018 年 11 月 26 日从 KEGG 下载。

注释,KEGG pathway 后,计算完整度, genome中的gene/all gene 在一个module,pathway 或 category。每个module, pathway and category 完整度特征向量编码成0-1的分数作为额外列。

Selection of additional genomes

Training ML models

训练通用的 gradient boost models 梯度模型。测试集内的genome注释作为特征向量,污染度和完整度作为预测目标。

lightgbm训练回归模型。

tensorflow训练NN模型,模型结构 3 one-dimensional convolutional layers (size 180) --- 1 one-dimensional convolutional layers (size 100) --- flattened --- dense layer --- output layer(sigmoid)。

Filtering out low-quality genomes

再训练集训练NN模型,2epoch。移除训练集中NN预测得到的完整度和污染度和预设的完整度和污染都差距大(10%)的genome。这些genome大部分再checkm1中表现也较差。一般来说,它们所属的物种再Refseq中至少还有一个完整的genome,而且没有显示出高度偏差,表明是基因组的问题(??)。

Benchmarking performance