越来越多的研究表明,人体很多疾病与肠道微生物存在密切的关系。肠道微生物在某种程度上可以反映疾病状态,也因此,越来越多的研究开始应用肠道微生物构建诊断模型。肠道微生物用于诊断模型存在一个较大的障碍 - 区域效应,即一个地区训练得到的模型无法应用于其他地区的人群,这是由人群肠道微生物的地区异质性造成的。
今天介绍的这篇新发表在《Gut》的文章,是华中科技大学宁康教授团队将他们之前开发的迁移学习框架(EXPERT),应用于克服基于微生物的跨区域诊断的区域效应上。我们之前的公众号文章有对该迁移学习方法做过介绍(该方法已发表在Brief in Bioinformatics):
BioRxiv | EXPERT:基于迁移学习来做微生物来源追溯
迁移学习可以“借用”源城市的成熟疾病知识来帮助目标城市的疾病诊断,特别是在目标城市的微生物群模式知识很少的情况下。
图1. 数据分割、评估工作流程和框架评价
为了评估上述框架,研究人员从广东肠道微生物组计划中获得了属级分类数据。这些样本来自14个城市,选择了7种有代表性的疾病进行评估(图1A)。将每个城市的样本随机分为训练子集和测试子集(默认为80%:20%),然后对三个模型进行评估:(1)独立疾病神经网络(DNN)模型:分别对每个城市的训练子集和测试子集进行从头训练和测试DNN模型。(2) 区域DNN模型:使用一个城市A(源城市)的训练子集对DNN模型进行初始训练,并在另一个城市B(目标城市)的测试子集中进行测试。(3) 迁移DNN模型:使用一个城市A的训练子集来训练DNN模型,然后对城市B的一定比例(从20%到80%)的样本应用迁移学习,然后在城市B的测试子集上测试迁移DNN模型(图1B)。
结果发现,跨城市的区域DNN模型呈现出0.506的低平均精度,而独立DNN模型的平均精度为0.743(图1C)。这表明区域因素在很大程度上限制了跨区域诊断,以前的研究也表明了这一点。然而,迁移DNN模型深刻地提高了跨城市的预测准确性,平均准确率为0.829(图1C)。有趣的是,一旦目标城市使用的样本比例超过50%,迁移DNN模型甚至可以呈现出比独立DNN模型更高的预测精度(图1D)。此外,当将这种方法应用于两个洲际队列时,迁移DNN模型也有良好的表现。
此外,这里给出的机器学习框架在识别区域特定的微生物以及所有区域共享的微生物方面具有优势。用 “leave-one-feature-out’”的方法发现了某些受地区影响较大的微生物,如Enterobacteriaceae和Clostridium,而其他微生物受地区影响较小,如Parabacteroides和Faecalibacterium。作者推测,区域特定的微生物可能有助于迁移DNN模型在跨区域诊断疾病方面的有效性。
总之,这项研究表明,通过利用跨区域的微生物特征知识,迁移学习可以实现基于微生物的跨区域疾病诊断,并具有较高的准确性和稳健性。这项研究提供了一个新的场所,可以超越区域限制,通过人工智能技术促进临床试验中基于微生物的跨区域疾病诊断。
代码:https://github.com/HUST-NingKang-Lab/EXPERT-Disease-GGMP
Wang N, Cheng M, Ning K.Overcoming regional limitations: transfer learning for cross-regional microbial-based diagnosis of diseases. Gut Published Online First: 28 October 2022. doi: 10.1136/gutjnl-2022-328216 |