欢迎访问!中国科学技术大学精准智能化学全国重点实验室
返回首页

【Precis. Chem.】美国亚利桑那大学Kenry教授团队 | 机器学习辅助分析临床生物标志物提升卵巢癌诊断

发布时间:2025-08-01阅读次数:13来源:精准智能化学全国重点实验室


英文原题:Machine-Learning-Assisted Analysis of Patient Clinical Biomarkers to Improve Ovarian Cancer Diagnosis

通讯作者:Kenry – 美国亚利桑那大学

作者:Célia Sahli, Tiffany Thanhtruc Pham, and Kenry

中文供稿人:李宗博,崇媛媛,中国科学技术大学

研究背景:

卵巢癌是致死率最高的妇科恶性肿瘤之一,五年生存率不足50%,多数患者确诊时已晚期,而早期局限性肿瘤的五年生存率可达90%以上。其发病受年龄与绝经状态等因素影响:绝经过渡期卵巢生理变化可能通过激素水平波动参与致癌过程。

当前临床诊断依赖盆腔检查、影像学(TVUS/MRI)及血液生物标志物(CA125/HE4等),但均存在显著局限。盆腔检查特异性不足,易将囊肿/纤维瘤误判为肿瘤且漏诊早期病变;TVUSMRI虽可观察卵巢结构,但无法明确良恶性;血液检测因无创、低成本及可高频监测的优势成为更优选择,但现有标志物(如CA125)在非癌性疾病(子宫内膜异位症/盆腔炎)中也会升高,导致假阳性/阴性问题,亟需更精准的诊断方案。

近年来,机器学习凭借其处理复杂数据、挖掘潜在模式的能力,在癌症诊断领域展现出潜力。本文通过机器学习分析卵巢肿瘤患者的47项特征临床数据,旨在识别关键生物标志物并评估监督学习算法的分类效能,以提升卵巢癌早期诊断的准确性与可靠性。

内容介绍:

1. 研究流程

本研究基于公开数据集(178例恶性/171例良性卵巢肿瘤,47项特征),首先对包含癌症与良性卵巢肿瘤患者数据的原始数据集进行预处理,随后在预处理后的数据集上进行特征评分与排序,以识别若干可用于区分良恶性卵巢肿瘤的关键特征。通过主成分分析将高维数据集转换为低维表示,并在二维空间中可视化数据分布。此外,将预处理后的数据集划分为训练集(80%)和测试集(20%),分别用于训练和测试逻辑回归、随机森林等多种监督式机器学习算法,并通过10折交叉验证优化超参数,其分类性能通过混淆矩阵和受试者工作特征曲线进行评估。

1. 卵巢肿瘤患者数据分析工作流程概览

2. 特征重要性与无监督学习分析

通过信息增益比和基尼指数发现,HE4CA125、绝经状态和年龄是区分良恶性肿瘤的核心特征,其次是白蛋白、淋巴细胞比率等。PCAt-SNE验证了数据降维后的可分性。分层分析显示:绝经前患者中,年龄、白蛋白和红细胞分布宽度是重要指标;绝经后患者中,CA125HE4和血小板计数更具区分力。统计检验表明,这些特征在良恶性组间差异显著(p<0.001)。

2. 卵巢肿瘤患者各项特征的评分与比较分析

3. 监督分类性能

全特征模型中,随机森林和逻辑回归表现最佳,测试集准确率90.3%AUC 91.1%。仅保留10个核心特征的特征筛选后,梯度提升算法性能显著提升,准确率从85.8%升至88.3%。分群体分析显示:绝经后患者模型性能最优,k-最近邻算法准确率95%AUC 95%绝经前患者假阴性率较高,部分算法漏诊>50%恶性病例,需进一步优化以减少漏诊风险。

3.  全体卵巢肿瘤患者的监督分类结果

总结/展望:

本研究通过机器学习分析309例卵巢肿瘤患者临床数据,揭示HE4CA125、绝经状态和年龄是区分良恶性肿瘤的关键指标,其中绝经状态仅对绝经前患者具有显著预测价值,而白蛋白水平在所有亚群中均表现重要。分层分析表明,绝经前患者需关注年龄、红细胞分布宽度等特征,绝经后患者则依赖CA125、血小板计数等标志物。通过特征筛选和模型优化,随机森林与梯度提升算法在测试集达到90.3%准确率,且降维策略有效减少过拟合。但研究受限于单中心小样本数据、未涵盖种族、社会经济状态等因素,且部分算法存在假阴性风险,绝经前患者漏诊超50%恶性病例。

未来需构建多中心队列验证模型普适性,结合影像组学与多组学数据提升预测维度,并开发针对高风险人群的低假阴性率模型。研究创新性地提出动态特征选择策略,为卵巢癌精准诊断提供了新范式,但仍需在数据多样性、模型可解释性及临床转化方面持续突破,以推动精准医疗落地应用。

相关论文发表在以精准为导向的高质量期刊Precision Chemistry上,Célia Sahli为论文的第一作者,Kenry教授为论文的通讯作者。


Cite this: Sahli, C.; Pham, T. T.; Kenry. Machine-Learning-Assisted Analysis of Patient Clinical Biomarkers to Improve Ovarian Cancer Diagnosis. Precision Chemistry 2025. https://doi.org/10.1021/prechem.5c00028.


返回列表
上一篇:下一篇: