斯坦福大学和Stability AI开发了一个专门解读胸部X光片的图像模型-CheXagent

斯坦福大学和Stability AI开发了一个专门解读胸部X光片的图像模型-CheXagent

胸部X光是医院中常见的一种检查方法,用于帮助发现肺部和心脏等问题。

CheXagent是一种能够自动分析胸部X光图像的系统,能够识别图像中的关键特征并回答与图像相关的问题。

这些功能包括但不限于疾病识别、异常检测以及图像中重要结构的分析。

主要功能:

胸部X光是医院中常见的一种检查方法,用于帮助发现肺部和心脏等问题。尽管这项技术很有用,但医生每天需要解读大量的X光图像,这既费时又容易出错。

1、多样化任务处理:CheXagent能够处理包括图像理解、问题回答和文本生成在内的多种类型的任务,这些任务覆盖了从粗粒度到细粒度的图像解读需求。

CheXagent能够自动分析胸部X光图像,识别图中的关键特征和潜在问题。这包括但不限于疾病识别、异常检测以及图像中的重要结构分析。

2、生成放射学报告:除了图像分析外,CheXagent还能自动生成详细的放射学报告。这些报告模仿医生的解读,提供关于发现的描述、可能的诊断以及任何推荐的后续步骤。

3、高效的解读性能:与其他通用和医疗领域的基础模型相比,CheXagent在多个胸部X光图像解读任务上的表现超越了这些模型。它在视觉任务上的表现超过了通用领域模型的97.5%,在医疗领域模型上的表现提高了55.7%。这表明CheXagent对于医疗图像的解读具有高度的准确性和可靠性。

工作原理:

CheXagent是一个具有80亿参数的经过指令调整的功能模型,能够分析图像、理解文本并生成响应。

CheXagent的开发包括三个主要组件:临床大型语言模型(LLM)、视觉编码器和视觉-语言桥接网络。

研究人员还收集了来自28个不同来源的胸部X光图像和相关信息,形成了一个超过600万组数据的大型数据集。这个数据集旨在训练人工智能模型,让它学会如何解读X光图像。

1、临床大型语言模型(LLM):CheXagent包含一个专门设计的语言模型,用于理解和解析放射学报告。这意味着CheXagent能够读取和理解医生通常用来描述X光图像发现的复杂医学文本。

2、视觉编码器:为了使模型能够“看懂”胸部X光图像(CXR),项目团队开发了一个视觉编码器。这个编码器能够处理图像数据,识别图像中的关键特征和模式,这是自动解读X光图像所必需的。

3、视觉与语言模态桥接网络:CheXagent还包括一个桥接网络,用于将视觉数据(图像)和语言数据(文本报告)结合起来。这使得模型不仅能“看到”图像中的信息,还能“理解”和“解释”这些信息,类似于医生如何解读X光图像并撰写报告。

CheXbench基准测试:

为了评估CheXagent的性能,项目团队引入了CheXbench,这是一套用于测试基础模型在8个临床相关的胸部X光解读任务上能力的系统评估工具。这些任务旨在模拟实际医疗环境中的各种情况,设计得既全面又具有挑战性。

评估结果:

在CheXbench任务上的优越表现:CheXagent在CheXbench基准测试的8个临床相关的胸部X光解读任务上展现了出色的性能。CheXbench是一套全面评估胸部X光解读能力的测试,包括图像理解和文本生成等多个方面。CheXagent在这些任务上的高分表现说明了其在理解和解释胸部X光图像方面的高效能力。

与专家放射科医师的比较:通过与五位专家放射科医师进行广泛的定量评估和定性审查,CheXagent的报告和解读结果被证明在准确性和可靠性方面与专家相当,甚至在某些任务上超过了人类专家的表现。这一点特别重要,因为它显示了人工智能在支持医疗决策方面的潜力。

与其他通用和医疗领域的基础模型的比较:CheXagent在多个胸部X光图像解读任务上的表现超越了这些模型。它在视觉任务上的表现超过了通用领域模型的97.5%,在医疗领域模型上的表现提高了55.7%。这表明CheXagent对于医疗图像的解读具有高度的准确性和可靠性。

项目地址:

https://stanford-aimi.github.io/chexagent.html

斯坦福大学和Stability AI开发了一个专门解读胸部X光片的图像模型-CheXagent

本文地址:https://www.163264.com/6534

(0)
上一篇 2024年2月10日 下午2:18
下一篇 2024年2月10日