20 万 + 咳嗽样本,已知最大的咳嗽研究数据集在 4 月,研究小组着手收集尽可能多的咳嗽记录,包括来自 Covid-19 患者的咳嗽记录。
他们建立了一个网站,人们可以通过手机或其他支持网络的设备记录一系列咳嗽。参与者还填写了他们正在经历的症状的调查表,无论他们是否患有 Covid-19,是否通过官方测试,通过医生对其症状的评估或是否经过自我诊断而得到了诊断。他们还可以记录自己的性别,地理位置和母语。
迄今为止,研究人员已经收集了 70,000 多条录音,每条录音包含多个咳嗽声,总计约 200,000 咳嗽音频样本,Subirana 说这是 “已知最大的咳嗽研究数据集”。确认患有 Covid-19 的人(包括无症状的人)提交了大约 2500 份录音。
该团队使用了 2,500 个与 Covid 相关的记录,以及他们从集合中随机选择的另外 2500 个记录来平衡数据集。他们使用了 4,000 个样本来训练 AI 模型。然后将其余的 1,000 个记录输入模型中,以查看它能否准确区分出 Covid 患者和健康个体的咳嗽。
令人惊讶的是,正如研究人员在论文中所写的那样,他们的努力揭示了 “阿尔茨海默氏症和新冠咳嗽算法之间惊人的相似之处”。
他们发现,在原本用于阿尔茨海默氏症的 AI 框架内无需进行大量调整,他们就能找到针对 Covid-19 的四种生物标志物的模式 - 声带强度、情绪、肺和呼吸功能以及肌肉退化。该模型从 Covid-19 确诊的人中识别出 98.5% 的咳嗽,并准确地检测到了所有无症状的咳嗽。
Subirana 说:“我们认为这表明,即使您没有症状,当您拥有 Covid 时,您产生声音的方式也会改变。”
100% 检测到无症状感染者Subirana 强调,这种 AI 模型的优势不在于检测有症状的新冠患者,不管他们的症状是由于 Covid-19 还是其他症状(如流感或哮喘)引起的。该工具的优势在于它能够分辨无症状新冠感染者的咳嗽和健康的咳嗽。
MIT的团队正在与一家公司合作,根据他们的 AI 模型开发免费的预检应用程序。他们还与世界各地的多家医院合作,收集更大,更多样化的咳嗽记录集,这将有助于训练和增强模型的准确性。
正如他们在论文中提出的那样,“如果预筛查工具始终在后台并且不断改进,那么泛滥症就可能成为过去。”
最终,他们设想可以将他们开发的音频 AI 模型集成到智能扬声器和其他听音设备中,以便人们可以方便地(也许每天)对他们的疾病风险进行初步评估。