捷报传来,理光获 ACL 2025 SMM4H 竞赛赛道第一

fjmyhfvclm2025-01-28  3

近日,理光中国研究院 (以下简称 SRCB) 在自然语言处理顶级会议 Association of Computational Linguistics 2024 (以下简称 ACL) 的官方比赛 Social Media Mining for Health Research and Applications Workshop and Shared Tasks 2024 (以下简称 SMM4H) 中获得共享竞赛任务提取和规范化英文推文中的药物不良事件 (ADEs) 赛道的第一名,并受邀分享了技术方案。

全球聚焦,学界盛会

ACL 是一个国际性学术组织,致力于推动计算语言学领域的研究、开发和应用。每年一度的 ACL 大会,以其前沿的研究议题、权威的学术报告和广泛的行业参与,吸引着全球学者和专业人士的目光,被誉为自然语言处理领域的风向标。

SMM4H 是一个专注于社交媒体数据挖掘在健康研究和应用中的年会和竞赛活动。今年第九届 SMM4H 的主题为 "Large Language Models (LLMs) and Generalizability for Social Media NLP", 聚焦于探索大语言模型 (LLMs) 在社交媒体自然语言处理 (NLP) 任务中的应用及其泛化能力。在这个跨学科的平台上,与会者共同探讨如何有效运用最前沿的技术通过社交媒体数据洞察和解决现实世界中的健康问题。SMM4H 不仅为参与者提供了一个展示研究成果、交流创新思想的舞台,更为推动健康科学研究与实践的进步贡献了重要力量。

攻坚克难,再创佳绩

SRCB 在 SMM4H 2024 共享竞赛任务中挑战的课题是“提取和规范化英文推文中的药物不良事件 (ADEs)”,任务内容是从嘈杂的社交媒体推文中精确提取出由药物引发的不良反应,并将其映射为 MedDRA 词典中的标准化医学术语。MedDRA 词典 (全称 Medical Dictionary for Regulatory Activities) 是一个国际权威的标准化医学术语集,用于帮助不同国家和地区的药品监管机构、制药公司、临床研究人员以及医疗保健专业人员之间进行有效的沟通和数据交换。

* 竞赛任务描述

面对非结构化数据的复杂性、噪音和背景信息的干扰、多义性问题以及数据稀疏性等多重任务挑战,理光团队通过以下技术有效地提高了不良事件信息提取和术语规范化的性能:

1.提出了一个包含 ADEs 抽取、MedDRA 术语检索和 MedDRA 术语过滤模块的体系架构,有效地缓解了传统方法使用的流程所带来的误差传播,提升了术语规范化的准确性。

2.创新性地提出了四种基于大语言模型的数据增强方法,充分发挥了大语言模型生成高质量文本内容的能力。

3.通过使用医学领域训练样本对文本嵌入模型进行微调,显著提高了 MedDRA 术语的召回率。

理光团队提出的体系架构,通过分析社交媒体上的用户反馈,能够补充临床试验中未报告的药物副作用信息,为药物安全性评估提供了新的视角。实时监测公共健康趋势以及分析社交媒体数据,能够快速反映社会中某些药物的使用情况和相关风险,为公共卫生决策提供了有力的数据支持。对于制药公司和监管机构来说,这一系统提供了实时挖掘社交媒体上的 ADEs 信息的能力,有助于及早发现并应对潜在的公共健康问题。

* 理光中国研究院 NLP 团队成员在 ACL2024 现场分享技术方案

我们秉持前瞻视野,持续保持对创新领域的敏锐嗅觉,探索前沿 AI 科技,在自然语言处理领域不断进取,与上下游合作伙伴合作共创,推动 AI 技术在社会各个领域的创新与落地。

我们将持续引领技术进步与应用拓展,携手全球合作伙伴积极探索、不懈挑战,赋能更多行业迈向高效与可持续发展的未来。

转载请注明原文地址:https://www.gamev918.cn/tech/1370184.html