今天分享的是:上海人工智能实验室:金融大模型应用评测报告-摘要版2024
报告共计:17页
《金融大模型应用评测报告(2024)摘要版》由上海人工智能实验室等机构发布,旨在推动金融科技创新,提升金融服务智能化水平,探索金融大模型应用新方向。
在评测范式上,本次评测涵盖14个主流大模型机构的20个模型,包括国内外、开闭源、通用基模与金融垂模。围绕金融行业核心业务需求和场景适配性,从模型基础能力、金融安全与价值对齐能力、金融风险控制能力、金融专业认知能力、金融业务辅助拓展能力5大维度展开。评测采用主客观结合的方式,使用《库帕思金融大模型评测数据集(2024版)》,以OpenCompass平台为核心工具,通过线性加权模型计算综合评估分数。
评测结果显示,参评模型总分平均为71.9分。Anthropic的Claude-3.5-Sonnet-20240620、阶跃星辰/财跃星辰的Step-2-16k/Finstep、阿里巴巴的Qwen2.5-72b-Instruct/Qwen2-VL-72B位列前三。各维度方面,模型基础能力平均得分59.8分,阿里巴巴的Qwen2.5-72B-Instruct领先;金融安全与价值对齐能力平均92.8分,阶跃星辰/财跃星辰的Step-2-16k表现突出;金融风险控制能力平均77.1分,Anthropic的Claude-3.5-Sonnet-20240620排名靠前;金融专业认知能力平均52.0分,腾讯的Hunyuan-Turbo/Hunyuan-Vision表现较好;金融业务辅助拓展能力平均77.8分,Anthropic的Claude-3.5-Sonnet-20240620居首。
评测总结指出,各模型在五大能力维度基本满足当下场景需求,但金融专业认知和多模态处理能力有待提升。同时,高质量金融语料建设,尤其是多模态数据集构建至关重要。此外,拓展和更新以金融业务为核心的评测框架,紧密结合实践,有助于规范行业发展,推动模型与业务需求精准对接。
本次评测为金融大模型行业发展提供了重要参考,指引了未来发展方向,对推动金融大模型在行业中的应用具有重要意义 。
以下为报告节选内容