百川智能发布全模态模型Baichuan-Omni-1.5，性能大幅超越GPT-4o-mini

fjmyhfvclm2025-01-26 4

百川智能今日宣布，其全新全模态模型Baichuan-Omni-1.5正式上线。该模型支持文本、图像、音频和视频的全模态理解，并具备文本和音频的双模态生成能力。在视觉、语音及多模态流式处理方面，Baichuan-Omni-1.5的表现优于GPT-4o-mini，尤其在多模态医疗应用领域表现出色。

Baichuan-Omni-1.5不仅能在输入和输出端实现多种交互操作，还拥有强大的多模态推理能力和跨模态迁移能力。其音频技术采用端到端解决方案，支持多语言对话、端到端音频合成、自动语音识别和文本转语音等功能，且可实现音视频实时交互。

在视频理解方面，通过对编码器、训练数据和方法的优化，Baichuan-Omni-1.5的整体性能大幅提升。此外，该模型构建了包含3.4亿条高质量图片/视频-文本数据和近100万小时音频数据的庞大数据库，在SFT阶段使用了1700万条全模态数据，进一步提升了模型的准确性和鲁棒性。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。

转载请注明原文地址:https://www.gamev918.cn/tech/1340154.html

omini