百川智能今日宣布,其全新全模态模型Baichuan-Omni-1.5正式上线。该模型支持文本、图像、音频和视频的全模态理解,并具备文本和音频的双模态生成能力。在视觉、语音及多模态流式处理方面,Baichuan-Omni-1.5的表现优于GPT-4o-mini,尤其在多模态医疗应用领域表现出色。
Baichuan-Omni-1.5不仅能在输入和输出端实现多种交互操作,还拥有强大的多模态推理能力和跨模态迁移能力。其音频技术采用端到端解决方案,支持多语言对话、端到端音频合成、自动语音识别和文本转语音等功能,且可实现音视频实时交互。
在视频理解方面,通过对编码器、训练数据和方法的优化,Baichuan-Omni-1.5的整体性能大幅提升。此外,该模型构建了包含3.4亿条高质量图片/视频-文本数据和近100万小时音频数据的庞大数据库,在SFT阶段使用了1700万条全模态数据,进一步提升了模型的准确性和鲁棒性。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。