在 AI 时代,“会说话”的机器人已经十分常见, 在许多酒店、餐厅、医院、图书馆, 我们都能碰到这些小个头大智慧的服务机器人, 它们开口的瞬间, 你可能会听到熟悉的声音: 樱桃小丸子、蜡笔小新、哆啦 A 梦... 这些经典卡通角色的声音成为了它们的“名片”。那么, 机器人的语音功能究竟是如何实现的? 它与智能模组有什么关系? 谁是这类服务机器人的语音“指挥官”? 今天我们就来聊一聊机器人的语音功能。
对于服务类机器人而言, 智能模组无疑是它们实现网络连接、图像处理、语音识别与合成等多种功能的核心部件之一。在语音交互领域, 智能模组可以为服务机器人的语音识别、自然语言处理和语音合成等任务提供强大的算力和通信连接支持。芯讯通高算力智能模组 SIM9650L-W 和近期新推出的 SIM8965 系列便是可以应用到服务机器人领域的 2 款理想产品。
SIM9650L-W 采用高通 6nm 工艺的 8 核 ARM V8 处理器, 主频可达 2.7Ghz, 内置 Adreno™643 GPU。高性能的硬件配置确保了模组在处理复杂的语音识别、语音合成及自然语言处理等任务时具有出色的表现, 能够快速、准确地响应服务机器人的语音指令。
同时, 该模块 AI 算力超过 14Tops, 能够高效运行复杂的 AI 算法, 包括语音识别、情感识别、语音增强及降噪等, 从而提升服务机器人的语音交互体验。此外,SIM9650L-W 支持多个高分辨率摄像头及双屏显示功能, 有助于实现更丰富的视觉交互体验, 如通过人脸识别技术来增强身份验证、通过手势识别来辅助语音指令的输入等。
另外, 芯讯通新推出的 SIM8965 在语音功能方面也表现十分出色, 该模块采用高通 8 核 64 位 ARM Kryo260 处理器, 主频高达 2.1GHz, 搭配 Adreno™610GPU。集成了先进的音频编解码技术, 支持多种音频格式的编码和解码, 包括 MP3、AAC、HE AAC v1 / v2 等, 提供丰富的音频处理能力。视频编码和解码支持 1080p / 60fps (H.264, MPEG4, H.263), 支持同时 1080p / 30 decode + 1080p / 30 encode, 满足服务机器人在复杂场景下的音视频处理需求。
SIM8965 和 SIM9650L-W 两款模组都具备高性能图像处理能力, 拥有丰富的接口和网络协议, 能够轻松连接服务机器人的各种传感器、摄像头、显示屏等外围设备, 实现多维度采集和人机交互, 也能让语音互动体验更个性化。同时, 模块集成的 Android 操作系统, 方便开发者利用丰富的资源为服务机器人定制更加智能、便捷的语音交互功能。
智能模组在服务机器人的语音功能中发挥着关键作用, 它与语音识别、自然语言处理和语音合成等技术和算法共同构成了服务机器人的语音功能系统。芯讯通拥有系列智能模组产品,AI 算力覆盖 1-14Tops, 支持 LTE Cat.4 或 WiFi, 覆盖中国区、欧美、亚太等全球不同区域主流频段, 应用场景含盖智慧城市、机器人、智慧汽车、智慧医疗、智慧农业、工业互联等多领域, 客户可根据不同终端需求匹配不同产品。
随着人机交互需求的凸显, 物联网设备的语音需求也逐渐增长, 未来将有越来越多的场景需要实时、高质量、高稳定的音视频通信。芯讯通在物联网通信模组行业深耕二十多年, 见证 2G 到 5.5G、无连接到强连接、从万物互联到万物智联的演进历程。未来, 芯讯通将继续推动物联网通信模组技术的创新与发展, 为机器人的语音交互体验注入更多活力与可能, 也为各产业的数智化转型赋能。