言语听视觉全链智能技术

自然语言交互

远场交互

灵伴科技自主研发的麦克风阵列技术,由多个声学传感器组成,对声场的空间特性进行采样并进行处理。 可实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,进而提高语音信 号处理质量,以提高真实环境下的语音识别率。

噪声抑制

混响去除

自回声消除

声源测向

声源跟踪

阵列增益

语音识别技术

抗噪声和远场技术

独创的抗噪声和远场处理技术,在识别前增强语音信号,有效分离噪音和混响,极大地提高在户外、市内、车内等复杂环境下的语音识别准确率。

说话人识别和语音识别同步处理技术

独创的说话人识别和语音识别同步处理技术,在语音识别的过程中,实时同步区分说话人,不仅提高系统效率,更能实现实时语音分析、说话人分析等功能。

高识别率和识别效率

基于最先进的深度学习算法模型,系统可在确保高准确率的实时识别情况下,保持高识别效率,大大降低系统成本。

语音合成技术

强大的语言分析技术

基于自然语言理解的强大语言分析技术,实现自动的文本规范化、分词、词性标注、语义消歧、发音标注等,消除自然语言的不确定性,为合成自然流畅的语音提供保障。

高效的音色学习方法

独创的高效音色学习算法技术,在音色训练的过程中实现不同规模语料、高相似度音色的模型训练。

高自然度的韵律模型

独创的高自然度的韵律模型,让合成声音更加自然、流畅,贴近专业水平自然人发音,使智能对话形式的人机交互变成可能。

自然语言理解

概念体系合理构建

有效解决自然语言口语中的省略、指代、歧义等问题,使得机器能够准确理解自然语言。

对话语境模型建立

有针对性地建模对话过程,提高了人机对话的效率,并让机器与人更加自然流畅的实现多轮交互。

基于认知的对话管理

基于概念体系理解用户语音,并结合语境推理,从而达到对用户意图的理解,进而规划行为,使对话过程更加流畅。

视觉感知

依靠核心团队在视觉感知方向的长期研究和持续创新,紧跟当前深度学习研究前沿,将最新技术和方法应用于视觉感知系统的研发,多学科深度融合,提供整体的视觉智能解决方案。

人脸识别与分析引擎
OCR引擎
车辆检测引擎
人体检测与行为识别引擎
图像分类引擎
机器人视觉导航引擎

智能音乐

以灵伴科技在语音识别、语音合成、自然语言理解等领域多年积累的丰富经验与核心技术为依托,利用机器学习方法从节奏、旋律、和声、曲式、歌词与情绪等维度深度理解音乐,实现多种风格的自动作曲与编曲。

节奏
旋律
和声
曲式
歌词
情绪

机器人智能作曲

点播放按钮可试听