智能语音识别系统

智能语音识别技术作为现代会议系统的发展新方向,赋予了会议产品更智能的人机交互体验。传统会议的发言交流通常仅通过瞬时的视频与声音进行传达,与会者的注意力需要时刻保持高度集中,尤其是在信息量较多的各种重要会议中,与会者难以同时做到一边听,一边记录,一边分析整理发言内容,需要对多语种发言进行现场翻译的会议更是难以高效进行。同时,用户会后的文件处理、会议纪要及特定用户的法定程序也要求必须以文字的形式呈现。

GONSIN公信智能语音识别系统可将每个座席的发言语音实时转写成对应的有序的文字内容;系统具备角色分离功能,确保转写后的文字与各座席的语音一一对应。

选用在线语音识别及翻译方案,可对不同语种(有指定的支持语种范围)的发言进行实时在线翻译,译文可设置为指定的语种。语音识别转写的文字及在线翻译生成的译文能实时同步显示在会场内的大屏显示系统和GONSIN公信无纸化会议系统屏幕上,同时系统将记录发言语音,自动生成会议纪要。

该系统适用于多种应用场景,实现包括会议纪要、实时演讲字幕、访谈录音转写、跨语种商务洽谈、法庭庭审实时记录等。



 


公信智能会议管理软件-语音识别模块 V7.1.0
基本功能
▣ 支持公有云、专有云语音服务器选择对接。可满足不同的服务器部署方式,灵活适用于多种应用场景
▣ 支持ASR服务器关机管理功能,支持ASR服务器、讨论系统连接、搜索,以及话筒角色自定义功能,并支持公信各系列讨论系统无缝对接,实现会议管理、角色分离、与自动识别
▣ 支持人员设备管理,包括设备搜索、显示单元号信息、IP地址信息、人员姓名设置;支持会议信息编辑,包括新建会议名称、定义会议时间、地点、及会议内容编辑等
▣ 支持对多个话筒角色同时识别,支持防串音功能,可以有效避免多个话筒同时识别时的相互串音;支持话筒状态提示,可实时显示话筒开启与关闭状态
▣ 支持语言模型学习功能。支持人名、地名等常用词导入,对语言模型进行学习
▣ 支持自动识别与会人员的角色,自动识别与会人员的语音并转写成文字。软件支持翻译成其他所需要的语音(软件功能根据引擎能力有所区别)
▣ 支持智能化语义理解,可自动理解与会人员的语义,并根据语义进行自动断句与分段。支持对连续数字阿拉伯格式自动转换,支持自动识别手机号码、身份证等连续数字转换成阿拉伯格式
▣ 支持会议文字编辑与矫正功能。对不同角色语音生成生成单独的录音文件,或合并各角色的文字记录及录音录音。语音与文字记录可同步回放并对照显示,实现文档校正
■ 支持会议记录输出功能。支持文字合并,生成会议纪要,并导出文本
■ 支持内容检索功能,支持文字内容搜索。可对关键字进行搜索,快速定位相应内容的位置,大大提高了内容检索的效率
▣ 支持文字分屏输出功能。转写文字实时显示在操作电脑主屏,支持扩展分屏输出,实时显示语音识别的文字内容。支持屏幕定制功能,屏幕分辨率自适应,支持文字字体、大小设置,提供优质的分屏文字显示服务
▣ 支持录音文件识别,通过录音文件导入,自动将录音文件内容转换成文字内容;支持mp3、wav等文件格式
▣ 支持选择音频输入设备,可以连接电脑的音频输入设备,实时音频输入转录文字
■ 支持电脑当前播放声音内容识别,并自动转换成文字
■ 支持更多自定义功能:软件支持中、英文切换,以及其他自定义语言;支持二次开发,可根据项目需求开放接口协议或定制开发



 

轻量级智能语音识别服务器
GX-AS201/GX-AS202/GX-AS205/GX-AS208

轻量级智能语识别服务器是针对中小型会议应用场景的智能语音识别计算产品,内置轻量级的智能语音识别引擎,具备转写 速度快、识别率高、易部署,稳定性强等特点。可满足需要语音转写和记录的会议场景,实现有效的会议留痕。同时服务器体积 小,系统对接简单,使用便捷,方便携带,可满足针对不同会议场所的快速设备切换和系统搭建,实现有效的设备共享。适用于固 定会场、临时会场及租赁性质的会议场景。

基本功能
内嵌ASR智能语音识别引擎
不同型号的语音识别服务器可实现不同数量的语音转写能力
GX-AS201:支持1路语音识别能力
GX-AS202:支持2路语音识别能力
GX-AS205:支持5路语音识别能力
GX-AS208:支持8路语音识别能力
业界领先的单遍大规模语言模型解码技术
标准引擎支持普通话及普通话体系的方言及口音识别
支持外语(需定制):英语、西班牙语、阿拉伯语、俄语、法语等
可定制金融、政法、医疗、教育等用行业识别引擎
配合GONSIN会议管理系统,可实现各参会角色的语音分离识别,满足同一场会议内多个话筒同时打开的语音识别需求
 

智能语音识别服务器 GX-AS301
内嵌ASR智能语音识别引擎V3.0以及语音转写模块授权V1.0



基本功能
安装ASR智能语音识别引擎V3.0软件
局域网内(会议中心/多会议室集群)多个会议室语音识别。
支持公信全系列讨论系统产品,同一时间最大支持50路语音转写(根据语音转写模块的授权数)
最大支持50路语音识别并发授权
业界领先的单遍大规模语言模型解码技术
标准引擎支持普通话及普通话体系的方言及口音识别
▣ 支持外语(需定制):英语、西班牙语、阿拉伯语、俄语、法语等
可定制金融、政法、医疗、教育等用行业识别引擎
高效率CTC模型,通过选配授权,最大支持50路语音并发识别
支持会议中心多会议室局域网集中部署,满足多会议室并行语音转写
配合GONSIN管理系统,可实现各角色分离识别
支持在会议中心集群部署或本地会议室部署


音频扩展器 DCS-AE04
基本功能
■ 支持设备级联,最大可级联至32通道 
■ 支持DA/AD两种工作模式,可根据不同的应用场景进行设置:
 ■ DA模式:可将数字音频转成模拟音频,实现系统扩展
 ■ AD模式:可将模拟音频转换成数字音频,实现数字传输



 

ASR智能语音识别引擎V3.1/ V3.2

▣ 采用业界领先的在线语音识别技术,通过云端部署,为本地语音提供语音识别服务。低延时,高识别准确率,准确率可达到99%以上
■ 引擎采用套餐付费模式,有效降低语音识别的投入成本和建设门槛。用户可以根据实际语音识别的时长需求,购买合适时长的套餐方案(请及时购买套餐服务,以确保引擎的正常使用)
▣ 支持角色分离识别:可根据不同角色选择不同的原语种和翻译语种,实现多语种同时识别,转写成为相应的文字,并翻译成翻译语种的文字信息
▣ 支持国际上多个主流语种,包含中文、英语、法语、俄语、阿拉伯语、西班牙语等,满足国际大多数语言使用需求
▣ 搭配公信智能语音识别字幕显示软件,可同时显示原文和翻译文字,或设置单独显示原文/译文,为跨语种商务洽谈、跨语种视频会议提供字幕服务

ASR智能语音识别引擎V3.0
■ 采用智能化语言识别模型技术,基于AI智能技术实现语音识别
▣ 标准引擎支持普通话语系识别,支持普通话及普通话体系的方言及口音识别
▣ 支持多种国外语言识别。支持定制英语、西班牙语、阿拉伯语、俄语、法语等国外语言识别
▣ 支持应用领域语系识别。支持教育、司法、医疗、会议演讲、新闻媒体、娱乐视频、智能家居、社交、汽车等应用领域及应用场景识别