当前位置首页 > 百科> 正文

语音云

2019-06-23 06:54:30 百科

语音云

语音云,顾名思义,是採用云计算的方式来执行语音操作。

基本介绍

  • 中文名:语音云

定义

语音云,顾名思义,是採用云计算的方式来执行语音操作。
在传统通信计算模式下,语音的处理方式多是通过单个通信终端完成,例如我们熟悉的手机等通信终端;在云计算技术背景下,语音的格式转换、辨别等操作完全在“云”端执行。

优势

语音云的优势很大。速度快,準确度很高。
在服务方式上,现在市面上的语音云都能够提供简单易用的api或sdk,使得套用产品能够通过API直接调用公有云服务,计算和存储的压力都放在云端进行。降低了套用产品开发的成本,这样,具体套用开发者就能够更多的专注于业务需求的开发,而不是纠结于语音识别的方法和準确率上。
使用语音识别,门槛已经不再高不可攀。科大讯飞、云知声这两家企业,都对开发者免费开放了语音云,通过简单集成语音云控制项SDK,就可以使用科大讯飞和云知声的语音云服务。
从易用性上来讲,商业公司的积极参与,为语音服务的普及化套用提供了良好的基础。

带来的好处

语音云给用户带来的好处是更方便藉助云计算手段,实现快速的语音套用。比如语音简讯之类套用。
对于连续语音识别,语音云支持大辞彙量连续语音线上识别,客户端套用可以通过API直接调用公有云服务。在云计算平台下,科大讯飞、百度、云知声的语音识别中文连续语音识别的準确率能够达90%以上,达到世界领先水平。

其他语音

讯飞语音

开放介绍
近年来国内外IT巨头纷纷投入巨资加大对智慧型语音技术市场的争夺,科大讯飞作为亚太地区最大的语音上市公司,拥有全球领先的中文智慧型语音技术,多年来一直致力于研发将语音技术套用到千家万户,MSP(iFLY Mobile Speech Platform)便在此背景下诞生。通过MSP,移动网际网路的终端用户可以随时随地的使用语音服务。语音技术带来品质生活,始终是MSP团队所坚持不懈的理念。
主要功能
iFLY Mobile Speech Platform(以下简称MSP)是一个套用于移动网际网路的语音服务平台,其主要目标是:
1)实现可面向移动2G/3G网路及网际网路提供语音服务的伺服器,在现有科大讯飞电信级语音服务平台ISP基础上为移动终端应用程式提供多路并发的语音合成、语音识别、语音听写功能,通过架设在网际网路的语音套用伺服器,用户可以随时随地获得高质量的语音服务;
2)实现基于移动终端以及桌面平台的语音套用客户端,提供统一的语音套用开发接口,通过该接口用户可以方便、快速地开发语音套用;同时,MSP也将开放一些基于移动以及桌面平台的语音套用,用于展示MSP语音服务平台的功能和使用方法,让用户直接体验到最新的语音技术;
MSP最终提供了架构于网际网路的语音云服务和一套移动网际网路语音解决方案、套用示例,把语音服务的套用範围拓宽到移动网际网路领域,为语音服务产品走向移动网际网路市场开闢全新的套用模式。
MSP平台整合了科大讯飞研究院、中国科技大学讯飞语音实验室以及清华大学讯飞语音实验室在语音识别、语音合成等技术上多年的技术成果,语音核心技术上达到了国际领先水平。
MSP系统採用分散式架构,继承了科大讯飞成熟的电信级语音平台高稳定的特点,可以满足电信级套用的高可靠性、高可用性要求。针对传统语音套用集成开发困难,业务设计繁琐的问题,MSP产品大大简化了集成开发和业务开发的複杂度,为系统集成人员和业务开发人员提供了便捷、高效的开发环境。
MSP作为一个向网际网路和移动网际网路开放的语音引擎,提供了功能完善、简单易用的集成开发接口,以便开发人员能够将其与应用程式进行集成,实现具有完整语音能力的套用。MSP提供的主要开发接口从提供功能考虑可以分为语音识别(包含语音听写)、语音合成开发
接口和语音检测开发接口:
1)语音识别开发接口
语音识别接口(QISR)是套用开发者使用识别引擎和语音听写引擎进行语音套用开发所必需使用的接口,该接口接受用户输入的语音,把语音识别结果返回给应用程式。
2)语音合成开发接口
语音合成接口(QTTS)可以让套用开发者在应用程式中集成讯飞语音合成引擎的功能,该接口接受应用程式传入的文本内容,返回符合套用要求格式的音频数据。
3)语音检测开发接口
语音检测(VAD)是语音识别一个重要的输入环节,用于判断用户语音何时开始、何时结束,该接口集成在MSC客户端内部,通过QISR接口的参数来返回语音状态。
移动网际网路应用程式需要使用在成千上万各式各样的用户终端之上,用户终端类型从非智慧型终端到智慧型终端、从手机到智慧型玩具、从PC到网际网路电视,套用作业系统环境形形色色、品类众多。为了满足各类客户端作业系统环境上都能够使用讯飞语音云提供的语音功能,MSC为多种终端环境提供了语音开发接口,主要包含Android、iOS、Windows Phone、Windows、Linux、Java、Flash等。
基于讯飞语音云,第三方开发者可以通过集成SDK,轻鬆实现产品的语音能力,基于讯飞语音云诞生了一批有代表性的产品。
讯飞输入法
全球首创“蜂巢”输入模型,独家支持拼音、手写、语音“云+端”立体输入引擎。讯飞输入法,创造极致输入体验!
灵犀语音助手
由科大讯飞和中国移动共同打造的贴心生活小秘书,基于科大讯飞语音云、语义云,能够完美支持国语及部分方言,更能深入理解用户的对话,智慧型的提供相应的服务。灵犀语音助手集打电话、发简讯、设定提醒、音乐查找与播放、打开套用、餐饮美食、火车航班、查询天气、查询股票、查询酒店、查询话费流量等众多生活领域。
讯飞语音+
面向终端用户与开发者提供不同的功能。
终端用户提供的微信输入助手,通过语音在微信中直接快速输入文字,让你成为输入达人不再是梦!
面向开发者提供语音合成、语音识别、语音唤醒等能力,轻鬆集成,就能让你的套用实现能听会说。

云知声语音

开放介绍
云知声语音云支持大辞彙量连续语音线上识别,支持套用通过API直接调用公有云服务。在云计算平台下,藉助区分度训练、自适应训练、大规模网路动态解码等技术和大规模语料支持,中文连续语音识别的準确率达90%以上,达到世界领先水平。
目前云知声提供公有语音云平台[15]以及私有语音云平台。
微信语音输入外挂程式
云知声面向微信用户推出微信语音输入外挂程式,通过语音在微信中直接快速输入文字;聊天利器,每分钟输入100字,让好友目瞪口呆。
云知声输入法
云知声输入法!语音识别快又準,输入动口不动手!从此,用语音轻鬆输入文字,你有了更理想的选择!
语控精灵
联繫人太多?简讯输入太麻烦?走路、开车、坐车时手机不好操控?使用语控精灵吧!无需连线网路,通过语音即可操作手机功能,打电话给朋友,发简讯给朋友,打开套用,开关手机功能。打电话、发简讯、开套用随你语控;让手机随时随地听懂你。
云知声语音助手
云知声语音助手,是云知声旗下的一款中文语音助手软体,採用了云知声自主研发的语音识别云、语义云,能够完美支持国语及部分方言,能够理解用户的对话,智慧型的提供相应的服务,以及极具趣味的对话;云知声语音助手,是以用户需求为核心,在日常生活、电话简讯、发布微博、搜寻备忘、套用管理、手机设定、趣味聊天等等各个领域不断探索,竭力为用户带来更方便快捷、更具趣味的产品体验,旨在为广大用户创造一个全新的语音时代。

百度语音

开放介绍
百度凭藉在语音核心技术上的长期积累,为广大开发者提供了业界领先的语音技术服务,百度语音技术在之前已经套用在众多的自家产品上,10月25日百度正式宣布对外开放语音技术,通过百度语音技术服务,开发者可以轻易获取强大的语音技术能力,抛开繁複的技术细节,专注于业务逻辑的最佳化,快速构建各种语音互动套用,开发者可以在百度开发者中心上申请开发自己的语音产品。
永久免费与深度定製
2013年8月22日百度世界大会上,百度宣布语音识别技术及能力全面开放。在百度的引领下,围绕语音识别的全新体系和大数据生态正式开始在移动网际网路领域发光发热。时隔两个月,百度语音识别SDK正式发布,这一点是对套用开发者是最具诱惑力的。它可以向开发者提供长文本语音输入,语音搜寻词识别,垂直领域识别等多方面的语音识别服务。另外,语音识别SDK还支持“即说即得”的技术,在用户输入语音的同时就返回给用户连续的中间结果,提升用户体验。而最为吸引人的是,相较于其他同类语音识别技术以授权费方式获取收入的方式,百度将面向开发者无条件免费开放整个语音生态系统,同时支持针对不同套用所进行的深度定製。
据了解,此次百度语音识别SDK刚刚开始发放,便已与多家手机套用进行了合作,包括彩虹公交等。通过“永久免费”与“深度定製”的合作理念已获得了开发者的一致好评。而后续,百度还将会继续开放语义理解和TTS(语音合成)等多项面对套用开发者的服务,包括支持用户定製化语音识别,帮助开发者定製自己的语音套用。
百度语音开放平台将会用户提供更多便利,让用户解放双手,真正实现完全的语音操控.也会让更多移动开发者享受技术进步带来的红利,踏上幸福创业的道路.
各界巨头与百度语音深度合作
福特汽车如是说:
首先,福特汽车不仅仅是一家汽车公司, 也是一家科技公司, 致力于为消费者打造即有趣又安全的驾驶体验。调查显示,移动出行成为人们越来越重要的生活与工作方式,对于在出行路途上的移动通信,智慧型办公的需求也越来越多样化。福特针对这样的需求,开发了支持MyFord Touch功能的SYNC车载多媒体通讯娱乐系统,该套智慧型互联繫统让驾驶者仅需通过语音指令就能轻鬆控制车内影音娱乐及温度调节等功能,在此基础上,我们又面向中国市场推出了SYNC® AppLink™的功能,实现智慧型手机应用程式与搭载AppLink的车辆之间更好的互联。这样,通过AppLink,车主可以把他们的智慧型手机连线到车内,使用福特SYNC语音指令连线系统,在他们的驾驶座上控制智慧型手机上的应用程式。
我们此次和百度的合作目标就是通过百度的强大语音套用能力让用户在驾车过程中,与外界实现无缝连线,同时又保持目不离路,手不离方向盘。如果这块能做好,未来就有很多可想像的空间。比如我开车要去另一个城市,那幺这个城市现在的天气状况如何呢,通过和百度的合作,我们就可以做到用语音直接查询,而不是之前的听广播或者停车打开天气类app去查,类似这种场景还有很多,这也需要两个行业之间不断的碰撞和创新。
中兴手机如是说:
作为全球做大的手机终端厂商之一,中兴一直以来都以为用户打造完美体验为最终目标,而我们这次是要打造的产品专为开车用户打造,该产品的最终目的是希望人们在车载环境中实现手机操作的handfree,接打电话、收发简讯、查地图、导航这些在车载环境中经常被使用的手机功能全部通过语音操控来实现。
我们对合作方有两个要求,一是语音技术要过硬,二是要有相应的资源尤其是地图和导航,如果语音和资源的提供方属于两家公司的话这个产品几乎是无法完成的,而百度是所有网际网路公司中唯一符合要求的,经过我们的测试,百度的语音识别技术已经达到了一流水準,并且满足我们语音唤醒、离线识别等各种要求,除了语音技术外,百度还可以提供导航资源,可以提供众多城市的离线下载包,直接将语音互动和导航进行结合。
康佳电视如是说:
智慧型电视是未来的潮流,未来将会成为家庭智慧型媒体中心,而康佳作为电视行业的一支劲旅也早早的觉察到了这一点,我们认为智慧型电视不仅仅是内容收看模式的变革,同时也是人机互动的一个革命,传统的遥控器已经远远不能满足智慧型电视用户的需求,而语音互动则成为智慧型电视最佳的互动方式,通过语音控制实现换台、各项功能设定、搜寻视频资源等都已经开始成为智慧型电视的标配,我们甚至可以根据语音来判断用户的属性然后提供不同的内容给用户。同时,作为家庭智慧型媒体中心,电视也不会仅仅用来看,还可以用来玩游戏、购物、查资讯,所有的网际网路行为几乎都可以在电视上实现。
百度的语音识别技术这个不用多说,更重要的是百度拥有的网路资源,例如用户在电视上看到一款车非常漂亮想知道这辆车多少钱,一般情况下用户会用电脑或者手机去搜寻,而和百度合作后可以直接使用语音查询,百度就会给出令用户满意的结果。
百度语音的基本服务架构
语音云
功能特点描述
支持Android和iOS平台SDK
Android支持2.2及以上版本, iOS支持iOS 5.0及以上版本。
针对场景深度最佳化
支持适用于搜寻及指令场景的短文本识别和适用于简讯、微博等输入的长文本识别模式。
针对领域最佳化,使垂直类套用有更好的识别效果
基于百度海量的数据资源,提供针对音乐、视频、套用、网站搜寻及地图POI的识别最佳化。
特定场景的语义解析
支持提醒、电话、套用、日曆、通讯录、航班、酒店、简讯、音乐、手机设定、社交网路、火车、旅游、天气、网址、地图、通用指令等19个场景。
自动端点断点检测和数据传输,极致最佳化流量消耗
智慧型VAD检测技术,分析用户说话的起点、尾点同时计算出声音强度, 只传输有效数据,节约流量。
丰富可配置的UI组件
提供语音识别UI组件,自动音量反馈,并提供支持亮蓝、暗橙、亮红等八种主题,让开发者最低成本集成。
提供底层API,更加灵活强大提供底层识别API,使用方式更加灵活强大
开放原始API接口, 开发者可以灵活构建语音识别使用场景,不干扰当前互动流程。开放底层API接口,开发者可以灵活实现各种语音识别互动方式。弹窗或对话式,一切由你而定。
详尽的服务统计及API使用管理
服务控制台支持详细的服务统计查询及服务使用频次管理,方便开发者掌握服务使用情况及变化趋势。
核心技术特色
用户个性化的声音建模技术和海量数据的区分度训练技术
- 区分度的GMM模型训练LDA, MPE, SAT, FMLLR, FMPE等
- 上万小时的声学模型训练数据,覆盖主要汉语国语使用人群
海量语言模型的高速训练和自适应更新技术
- 支持T级语料的统计语言模型的高速训练和更新
- 支持简讯,微博,地图,音乐,旅游,视频,APP等垂直领域的综合建模
支持複杂汉语语义空间的一遍解码技术
- 支持百亿文法的语言模型的一遍解码
- 支持包含语义信息的语法模型和普通统计语言模型混合解码
- 能够支持数百万量级词典的複杂语义空间建模
- 精度和速度统一的解码算法
深度神经网路声学建模技术
- 支持海量数据的深度神经网路并行训练
- 支持个性化的深度神经网路建模技术
深度语义理解
- 融合依存句法分析、信息抽取、短文本分类等自然语言处理技术以及多种机器学习算法
- 多领域的深度语义解析,领域无关的信息抽取、专名识别、语义归一化等浅层语义标注
- 基于海量网页、搜寻以及社区数据挖掘,具备智慧型纠错、推理等技术
声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:baisebaisebaise@yeah.net