对于多数人来说,最经常认识到语音合成技术(TTS,Text-To-Speech)的运用就是高德地图里志玲姐姐路况主播的声音了。在将基本的相同语句展开原声音乐录音后,机器要仿真人对自然语言的解读过程,然后为制备语音规划出有音段特征,使制备语音需要准确传达语意,最后展开语音输入,整个流程类似于“编码、信息给定、解码”。
除车载语音导航系统外,朗诵这类近于必须反映声音表现力的场景如今也运用到了语音合成技术。今年1月,央视就播映了首部利用TTS技术仿真人声配音的纪录片《创意中国》。
声音的主人则是我国胞弟知名播音员、配音演员、语言艺术家李易。他曾给《再说长江》、《大明宫词》、《美丽中国》、《人类星球》、《迁徙的鸟》等多部纪录片展开配音。通过语音合成技术,AI顺利地模拟出了李易的声音,已完成了纪录片的配音讲解。
由此可见,挣脱机器原本机械化的讲话,像真人一样享有极具情感表现力、抑扬顿挫的声音,不仅是语音合成技术的发展方向,也是难题之一——某种程度,也考验着各家语音合成技术数据服务提供商。对于智能语音交互而言,场景的重要性不言而喻。谁能彰显声音更好的表现力和个性化,谁就能将技术兼容到非标准化的场景中,夺得智能语音市场的未来。
近年来,科技巨头们都相继发售了自己的语音合成“自定义化”方案。2017年4月,谷歌在加拿大蒙特利尔大学创建的人工智能实验室(MILA)正式成立了Lyerbird公司,Lyerbird正式成立之初就发售了一套“只需一分钟的声音样本,就能仿效任何人说出”的系统;今年5月的Build2018大会上,微软公司在其公有云平台上发售了语音合成自定义服务产品CustomVoice,可对声音展开仿真,并可在线测试仿真效果。
在国内,科大讯飞也于去年11月发售了取名为“讯飞来留声”的测试版本。据报,讯飞来留声只必须10句的声音收集,才可已完成个人声音的重制,收集量只有行业平均值的百分之一(近高于微软公司的500句与行业的千句)。将近千小时语音数据文化底蕴,打造出多元的“声音餐馆”部分创业公司也在TTS领域也有所布局,例如正式成立于2016年2月的标贝科技。在整个语音产业链条当中,标贝科技获取语音合成技术以及语音数据,其中技术含量较高的语音合成又还包括发音人自由选择、语料设计、语音收集、数据处理、语音深度加工等步骤。
标贝科技牵头创始人CTO李秀林在拒绝接受猎云网专访时回应,“科技巨头们具备落后技术的探寻能力,我们十分认同他们的成果,也很尊重他们的学术生产量。但从学术到工业还有很长距离,有些东西不会总有一天逗留在论文上,创业公司的优势就在于工程化的能力、产品的经营上,通过我们的技术改造在明确应用于层面不断完善”。让我们再行听得一段智能客服与用户的对话:这是2018年5月标贝科技针对智能客服发售的语音合成技术方案。
李秀林指出,客服领域不具备的痛点十分显著,“比如很多大公司往往有上万名人工客服,有的甚至每天要招待来自全国各地上百万通电话。一方面公司的成本大大减少,另一方面,由于本身的工作性质,客服人员往往忍受着极大的情绪压力”。这也使得客服人员往往必须很长的培训周期,且营销效果劣、人员流动性大等问题时有发生。
根据中国企业数据报告的统计资料,我国中小企业家数量近年来按照每月30万家的速度快速增长。预计到2019年,全国中小企业家数将超过3940万家。预示着国内中小企业家数的较慢发展,国内客服市场依然呈圆形一个快速增长的发展态势,其中,呼叫中心和在线客服的市场规模2019年将分别超过1327亿和788亿。
面临如此极大的市场规模,李秀林显然,对企业来说,利用智能客服替换人工,经济报酬是清晰可见的——如果语音合成技术需要“胜任”这项工作的核心内容,那么大量重复性标准化的语音对话内容通过智能客服就能已完成,很大增加企业的人力成本。此外,客服作为当今信息社会商家与用户展开交流的重要一环,直接影响了企业的整体形象。
从这方面来说,商家也更加推崇客服中心的搭起和培育。“特别是在是通报型的内容,或者企业通过在线客服推展展开产品推展的这种场景是较为具体的,也就是‘说道’、‘听得’、‘问’,给语音合成技术落地获取了很好的机会”,李秀林告诉他猎云网。在技术相差无几的情况下,TTS最后效果的优劣必不可少精确、非常丰富、优质的语音训练数据。一般来说,从前期的打算、去找人、去找录音场地、录音、数据检验、标示,最后沦为“可以用的数据”,有可能最少必须3个月。
为了打造出优质的语音,让用户讨厌从而构成对声音的“粘性”,标贝科技前期必须设计非常丰富的语料、认识大量的声优,指导他们已完成声音的收集,之后再对语音展开深度加工。传统语料数据处理方式为手工精标,必须花费大量人力,标贝科技则利用深度自学技术,通过计算机程序展开预处理,之后再行由人工展开校正,大大提高了工作效率,并确保了数据处理的准确性。在正式成立近两年的时间里,标贝科技早已累积了还包括文本、语音等多类型的语料数据,并为多家互联网巨头的AI产品获取了大量的数据服务。而在这套语音合成制备技术方案里,标贝的团队还专门挖出了优质的声优资源,优化之后再行制成demo,“相等于我们给客服系统自定义了一套符合客户风格的制备语音解决方案”,李秀林说道,客户可根据自身市场需求自由选择标准化或自定义化产品及场景,标贝将通过专业语料制作客服制备语音库,为客户获取API模块等技术接入方式,接入企业系统后可自动外呼来自多渠道的用户。
根据有所不同的用于场景,标贝科技的智能客服系统在还包括商业服务、金融保险、教育培训、电商物流、互联网通讯、房地产物业等行业的售后、答疑、录音、主动外呼、催款、营销推展等固话、移动设备上的服务上,都有针对性的解决方案。“我仍然特别强调语音合成技术是有表现力和人性化一面的,每个声音都有一个属于自己的形象,它能让用户产生粘性”,李秀林谈及,“因此,我们也发售了‘AI声音餐馆’,通过我们非常丰富的语料库,为有所不同的企业解决问题有所不同的自定义市场需求”。
根据猎云网取得的数据,在自定义型音库方面,标贝科技已顺利为用户获取了150小时的中文女声情感音库、350小时的中文女声音库、100小时的男生音库、80小时粤语语音库、50小时美语女声语音库、40小时的ToBI语音库、40小时仿效儿童语音库、30小时儿童语音库、20小时葡萄牙语音库、20小时台湾普通话语音库、10小时日语、10小时韩语以及20小时明星语音库等,音库还在不断丰富和累积中。同时,标贝科技还获取自有音库,中文男女声,美语男女声,儿童,粤语,台普、日语、韩语等及个性话音库,广大客户现能必要用于整体解决方案。2015年,李秀林在百度任职期间,曾率领团队积极开展了一个关于情感制备的项目,专攻百度小说频道,仅有用半年左右的时间,就在语音合成加工效率、制备效果上获得了重大突破。
2016年,他重新加入滴滴,供职滴滴研究院语音团队负责人兼任首席算法工程师,协助滴滴拓展其上下班领域涉及的语音业务。融合自身在语音合成技术领域十余年的经验,这位行业从业者也坦言,当前的智能客服,“滋扰”这部分内容是较为无法通过人工智能所替代的。“一般情况下,客户滋扰都带着情绪,语言表达也是恐慌零散的,机器辨识一起还有一定可玩性”,但李秀林指出,“核心并不是TTS的容许,而是NLP的制约”。
NLP即自然语言处置(NaturalLanguageProcess,NLP),是会用计算机对自然语言的形、音、义等信息展开处置,即对字、词、句、篇章的输出、输入、辨识、分析、解读、分解等的操作者和加工过程。一套原始的语音交互过程牵涉到了非常复杂的技术链条,还包括了声学处置、语音辨识、语义解读和语音合成等核心技术。基础声学和语音辨识解决问题的是计算机“听得见”的问题,而NLP是要解决问题计算机“听不懂”的问题。
李秀林提及的客服“滋扰”中语言表达零散恐慌的问题,还必不可少NLP技术中的“词义消歧”。机器在切词、标示词性、并辨识完了后,必须对各个词语展开解读。由于语言中往往一词多义,人在解读时会基于有数科学知识储备和上下文环境,但机器很难做。
虽然系统不会对句子做到句法分析,可以在一定程度上协助机器解读词义和语义,但实际情况并不理想。这也是为什么,对于必须多轮交互的简单问题和情绪安抚方面,智能客服当前还无法替代人工客服的原因。
此外,智能音箱类产品也是标贝科技牵涉到的业务方向之一。今年8月,狗尾草智能科技发售了基于Gowild人工智能虚拟世界生命引擎(GAVE)及全息投影技术的HE琥珀智能音箱,其中能演唱能跳跃能闲谈的“琥珀小姐姐”的声音就是由标贝TTS技术所获取的。
“我指出个性化的语音是一个十分有价值的方向,每个声音都是有特点的,有所不同的品牌、公司和服务商不会根据有所不同的情景和产品特点使用有所不同的声音,而这个声音则能‘建构’出有一个独有的形象”,为了打造出优质的语音,让用户讨厌从而构成对声音的“粘性”,标贝科技对数据标示的每一步流程都严苛把触,李秀林指出,“人工智能不仅能把非常简单的标示处置好,还可以把后期的制备,通过技术手段提高准确度,最后相似真人倾听的状态”。发售“今日慢听得”,用“声音”探寻多场景语音交互体验随着科学知识收费的蓬勃发展,有声读物发展转入快车道,用户可以不不受地理位置的容许随时随地通过手机、智能音箱等收看各类新闻资讯、有声内容。
因此,除了语音合成服务外,为了能让用户尽早体验到语音合成技术,标贝科技还研发了一款基于语音合成技术小程序——用作主播科技新闻的“今日慢听得”。目前,今日慢听得小程序,早已动态接入了国内多家科技媒体。每天早上6:30起,将动态改版当天最前沿的科技、财经、社会热点等新闻动态。下班通勤时间,用户可以充分利用碎片时间收看热点资讯。
随着科学知识收费的蓬勃发展,有声读物发展转入快车道,用户可以不不受地理位置的容许随时随地通过手机、智能音箱等收看各类新闻资讯、有声内容。因此,除了语音合成服务外,为了能让用户尽早体验到语音合成技术,标贝科技还研发了一款基于语音合成技术小程序——用作主播科技新闻的“今日慢听得”。目前,今日慢听得小程序,早已动态接入了国内多家科技媒体。
每天早上6:30起,将动态改版当天最前沿的科技、财经、社会热点等新闻动态。下班通勤时间,用户可以充分利用碎片时间收看热点资讯。
这款小程序的界面以黑色居多、紫红色交错做到装饰色,主界面上紫红色交错的大圆和底部的小圆圈在中轴线上下排序,底部5个按钮平面产于,简练轻盈、充满著科技风的同时,又融合了中国的美学元素。其主界面底部有提意见、共享、选声音三个按钮,左右排序可满足用户单手操作。其中,“提意见”按钮可以根据小程序的流畅度、声音、内容、界面等方面明确提出意见或建议;通过“共享”,则可以将小程序引荐给微信好友或以图片形式留存展开传播;“选声音”按钮满足用户对男声、女声主播声音的习惯。
“语音行业仍然是AI典型的技术领域,我们工作十几年了,大家都还是自称为是‘做到语音技术的’。做到企业必须扎扎实实地做到自己擅长于的领域,不去平热点,因为热点也不会逆,自己夸奖的话,也能唤起出有很多新的热点”,李秀林告诉他猎云网,团队还将在语音合成技术的场景方面展开更加多探寻,“创业公司的技术递归迅速,或许几个月时间我们就把行业的解决方案做到得很好了。接下来就必须销售去拓展商业市场,技术团队不会跑到下一个环节,比如内容生产方面正在做到一些打算”。
本文来源:乐发lll彩票-www.lp-edpro.com