按出版年份查看杂志:

面向电力行业的语音语料库设计与构建

浏览: 作者: 字体编码: 繁體

摘 要:为增强语音识别技术在不同行业的应用,需要针对不同行业建设相应的语料库。目前,中文语料库构建尚处于起始阶段,以THCHS-30语料库为代表的大众新闻语料初步投入应用。本文面向电力行业设计、构建电力行业语音语料,提出电力行业语料库设计规范并建立电力行业初级语料库,填补电力行业中文语料库的空白。本文分别实现语料音频录制和文本语料构成规范分析,完成包括发音、录制及存储等的录制和包括语料及词典的编制规范。采用音频标注技术,完成长音频切分以及短语料标注,实现文字和音素的两层级标注,建立电力音频标注规范。最后对语料库进行准确度测试,语料标注平均准确率为99.75%,满足语料库应用需求。
 
关键词:电力行业;语料库;语音标注;词库
 
中图分类号:TP391.1 文献标识码:A 文章编号:1671-2064(2018)16-0148-03
 
1 概述
 
随着人工智能(AI, Artificial Intelligence)技术[1]的推广和深入,以带电作业机器人、AI控制器为代表的一批智能产品已率先进入电力行业,并发挥了极大的效用。因此,将人工智能技术与电力、能源等行业相结合,促进传统行业的转型升级,是研究人员重点关注的领域之一。语音作为人类最自然、最有效地交流方式,使得语音识别技术成为当下热门研究方向。目前,电力行业语音识别应用主要集中在移动作业、语音报警和智能调度等[2]短语音指令交互控制的基础应用层面,鲜少研究具有电力行业特性的大规模商用级语音识别服务。
 
运用大规模语料训練DNN、CNN语音识别模型是现阶段实现较高语音识别率的有效方法之一,那么构建足够大的语音语料库就至关重要。目前,开源的语音语料库大多是大众新闻[3]等语料为主。但该类语料库几乎不涉及电力系统相关音频和专业词汇,对电力系统的适用性较差,有较大的专业隔阂,语音识别率较低。因此本文研究分析中文语料库构建现状和电力行业语料特点,提出面向电力行业的语音语料库设计方案,构建包含17小时的电力行业音频语料库,为电力系统音频语料的研究提供数据支持。
 
2 中文语料库构建分析
 
如今语音识别技术已经广泛应用于各行各业,车载语音、语音助手等产品也已较为成熟。但是,绝大部分研究机构尚不具备大规模商用级中文语料库,这就制约了语音识别技术的深入研究和推广。目前,中文语料库构建尚处于起始阶段:2016年清华大学语音与语言研究中心开源了THCHS-30语料库[4],该语料库由40人完成录制,时长约30小时;2017年北京希尔贝壳科技有限公司开源了AISHELL -ASR0009-OS1语料库[5],该语料库录制时长178小时,由400名来自中国不同口音区域的发言人参与录制。
 
随着智能家居等系列语音产品的上线,其对应领域语料库也随之更新。清华大学的THCHS-30语料库由大众新闻语料构成。与THCHS-30语料库相比,北京希尔贝壳科技有限公司的AISHELL-ASR0009-OS1语料库行业覆盖虽然更为广泛,由50万条常用语料构成,但是涉及领域也以智能家居、无人驾驶、工业生产等语音识别产品覆盖领域为主。
因此,现有中文语料库开源资源较为有限,数据量较少。且语料库文本大多集中在新闻类语料、经济、科技等常见语料,对特定专业领域语料覆盖较少或基本无覆盖。因此,构建适用于某一特定行业的专用语料库,对丰富现有中文语料库具有重要意义。本文面向电力行业,综合考虑电力行业语料特点,设计、构建电力行业专用语料库,实现科技进步与传统行业的有效结合,对促进电力行业语音识别等技术的推广具有重要的意义。
 
3 语料库构建
 
现有开源中文语料库基本不包括电力行业通用语料,并且电力行业语料库研究大多集中在电力客服情感分析以及电力英文语料的构建上[6]。本文提出一套电力行业语料库设计规范,构建17小时面向电力行业语音识别的语音语料库,填补了电力行业语料库的空白。分别从音频语料录制、文本语料设计及音频标注阐述语料库设计规范。
 
3.1 音频语料录制
 
3.1.1 录音规范
 
面向电力行业的语音语料库由17小时多通道中文普通话音频语料构成。由12名来自不同口音区域发音人录制。其中,男性发音人有7人,女性发音人5人。
 
录制过程中保持安静的室内环境,采用高保真麦克风(44.1kHz,16bit)采集音频。语音语料库设定音频频率为16kHz,16bit wav格式录音,满足音频识别应用主流设置。发音人和麦克风距离保持在30cm左右,保证语音采集清晰、不失真。
 
3.1.2 数据集
 
语料库数据集有训练集、开发集和测试集构成。训练集由8人录制10511条电力行业语料构成,录制时长约为13.5小时。开发集由2人录制1459条语料构成,录制时长约为2小时。测试集由2人录制1030条语料构成,测试音频语料约为1.5小时。语料库数据结构如表1所示。
 
3.2 文本语料设计
 
3.2.1 语料规范
 
面向电力行业的语料库文本覆盖电力发电、电网输配电及电能消耗等电力生产、应用具体环节,由1.3万条电力行业各个环节常用语料构成,文本语料信息如表2所示。本语料库对电力行业中涉及数字、单位、特殊符号等进行了处理,均以汉字进行描述,如“1KV”的汉字表述为“一千伏”。
 
3.2.2 专用词库构建
 
本文在实现构建电力行业的语料库基础上,完成对电力行业语料的自然语言处理实现语料分词,生成电力行业专用词典[7]。该词典由1.3万条语料分析提取而成,电力词汇覆盖发电、输电、配电和用电等电力系统主要应用场景。
 
本文首先采用自然语言处理技术实现对1电力语料的分词处理,得到常用电力词汇约1.2万个,基本覆盖电力行业日常用词。为保证电力行业专用词典的通用性、增强对通用音频词汇的匹配度,本文对电力行业专用词库新增13万个通用领域常用词,提高词库适用性。同时,本文采用音素标注技术,完成词语发音音素的标注处理。通过音素标注实现对音频信号、音素和文字词汇的准确匹配,为语音识别训练和解码[8]提供基础数据。
 
3.3 语料库标注
 
语音标注是语料库构建的重要环节。为了有效避免发音人机械式表达,保证电力系统采集音频表达连续性和发音人状态自然有效,本语料库采取对长文本统一录音,再按语义结构进行切分、标注的方法,保证录制语料流畅、自然。
 
本文采用中文拼音和音素[9]相结合的方式,运用开源软件Praat实现多层级音频有效标注。最大程度反应发音人讲话状态,保留语气词、叹气、咳声等多种录音信息。
对发音人录制的长达半小时或一小时以上的长音频首先运用Praat工具[10],按语义进行语句切分。设置语音标注TextGrid为一层,即标注出每条音频对应文字内容。然后,通过编写超长音频切分脚本,对标注音频进行批处理切分。最终得到以语句为单位,长度约为3s~10s的标准wav音频。超长音频标注结果如图1所示。
 
4 测试结果
 
为保证语料库的正确性,本文随机抽取1000条测试語料,对语音切分及标注的准确性进行测试。对测试语料原文利用自然语言处理技术进行分词处理,以词语为单位计算语音标注的准确度。通过测试得出电力行业语料库准确率约为99.75%,满足语料库应用需求,如表3所示为部分测试结果。
 
5 结语
 
本文面向电力行业完成电力行业语音语料库的设计和构建,提出电力行业语音标注规范。通过对现有中文语料库的分析,分析构建电力行业语料库的必要性。在对电力行业语料特点进行分析后,介绍音频语料录制及文本语料录制和采集规则。从超长音频切分和短语料标注阐述语音标注实现方法。电力行业语料库的构建从一定程度上丰富了电力行业音频数据库,为电力行业语音识别的深入研究提供了真实数据。在研究过程中发现,本语料库与其他语料库相比,录制音频相对较少,下一步将继续丰富电力行业语料库数据。
 
参考文献
 
[1]郑南宁.人工智能面临的挑战[J].自动化学报,2016,(05):641-642.
 
[2]杨朴,游大海.电力系统中的语音应用技术研究[J].计算机仿真,2004,21(03):91-93.
 
[3]蒋泰,张林军.语音识别自适应算法在智能家居中的应用[J].计算机系统应用,2017,26(03):150-155.
© 2021 《中国科技纵横》杂志社 版权所有    京ICP备2020016010号-1      网站技术支持:网易科技有限公司