System and method for efficient storage of voice recognition models
2019-11-26

System and method for efficient storage of voice recognition models

组件、任意常规可编程软件模块和处理器来实现或执行、或者它们的任意组合,用

VR领域内的单音是音素的实现。在VR系统中,独立于上下文的单音模型和依赖于上下文的单音模型用本领域熟知的其它类型的VR模型来构造。音素是给定语言的最小功能性语言片段的抽象。这里,单词"功能性"意指感知到的不同声音。例如,用"b"音代替"cat"内的"k"音在英语中会产生不同的单词。因此,"b"和"k"在英语中是两个不同的音素。

在有小存储资源的装置中,N为l或某些其它的小数字。在最小的轨迹VR系统中,即,最小的存储器VR系统,单个高斯混合分量表示一个状态。在较大的VR系统中,多个N个帧用以计算多于一个均值向量和相应的方差向量。例如,如果一组十二个均值和方差被计算,则建立12—高斯混合分量的H應状态。在分布式语音识别(DVR)系统内的VR服务器中,N可以高达32。

使用G.711p—律压扩的实施例具有两个函数,称为用以压縮畎声幅度的ulaW_Compress以及用以扩展滤波输出以产生吠声幅度的mulaw—expand。在一个实施例中,)a—对数压縮模块20用下列公式实现压缩:

图4示出具有p律压扩方案而非对数压缩的前端;

上述优选实施例的描述使本领域的技术人员能制造或使用本发明。这些实施例的各种修改对于本领域的技术人员来说是显而易见的,这里定义的一般原理可以被应用于其它实施例中而不使用创造能力。因此,本发明并不限于这里示出的实施例,而要符合与这里揭示的原理和新颖特征一致的最宽泛的范围。

图6示出LoglO()函数和p对数函数的定点实现的曲线图,其中C二50;

Description

所述实施例针对用于改进模板在语音识别系统内的存储的系统和方法。一方面,语音识别的系统和方法包括:记录多个发声、提取这多个发声的特征以产生多个被提取的发声特性、从多个被提取的发声特性中创建多个VR模型、以及有损压缩这多个VR模型以产生多个经有损压縮的VR模型。一方面,使用了A-律压缩和扩展。另一方面,使用了)u-律压缩和扩展。一方面,VR模型是隐型马尔可夫模型(HMM)。另一方面,VR模型是动态时间回巻(DTW)模型。