Патент на изобретение №2233010

Published by on




РОССИЙСКАЯ ФЕДЕРАЦИЯ



ФЕДЕРАЛЬНАЯ СЛУЖБА
ПО ИНТЕЛЛЕКТУАЛЬНОЙ СОБСТВЕННОСТИ,
ПАТЕНТАМ И ТОВАРНЫМ ЗНАКАМ
(19) RU (11) 2233010 (13) C2
(51) МПК 7
G10L19/06
(12) ОПИСАНИЕ ИЗОБРЕТЕНИЯ К ПАТЕНТУ

Статус: по данным на 18.02.2011 – действует

(21), (22) Заявка: 96121146/09, 25.10.1996

(24) Дата начала отсчета срока действия патента:

25.10.1996

(43) Дата публикации заявки: 27.01.1999

(45) Опубликовано: 20.07.2004

(56) Список документов, цитированных в отчете о
поиске:
SU 1297098 A1, 15.03.1987. ЕР 0532225 А2, 17.03.1993. WO 93/15503 A1, 05.08.1993. US 5097508 А, 17.03.1992. US 4868867 А, 19.09.1989. WO 92/22891 А1, 23.12.1992.

Адрес для переписки:

103735, Москва, ул. Ильинка, 5/2, “Союзпатент”, пат.пов. Л.И.Ятровой

(72) Автор(ы):

НИСИГУТИ Масаюки (JP),
ИИДЗИМА Казуюки (JP),
МАТСУМОТО Дзун (JP),
ОМОРИ Сиро (JP)

(73) Патентообладатель(и):

СОНИ КОРПОРЕЙШН (JP)

(74) Патентный поверенный:

Ятрова Лариса Ивановна

(54) СПОСОБЫ И УСТРОЙСТВА ДЛЯ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ РЕЧЕВЫХ СИГНАЛОВ

(57) Реферат:

Изобретение относится к способу и устройству кодирования речевого сигнала, в которых входной речевой сигнал делится на блоки или кадры, которые кодируются на основе элементов кодирования. Устройство кодирования включает в себя первый блок кодирования, предназначенный для нахождения остатков кодирования с линейным предсказанием (КЛП) входного речевого сигнала для выполнения гармонического кодирования, и второй блок кодирования входного речевого сигнала путем кодирования формы сигнала. Для второго блока кодирования используется средство кодирования линейным предсказанием кодового возбуждения, применяющего векторное квантование путем поиска в замкнутом цикле оптимального вектора с использованием метода анализа через синтез. Первый и второй блоки кодирования используются для кодирования вокализированной и невокализированной частей входного речевого сигнала соответственно. Технический результат, достигаемый при реализации изобретения, состоит в том, что обеспечивается воспроизведение взрывных и фрикативных согласных звуков без риска генерирования постороннего звука на переходном участке между вокализированными и невокализированными частями речевого сигнала, что позволяет воспроизводить речь с высокой четкостью. 4 н. и 10 з.п. ф-лы, 24 ил.

Изобретение относится к способу кодирования речевого сигнала, при котором входной речевой сигнал делится на блоки данных или кадры в качестве элементов кодирования и кодируется с использованием элементов кодирования, к способу декодирования, предназначенному для декодирования кодированного указанным образом сигнала, и к способу кодирования-декодирования речевого сигнала.

Известно множество способов кодирования, предназначенных для кодирования звукового сигнала (включая речевые и акустические сигналы) для сжатия сигнала, путем использования статистических свойств сигналов во временной области и в частотной области и психоакустических характеристик органов слуха человека. Способы кодирования можно грубо классифицировать на кодирование во временной области, кодирование в частной области и кодирование путем анализа-синтеза.

Примеры высокоэффективного кодирования речевых сигналов включают в себя синусоидальное аналитическое кодирование, типа гармонического кодирования или кодирования путем многодиапазонного возбуждения, кодирование с использованием поддиапазонов, кодирование с линейным предсказанием, дискретное косинусное преобразование, модифицированное дискретное косинусное преобразование и быстрое преобразование Фурье.

При обычном кодировании путем многодиапазонного возбуждения или гармоническом кодировании невокализированные части речевого сигнала генерируются с помощью схемы генерации шума. Однако этот способ имеет недостаток, заключающийся в том, что взрывные согласные звуки, типа p, k или t (п, к или т), или фрикативные согласные звуки не будут воспроизведены с высокой точностью.

Более того, если кодируемые параметры, имеющие совершенно разные свойства, такие как линейные спектральные пары, интерполируются на переходном участке между вакализированной частью и невокализированной частью, они приводят к созданию посторонних или чуждых звуков.

В дополнение к этому, при обычном синусоидальном синтезируемом кодировании речь низкого тона, прежде всего мужская речь, становится неестественной.

Задачей настоящего изобретения является создание способа и устройства для кодирования речевого сигнала и способа и устройства для декодирования речевого сигнала, посредством которых взрывные или фрикативные согласные звуки могут воспроизводиться безупречно, без риска воспроизведения неестественного звука на переходном участке между вокализированной речью и невокализированной речью, и посредством которых можно производить речь высокой четкости, не создающую ощущения “заполненности”.

С помощью соответствующего настоящему изобретению способа кодирования речевого сигнала, при котором входной речевой сигнал делят на временной оси на заранее установленные элементы кодирования и затем кодируют с использованием этих заранее установленных элементов кодирования, согласно изобретению находят разности краткосрочных предсказаний входного речевого сигнала, найденные таким образом разности краткосрочных предсказаний кодируют посредством синусоидального аналитического кодирования, а входной речевой сигнал кодируют посредством кодирования формы сигнала.

Входной речевой сигнал распознают для определения того, является ли он вакализированным или невокализированным. На основании результатов распознавания часть входного речевого сигнала, оцениваемую как вокализированную, кодируют с помощью синусоидального аналитического кодирования, а часть, оцениваемую как невокализированную, обрабатывают путем векторного квантования формы сигнала на временной оси путем поиска в замкнутом цикле оптимального вектора, используя способ анализа через синтез.

Для синусоиадального аналитического кодирования предпочтительно используют векторное или матричное квантование с перцепционным взвешиванием для квантования разностей краткосрочных предсказаний, и в случае такого векторного или матричного квантования с перцепционным взвешиванием рассчитывают весовой коэффициент на основании результатов ортогонального преобразования параметров, полученных из импульсной характеристики весовой передаточной функции.

В соответствии с настоящим изобретением находят остаточные сигналы кратковременного предсказания, типа остаточных сигналов при кодировании с линейным предсказанием (КЛП), входного речевого сигнала, и остаточные сигналы кратковременного предсказания представляют посредством синтезированной синусоидальной волны, в то время как входной речевой сигнал кодируют путем кодирования формой сигнала фазовой передачи входного речевого сигнала, реализуя таким образом эффективное кодирование.

Кроме того, входной речевой сигнал распознают как вакализированный или невокализированный, и на основании результатов распознавания часть входного речевого сигнала, оцененную как вокализированная, кодируют путем синусоидального аналитического кодирования, в то время как часть его, оцененную как невокализированную, обрабатывают с помощью векторного квантования формы сигнала на временной оси посредством поиска в замкнутом цикле оптимального вектора, используя способ анализа через синтез, улучшая тем самым выразительность невокализированной части для воспроизведения речи с высокой четкостью. В частности, такой эффект усиливается посредством повышения скорости передачи. Можно также предотвращать появление постороннего звука на переходном участке между вокализированной и невокализированной частями. Кажущаяся синтезированная речь в вокализированной части уменьшается, создавая более натуральную синтезированную речь.

Путем вычисления весового коэффициента в момент взвешенного векторного квантования параметров входного сигнала, преобразуемого в сигнал частотной области на основании результатов ортогонального преобразования параметров, полученных из импульсного отклика весовой передаточной функции, объем обработки можно уменьшить до частичной величины, тем самым упрощая конструкцию или ускоряя операции обработки.

Фиг.1 представляет блок-схему, изображающую основную структуру устройства кодирования речевого сигнала (кодирующего устройства), предназначенного для осуществления соответствующего настоящему изобретению способа кодирования.

Фиг.2 представляет блок-схему, изображающую основную структуру устройства декодирования речевого сигнала (декодирующего устройства), предназначенного для осуществления соответствующего настоящему изобретению способа декодирования.

Фиг.3 представляет блок-схему, изображающую более подробную структуру показанного на фиг.1 устройства кодирования речевого сигнала.

Фиг.4 представляет блок-схему, изображающую более подробную структуру показанного на фиг.2 декодирующего устройства речевого сигнала.

Фиг.5 представляет блок-схему, изображающую основную структуру квантователя КЛП (кодирования с линейным предсказанием).

Фиг.6 представляет блок-схему более подробной структуры квантователя КЛП.

Фиг.7 представляет блок-схему, изображающую основную структуру векторного квантователя.

Фиг.8 представляет блок-схему, изображающую более подробную структуру векторного квантователя.

Фиг.9 представляет блок-схему последовательности операций, предназначенную для иллюстрации определенного примера обработки для расчета весового коэффициента, используемого для векторного квантования.

Фиг.10 представляет блок-схему, изображающую определенную структуру кодирующей части ЛПКВ (второй кодирующей части) соответствующего настоящему изобретению устройства кодирования речевых сигналов.

Фиг.11 представляет блок-схему последовательности операций, предназначенную для иллюстрации процесса выполнения обработки в устройстве фиг.10.

Фиг.12 изображает уровень гауссова шума и шума после ограничения на разных пороговых уровнях.

Фиг.13 представляет блок-схему последовательности операций, изображающую процесс выполнения обработки во время создания формы кодового словаря путем обучения.

Фиг. 14 иллюстрирует линейные спектральные пары (ЛСП) 10-го порядка, полученные из -параметров, полученных с помощью анализа КЛП 10-го порядка.

Фиг.15 иллюстрирует способ изменения усиления от НВ кадра к В кадру.

Фиг.16 иллюстрирует способ интерполирования спектра и формы сигнала, синтезируемого от кадра к кадру.

Фиг.17 иллюстрирует способ перекрытия на границе раздела между вокализированной (В) частью и невоказизированной (НВ) частью.

Фиг.18 иллюстрирует операцию добавления шума во время синтеза вокализированного звука.

Фиг.19 иллюстрирует пример расчета амплитуды шума, добавляемого во время синтеза вокализированного звука.

Фиг.20 иллюстрирует пример построения постфильтра.

Фиг.21 иллюстрирует период обновления усиления и период обновления коэффициента постфильтра.

Фиг.22 иллюстрирует обработку переходного участка на границе раздела кадров для коэффициентов усиления и фильтрации постфильтра.

Фиг.23 представляет блок-схему, изображающую структуру передающей части портативного оконечного устройства (терминала), в котором используется соответствующее настоящему изобретению устройство кодирования речевого сигнала.

Фиг.24 представляет блок-схему, изображающую структуру принимающей части портативного оконечного устройства, в котором используется соответствующее настоящему изобретению декодирующее устройство речевого сигнала.

Предпочтительные варианты осуществления настоящего изобретения подробно будут описаны со ссылками на чертежи.

На фиг.1 показана основная конструкция устройства кодирования (кодера), предназначенного для осуществления соответствующего настоящему изобретению способа кодирования речевого сигнала.

Как показано на фиг.1, кодирующее устройство имеет первый блок кодирования 110, предназначенный для отыскания остатков кратковременных предсказаний, типа остатков кодирования с линейным предсказанием (КЛП), входного речевого сигнала, для выполнения синусоидального анализа, типа гармонического кодирования, и второй блок кодирования 120, предназначенный для кодирования входного речевого сигнала с помощью кодирования формы сигнала, имеющего фазовую воспроизводимость, и что первый блок кодирования 110 и второй блок кодирования 120 используются для кодирования вокализированной (В) части входного сигнала и для кодирования невокализированной (НВ) части входного сигнала соответственно.

В первом блоке кодирования 110 осуществляется кодирование, например, остатков КЛП синусоидальным аналитическим кодированием типа гармонического кодирования или кодирования многополосного возбуждения (МПВ). Во втором блоке кодирования 120 осуществляется выполнение линейного предсказания с кодовым возбуждением (ЛПКВ) путем векторного квантования с использованием поиска в замкнутом цикле оптимального вектора, а также способ анализа через синтез.

В показанном на фиг.1 варианте осуществления речевой сигнал, подаваемый на входную клемму 101, поступает на фильтр с инвертированием КЛП 111 и блок анализа и квантования КЛП 113 первого блока кодирования 110. Коэффициенты КЛП, или так называемые -параметры, получаемые с помощью блока анализа и квантования КЛП 113, поступают на фильтр с инвертированием КЛП 111 первого блока кодирования 110. С фильтра 111 с инвертированием КЛП выводятся остатки КЛП входного речевого сигнала. С блока анализа и квантования КЛП 113 выводится квантованный выходной сигнал линейных спектральных пар (ЛСП) и подается на выходную клемму 102, как будет объяснено ниже. Остатки КЛП с фильтра 111 с инвертированием КЛП поступают в блок 114 синусоидального аналитического кодирования. Блок 114 синусоидального аналитического кодирования выполняет определение основного тона и рассчитывает амплитуду спектральной огибающей, а также устанавливает различие между В и НВ с помощью блока 115 распознавания В-НВ. Данные амплитуды спектральной огибающей с блока 114 синусоидального аналитического кодирования поступают в блок 116 векторного квантования. Индекс кодового словаря из блока 116 векторного квантования в качестве выходного сигнала с векторным квантованием спектральной огибающей подается через выключатель 117 на выходную клемму 103, в то время как выходной сигнал блока 114 синусоидального аналитического кодирования подается через выключатель 118 на выходную клемму 104. Выходной сигнал распознавания В-НВ блока 115 распознавания В-НВ поступает на выходную клемму 105 и, в качестве управляющего сигнала, на выключатели 117, 118. Если входной речевой сигнал является вакализированным (В) звуком, выбираются индекс и основной тон и выводятся на выходные клеммы 103, 104 соответственно.

Второй блок кодирования 120 фиг.1 в настоящем варианте осуществления изобретения имеет конфигурацию схемы кодирования с линейным предсказанием кодового возбуждения (кодирования ЛПКВ) и осуществляет векторное квантование формы сигнала временной области, используя поиск замкнутым циклом, применяя способ анализа через синтез, при котором выходной сигнал шумового кодового словаря 121 синтизуется с помощью синтзирующего фильтра с взвешиванием, полученный в результате речевой сигнал с весовыми коэффициентами поступат на схему вычитания 123; определяется погрешность между речевым сигналом с взвешиванием и речевым сигналом, поступающим на входную клемму 101, а оттуда через перцепционный взвешивающий фильтр 125; полученная погрешность поступает на схему вычислений расстояний 124 для осуществления вычислений расстояний, и с помощью шумового кодового словаря 121 отыскивается вектор минимизирования ошибки. Это кодирование ЛПКВ используется для кодирования невокализированной части речевого сигнала, как объяснялось выше. Индекс кодового словаря, в качестве НВ данных из шумового кодового словаря 121, выводится на выход 107 через выключатель 127, который включается, когда результатом распознавания В-НВ является невокализированный (НВ) сигнал.

Фиг.2 представляет блок-схему, иллюстрирующую основную структуру устройства декодирования речевого сигнала, соответствующего показанному на фиг.1 устройству кодирования речевого сигнала, предназначенного для выполнения соответствующего изобретению способа декодирования речевого сигнала.

Как показано на фиг.2, индекс кодового словаря в качестве выходного сигнала квантования линейных спектральных пар (ЛСП) с выхода 102 (фиг.1) подается на вход 202. Выходные сигналы выходов 103, 104 и 105 (фиг.1), то есть выходные сигналы основного тона, распознавания В-НВ и индексные данные в качестве выходных данных квантования огибающей подаются на входы 203-205 соответственно, индексные данные в качестве данных для невокализированных сигналов подаются с выхода 107 (фиг.1) на вход 207.

Индекс в виде выходного сигнала квантования огибающей с входа 203 поступает в блок 212 инверсного векторного квантования, предназначенный для инверсного векторного квантования, с целью отыскания спектральной огибающей остатков КЛП, которая поступает в синтезатор вокализированного речевого сигнала 211. Синтезатор вокализированного речевого сигнала 211 синтезирует остатки кодирования с линейным предсказанием (КЛП) вакализированной части речевого сигнала путем синусоидального синтеза. На синтезатор 211, кроме того, поступает основной тон и выходной сигнал распознавания В-НВ со входов 204, 205. Остатки КЛП вакализированного речевого сигнала с блока 211 синтеза вакализированного речевого сигнала подаются на фильтр 214 синтеза КЛП. Индексные данные НВ сигнала со входа 207 поступают в блок 220 синтезирования невокализированных звуков, где имеется ссылка на шумовой кодовый словарь для извлечения остатков КЛП невокализированной части. Эти остатки КЛП также подаются в фильтр 214 синтеза КЛП. В фильтре 214 синтеза КЛП остатки КЛП вокализированной части и остатки КЛП невокализированной части обрабатываются путем синтеза КЛП. В качестве альтернативы суммированные вместе остатки КЛП вокализированной части и остатки КЛП невокализированной части могут обрабатываться путем синтеза КЛП. Индексные данные ЛСП со входа 202 поступают в блок 213 воспроизведения параметров КЛП, откуда полученные -параметры КЛП подаются на фильтр 214 синтеза КЛП. Синтезированные фильтром 214 синтеза КЛП речевые сигналы поступают на выход 201.

На фиг.3 представлена более подробно структура кодирующего устройства речевого сигнала, показанного на фиг.1. На фиг.3 части или элементы, подобные изображенным на фиг.1, обозначены теми же ссылочными позициями.

В показанном на фиг.3 кодирующем устройстве речевого сигнала, поступающие на вход 101 речевые сигналы фильтруются фильтром 109 верхних частот (ФВЧ) для удаления сигналов ненужного диапазона и затем подаются в схему анализа КЛП 132 блока 113 анализа-квантования КЛП и в фильтр КЛП 111 с инвертированием КЛП.

В схеме анализа КЛП 132 блока 113 анализа-квантования КЛП применяется взвешивающая функция Хэмминга с длиной волны входного сигнала порядка 256 выборок в качестве блока, и методом автокорреляции находится коэффициент линейного предсказания, то есть так называемый -параметр. Интервал кадрирования в качестве блока вывода данных устанавливается равным примерно 160 выборок. Если частота выборки fs например, равна 8 кГц, то интервал одного кадра равен 20 мс, или 160 выборок.

-параметр со схемы 132 анализа КЛП поступает в схему 133 преобразования -ЛСП для преобразования в параметры линейных спектральных пар (ЛСП). Это преобразует -параметр, определяемый с помощью коэффициента фильтра прямого типа, например, в десять, то есть в пять пар параметров ЛСП. Это преобразование выполняется, например, методом Ньютона-Рапсона. Причина, по которой -параметры преобразуют в параметры ЛСП, заключается в том, что параметр ЛСП превосходит по интерполяционным характеристикам -параметры.

Параметры ЛСП со схемы 133 преобразования -ЛСП квантуются матричным или векторным способом с помощью квантователя ЛСП 134. До векторного квантования можно определить разность между кадрами или собрать множество кадров для выполнения матричного квантования. В настоящем случае два кадра длительностью по 20 мс параметров ЛСП, рассчитываемых каждые 20 мс, обрабатывают вместе посредством матричного квантования и векторного квантования.

Квантованный выходной сигнал квантователя 134, то есть индексные данные квантования ЛСП, подается на вход 102, а квантованный ЛСП вектор подается на схему интерполяции ЛСП 136.

Схема 136 интерполяции ЛСП интерполирует векторы ЛСП, квантуемые каждые 20 мс или 40 мс, для обеспечения восьмикратной скорости. То есть вектор ЛСП корректируется каждые 2,5 мс. Причина этого заключается в том, что, если остаточный сигнал обрабатывается путем анализа через синтез с помощью способа гармонического кодирования-декодирования, огибающая синтезированного сигнала представляет весьма достоверную форму колебания, так что при резком изменении коэффициентов ЛСП каждые 20 мс, вероятно, будет формироваться посторонний шум. То есть, если коэффициент КЛП изменять постепенно, каждые 2,5 мс, можно предотвратить появление такого постороннего шума.

Для инверсной фильтрации входного речевого сигнала с использованием интерполированных ЛСП-векторов, формируемых каждые 2,5 мс, параметры ЛСП преобразуются с помощью схемы 137 ЛСП/ преобразования в -параметры, которые являются коэффициентами фильтра, например фильтра прямого типа десятого порядка. Выходной сигнал схемы 137 ЛСП/ преобразования подается в схему 111 фильтра с инвертированием КЛП, который затем осуществляет инверсную фильтрацию для формирования равномерного выходного сигнала, используя корректируемый каждые 2,5 мс -параметр. Выходной сигнал фильтра 111 с инвертированием КЛП поступает в схему 145 ортогонального преобразования, то есть схему дискретного косинусного преобразования (ДКП) блока 114 синусоидального аналитического кодирования, типа схемы гармонического кодирования.

-параметр со схемы 132 анализа КЛП блока 113 анализа-квантования КЛП поступает на схему 139 расчета перцепционного взвешивающего фильтра, где обнаруживаются данные для перцепционного взвешивания. Эти взвешивающие данные поступают в перцепционный взвешивающий векторный квантователь 116, перцепционный взвешивающий фильтр 125 и фильтр 122 синтеза с перцепционным взвешиванием второго блока кодирования 120.

Блок 114 синусоидального аналитического кодирования схемы гармонического кодирования анализирует выходной сигнал фильтра 111 с инвертированием КЛП методом гармонического кодирования. То есть выполняются выявление высоты тона, вычисления амплитуд Am соответственных гармоник и распознавание вакализированного (В) – невокализированного (НВ) звуков, и ряд амплитуд Am или огибающих соответственных гармоник, изменяющихся с изменением основного тона, преобразуются в постоянные путем размерного преобразования.

В показанном на фиг.3 иллюстративном примере блока 114 синусоидального аналитического кодирования используется обыкновенное гармоническое кодирование. В частности, в случае кодирования путем многодиапазонного возбуждения (МДВ) при построении модели предполагается, что вокализированные части и невокализированные части имеются в каждой частотной области или полосе в один и тот же момент времени (в одном и том же блоке или кадре). При других способах гармонического кодирования однозначно оценивается, является ли речевой сигнал в одном блоке или одном кадре вакализированным или невокализированным. В последующем описании данный кадр оценивается как НВ, если все полосы являются НВ, поскольку речь идет о кодировании методом МДВ. Конкретные примеры технического приема описанного выше метода аналитического синтеза для МДВ можно найти в заявке на патент Японии №4-91442, зарегистрированной на имя правопреемника настоящей заявки на патент.

На блок 141 поиска основного тона в разомкнутом контуре и счетчик 142 пересечения нулевого уровня блока 114 кодирования синусоидальным анализом (фиг.3) подается входной речевой сигнал со входа 101 и сигнал с фильтра верхних частот (ФВЧ) 109 соответственно. На схему 145 ортогонального преобразования блока 114 кодирования синусоидальным анализом поступают остатки КЛП или остатки линейного предсказания с фильтра 111 с инвертированием КЛП. Блок 141 поиска основного тона разомкнутым циклом принимает остатки КЛП входных сигналов для осуществления сравнительно грубого поиска основного тона путем поиска в разомкнутом контуре. Извлекаемые данные грубого поиска основного тона поступают в блок 146 точного поиска основного тона путем описываемого ниже поиска в замкнутом контуре. С блока 141 поиска основного тона в разомкнутом контуре максимальное значение нормированной автокорреляции r(р), полученное путем нормирования максимального значения автокорреляции остатков КЛП вместе с грубыми данными основного тона выводятся вместе с грубыми данными основного тона для подачи в блок 115 распознавания В-НВ.

Схема 145 ортогонального преобразования выполняет ортогональное преобразование типа дискретного преобразования Фурье (ДПФ) для преобразования остатков КЛП на временной оси в данные спектральных амплитуд на частотной оси. Выходной сигнал схемы 145 ортогонального преобразования подается в блок 146 точного поиска основного тона и блок 148 спектральной оценки, конфигурированный для вычисления амплитудно-частотной характеристики или огибающей.

На блок 146 точного поиска основного тона подаются сравнительно грубые данные основного тона, получаемые с помощью блока 141 поиска основного тона в разомкнутом контуре, и данные частотной области, получаемые с помощью ДПФ блоком 145 ортогонального преобразования. Блок 146 точного поиска основного тона смещает данные основного тона на несколько выборок со скоростью 0,2-0,5 относительно полученных данных грубого значения основного тона для получения в конечном счете значения точных данных основного тона, имеющего оптимальную десятичную запятую (плавающую запятую). Метод анализа через синтез используется в качестве способа точного поиска для выбора основного тона так, чтобы энергетический спектр оказался ближе всего к энергетическому спектру первоначального звука. Данные основного тона с блока 146 точного поиска основного тона в замкнутом контуре подаются на выход 104 через выключатель 118.

В блоке 148 спектральной оценки амплитуда каждой гармоники и спектральная огибающая в виде суммы гармоник оцениваются на основании спектральной амплитуды и основного тона в виде выходного сигнала ортогонального преобразователя остатков КЛП и подаются в блок 146 точного поиска основного тона, блок 115 распознавания В-НВ и блок 116 векторного квантования с перцепционным взвешиванием.

Блок 115 распознавания В-НВ распознает В-НВ сигналы кадра на основании выходного сигнала схемы 145 ортогонального преобразования, оптимального основного тона с блока 146 точного поиска основного тона, данных амплитудно-частотной характеристики с блока 148 спектральной оценки, максимального значения нормированной автокорреляции r(р) с блока 141 поиска основного тона в разомкнутом контуре и значении счета пересечений нулевого уровня со счетчика 142 пересечений нулевого уровня. Кроме того, должно также использоваться граничное местоположение основанного на полосе распознавания В-НВ для МПВ в качестве условия для распознавания В-НВ. Выходной сигнал распознавания блока 115 распознавания В-НВ поступает на выход 105.

В выходном элементе блока 148 спектральной оценки или во входном элементе блока 116 векторного квантования имеется блок преобразования количества данных (элемент, осуществляющий преобразование частоты дискретизации). Блок преобразования количества данных используется для установления амплитудных данных огибающей на постоянную величину с учетом того, что количество полос разбиения на частотной оси и число данных отличаются при изменении основного тона. То есть, если эффективная полоса занимает область частот до 3400 кГц, эффективная полоса может быть разбита на 8-63 полосы, в зависимости от основного тона. Количество mMX+1 амплитудных данных получаемое от полосы к полосе, изменяется от 8 до 63. Таким образом, блок преобразования количества данных преобразует амплитудные данные переменного количества mMx+1 в заранее установленное количество М данных, например 44 данных.

Амплитудные данные или данные огибающей заранее установленного количества М, например 44, с блока преобразования количества данных, обеспечиваемые на выходном элементе блока 148 спектральной оценки или входном элементе блока 116 векторного квантования, обрабатываются вместе, исходя из заранее установленного количества данных, например 44 данных, в качестве элемента, с помощью блока 116 векторного квантования, путем выполнения векторного квантования со взвешиванием. Это взвешивание обеспечивается выходным сигналом схемы 139 расчета перцепционно взвешивающего фильтра. Индекс огибающей с векторного квантователя 116 выводится с помощью выключателя 117 на выходную клемму 103. До взвешиваемого векторного квантования целесообразно определить межкадровую разницу, используя подходящий коэффициент рассеяния для вектора, составляющего заранее установленное количество данных.

Далее приводится описание второго блока кодирования 120. Второй блок кодирования 120 имеет так называемую схему кодирования ЛПКВ (линейное предсказание кодового возбуждения) и используется, в частности, для кодирования невокализированной части входного речевого сигнала. В схеме кодирования ЛПКВ для невокализированной части входного речевого сигнала шумовой выходной сигнал, соответствующий остаткам КЛП невокадизированного звука, в качестве характерного выходного значения шумового кодового словаря, или так называемого вероятностного кодового словаря 121, поступает через схему 126 управления усилением в синтезирующий фильтр 122 с перцепционным взвешиванием. Взвешивающий синтезирующий фильтр 122 КЛП синтезирует входной шум путем синтеза КЛП и подает полученный невокализированный сигнал с взвешиванием в вычитающее устройство 123. На вычитающее устройство 123 подается сигнал, поступающий со входа 101 через фильтр верхних частот (ФВЧ) 109 и перцепционно взвешенный перцепционным взвешивающим фильтром 125. Вычитающее устройство находит разность или погрешность между упомянутым сигналом и сигналом с синтезирующего фильтра 122. Между тем, отклик при отсутствии входного сигнала синтезирующего фильтра с перцепционным взвешиванием предварительно вычитается из выходного сигнала перцепционно взвешивающего фильтра 125. Эта погрешность подается на схему 124 вычисления расстояния для вычисления расстояния. Характерное векторное значение, которое снижает до минимума погрешность, отыскивается в шумовом кодовом словаре 121. Вышеприведенное описание представляет собой краткое изложение векторного квантования сигнала временной области, используя поиск в замкнутом контуре посредством способа анализа через синтез.

В качестве данных для невокализированной части (НВ) из второго кадрирующего устройства 120, использующего структуру кодирования ЛПКВ, выводятся индекс формы кодового словаря из шумового кодового словаря 121 и индекс усиления кодового словаря из схемы усиления 126. Индекс формы, который является НВ данными из шумового кодового словаря 121, поступает на выход 107s через выключатель 127s, в то время как индекс коэффициента усиления, который является НВ данными схемы усилени 126, поступает на выход 107g через выключатель 127g.

Эти выключатели 127s, 127g и выключатели 117, 118 включаются и выключаются в зависимости от результатов решения В-НВ с блока 115 распознавания В-НВ. В частности, выключатели 117, 118 включаются, если результаты распознавания В-НВ речевого сигнала кадра, передаваемого в данный момент, показывают вокализированный (В) сигнал, а выключатели 127s, 127g включаются, если речевой сигнал передаваемого в данный момент кадра невокализированный (НВ).

На фиг.4 показана более подробно структура изображенного на фиг.2 декодирующего устройства речевого сигнала. На фиг.4 использованы те же самые ссылочные позиции для обозначения показанных на фиг.2 аналогичных элементов.

На фиг.4 выходной сигнал векторного квантования пар ЛСП соответствует выходу 102 (фиг.1 и 3), то есть индексу кодового словаря, подаваемому на вход 202.

Индекс ЛСП поступает на инверсный векторный квантователь 231 линейных спектральных пар для блока 213 воспроизведения параметров КЛП, чтобы обеспечить обратное векторное квантование для данных линейной спектральной пары (ЛСП), которые затем поступают на схемы интерполяции ЛСП 232, 233 для интерполирования. Полученные в результате интерполированные данные преобразуются с помощью схем 234, 235 ЛСП/ преобразования в -параметры, которые подаются на фильтр 214 синтеза КЛП. Схема 232 интерполяции ЛСП и схема 234 ЛСП/ преобразования предназначены для вокализированного (В) звука, а схема 233 интерполяции ЛСП и схема 235 ЛСП/ предназначена для невокализированного (НВ) звука. Синтезирующий КЛП фильтр 214 состоит из синтезирующего КЛП фильтра 236 вокализированной части речевого сигнала и синтезирующего КЛП фильтра 237 невокализированной части речевого сигнала. То есть интерполирование коэффициента КЛП осуществляется независимо для вокализированной части речевого сигнала и для невокализированной части речевого сигнала с целью предотвращения вредных эффектов, которые в противном случае могут создаваться в переходном участке от невокализированной части речевого сигнала к вокализированной части речевого сигнала или наоборот из-за интерполирования пар ЛСП полностью различающихся свойств.

На вход 203 фиг.4 подаются данные кодового индекса, соответствующие спектральной огибающей Amc взвешенным векторным квантованием, соответствующей выходному сигналу с вывода 103 кодирующего устройства (фиг.1 и 3). На вход 204 подаются данные основного тона с вывода 104 (фиг.1 и 3), а на вход 205 подаются данные распознавания В-НВ с вывода 105 (фиг.1 и 3).

Индексные данные с векторным квантованием спектральной огибающей Am со входа 203 поступают на инвертирующий векторный квантователь 212 для обратного векторного квантования, где осуществляется преобразование, обратное преобразованию количества данных. Получаемые в результате данные спектральной огибающей подаются в схему 215 синусоидального синтеза.

Если разница между кадрами обнаруживается до векторного квантования спектра во время кодирования, то разность между кадрами декодируется после инвертирующего векторного квантования для получения данных спектральной огибающей.

На схему 215 синусоидального синтеза подается основной тон со входа 204 и данные распознавания В-НВ со входа 205. Со схемы 215 синусоидального синтеза выводятся данные разности КЛП, соответствующие выходному сигналу показанного на фиг.1 и 3 инверсного фильтра КЛП 111 и подаются на сумматор 218. Методика синусоидального синтеза описана, например, в заявках на патенты Японии №4-91442 и 6-198451, правопреемника настоящей заявки.

Данные огибающей инвертирующего векторного квантователя 212 и основной тон и данные распознавания В-НВ со входов 204, 205 поступают на схему 216 синтеза шума, конфигурированную для добавления шума к вокализированной (В) части. Выходной сигнал схемы 216 синтеза шума поступает на сумматор 218 через схему 217 перекрытия и суммирования с взвешиванием. В частности, шум добавляется к вокализированной части сигналов остатков КЛП, учитывая то, что, если возбуждение в качестве входного сигнала на синтезирующий КЛП фильтр вокализированного звука образуется путем синтеза гармонической волны, ощущение наполненности возникает в звуке низкого основного тона, такого как мужская речь, и качество звука резко изменяется между вокализированным звуком и невокализированным звуком, создавая таким образом ненатуральное слуховое ощущение. Такой шум учитывает параметры, относящиеся к данным кодирования речевого сигнала, таких как основной тон, амплитуда спектральной огибающей, максимальная амплитуда в кадре или уровень остаточного сигнала, в связи со входным сигналом синтезирующего КЛП фильтра вокализированной части речевого сигнала, то есть возбуждения.

Суммарный выходной сигнал сумматора 218 подается на синтезирующий фильтр 236 для вокализированного звука синтезирующего КЛП фильтра 214, где синтез КЛП осуществляется для формирования данных временного сигнала, которые затем фильтруются с помощью постфильтра 248, предназначенного для вокализированного речевого сигнала, и подаются на сумматоре 239.

Индекс формы и индекс усиления в качестве НВ данных с выходов 107s и 107d (фиг.3) подаются на входы 207s и 207g (фиг.4) соответственно и отсюда подаются в блок 220 синтеза невокализированного речевого сигнала. Индекс формы с вывода 207s поступает в шумовой кодовый словарь 221 блока 220 синтеза невокализированного речевого сигнала, в то время как индекс усиления с вывода 207g поступает в схему усиления 222. Считываемый из шумового кодового словаря 221 характерный выходной сигнал является шумовой составляющей сигнала, соответствующей остаткам КЛП невокализированного речевого сигнала. Он становится заранее установленной амплитудой усиления в схеме 222 усиления и подается в схему 223 взвешивания с использованием финитной функции для взвешивания с использованием финитной функции с целью сглаживания перехода к вокализированной части речевого сигнала.

Выходной сигнал схемы 223 взвешивания с использованием финитной функции поступает в синтезирующий фильтр 237 для невокализированного (НВ) речевого сигнала синтезирующего КЛП фильтра 214. Подаваемые в синтезирующий фильтр 237 данные обрабатываются с помощью синтеза КЛП, становясь данными формы сигнала во времени для невокализированной части. Данные временного сигнала невокализированной части фильтруются постфильтром 238 и для невокализированной части до их подачи в сумматор 239.

В сумматоре 239 временной сигнал формы с постфильтра 238v для вокализированной части речевого сигнала и данные временного сигнала для невокализированной части речевого сигнала из постфильтра 238u для невокализированной части речевого сигнала складываются друг с другом, и полученные в результате суммарные данные выводятся на выход 201.

Описанное выше кодирующее устройство речевого сигнала может выдавать данные разных скоростей передачи битов в зависимости от требуемого качества звука. То есть выходные данные могут выдаваться с переменными скоростями передачи битов. Например, если низкая скорость передачи битов равна 2 Кбайта в секунду, а высокая скорость передачи битов составляет 6 Кбайтов в секунду, выходные данные представляют собой данные скоростей передачи битов, показанные в табл.1.

Данные основного тона с выхода 104 выводятся все время со скоростью 8 бит/20 мс для вокализированных речевых сигналов при выводе выходных сигналов распознавания В-НВ с выхода 105, все время со скоростью 1 бит/20 мс. Индекс для квантования ЛСП, выводимый с выхода 102, переключается между 32 битами /40 мс и 48 битами/ 40 мс. С другой стороны, индекс для вокализированного (В) речевого сигнала, выводимого с выхода 103, переключается между 15 битами/20 мс и 87 битами/ 20 мс. Индекс для невокализированного (НВ) речевого сигнала, выводимый с выходных выводов 107s и 107g переключается между 11 битами /10 мс и 23 битами/5 мс. Выходные данные для вокализированного (НВ) звука составляют 40 бит/20 мс для 2 килобайтов в секунду и 120 бит/20 мс для 6 килобайтов в секунду. С другой стороны, выходные данные для невокализированного (НВ) звука составляют 39 бита/20 мс для 2 килобайтов в секунду и 117 бит/ 20 мс для 6 килобайтов в секунду.

Индекс для квантования ЛСП, индекс для вокализированного (В) речевого сигнала и индекс для невокализированного (НВ) речевого сигнала будут описаны ниже.

На фиг.5 и 6 подробно изображены матричное квантование и векторное квантование в квантователе ЛСП 134.

-параметр со схемы 132 анализа КЛП поступает в схему 133 /ЛСП преобразования для преобразования в параметры ЛСП. Если в схеме 132 анализа КЛП выполняется анализ КЛП Р-го порядка, рассчитываются Р -параметров. Эти Р -параметров преобразовываются в параметры ЛСП, которые хранятся в буферном устройстве 610.

Буферное устройство 610 выдает 2 кадра параметров ЛСП. Два кадра параметров ЛСП подвергаются матричному квантованию матричным квантователем 620, состоящим из первого матричного квантователя 6201 и второго матричного квантователя 6202. Два кадра параметров ЛСП подвергаются матричному квантованию в первом матричном квантователе 6201, и полученная в результате погрешность квантования дополнительно подвергается матричному квантованию во втором матричном квантователе 6202. Матричное квантование использует корреляцию как по временной, так и по частотной оси. Погрешность квантования для двух кадров с матричного квантователя 6202 подается в блок 640 векторного квантования, состоящий из первого векторного квантователя 6401 и второго векторного квантователя 6402. Первый векторный квантователь 6402 состоит из двух участков векторного квантования 650, 660, тогда как второй векторный квантователь 6402 состоит из двух участков векторного квантования 670, 680. Погрешность квантования из блока 620 матричного квантования подвергается квантованию на кадровой основе участками 650, 660 векторного квантования первого векторного квантователя 6401. Полученный в результате вектор погрешности квантования дополнительно подвергается векторному квантованию на участках 670, 680 векторного квантования второго векторного квантователя 6402. При вышеописанном векторном квантовании используется корреляция по частотной оси.

Выполняющий матричное квантование, как было описано выше, блок матричного квантования 620 включает в себя по меньшей мере первый матричный квантователь 6201, предназначенный для выполнения первого этапа матричного квантования, и второй матричный квантователь 6202, предназначенный для выполнения второго этапа матричного квантования, для матричного квантования погрешности квантования, производимой первым матричным квантованием. Блок 640 векторного квантования, исполняющий векторное квантование, как описывалось выше, включает в себя по меньшей мере первый векторный квантователь 6401, предназначенный для выполнения первого этапа векторного квантования, и второй векторный квантователь 6402, предназначенный для выполнения второго этапа матричного квантования, для матричного квантования погрешности квантования, создаваемой первым векторным квантованием.

Теперь будет приведено подробное описание матричного квантования и векторного квантования.

Параметры ЛСП для двух кадров, хранящиеся в буферном устройстве 600, то есть матрица 10 2, подаются в первый матричный квантователь 6201. Первый матричный квантователь 6201 подает параметры ЛСП для двух кадров через сумматор 621 параметров ЛСП в блок 623 вычисления расстояния с взвешиванием для нахождения взвешенного расстояния минимального значения.

Мера искажения dMQ1 во время поиска кодового словаря первым матричным квантователем 6201 определяется выражением

где Х1 – параметр ЛСП, а X1‘ – значение квантования, где t и i являются числами Р-размерности.

Весовой коэффициент w, в котором не учитывается весовое ограничение по частотной оси и временной оси, определяется выражением

где x(t, 0)=0, x(t, p+1)= , независимо от t.

Весовой коэффициент w в выражении (2), кроме того, используется для матричного квантования и векторного квантования нижней по ходу стороны.

Вычисленное взвешенное расстояние подается в матричный квантователь MK1 622 для матричного квантования, 8-разрядный индекс, получаемый с помощью этого матричного квантования, подается на переключатель сигналов 690. Квантованная величина путем матричного квантования вычитается в суммирующем устройстве 621 из параметров ЛСП для двух кадров из буферного устройства 610. Блок 623 вычислений взвешиваемых расстояний рассчитывает взвешенное расстояние каждые два кадра так, что матричное квантование осуществляется в блоке 622 матричного квантования. Кроме того, выбирается величина квантования, минимизирующая взвешенное расстояние. Выходной сигнал суммирующего устройства 621 подается на суммирующее устройство 631 второго матричного квантователя 6202.

Второй матричный квантователь 6202 выполняет матричное квантование подобно первому матричному квантователю 6201. Выходной сигнал суммирующего устройства 621 подается через суммирующее устройство 631 в блок 633 вычисления взаимного расстояния, где вычисляется минимальное взвешенное расстояние.

Мера искажения dMQ2 во время поиска кодового словаря вторым матричным квантователем 6202 определяется выражением

Взвешенное расстояние подается в блок 632 матричного квантования (МК2) для матричного квантования, 8-разрядный индекс, получаемый посредством матричного квантования, поступает на переключатель сигналов 690. Блок 633 вычисления взвешиваемого расстояния последовательно вычисляет взвешиваемое расстояние, используя выходной сигнал суммирующего устройства 631. Выбирается величина квантования, минимизирующая взвешенное расстояние. Выходной сигнал суммирующего устройства 631 подается покадровым образом в суммирующие устройства 651, 661 первого векторного квантователя 6401.

Первый векторный квантователь 6401 выполняет покадровое векторное квантование. Выходной сигнал суммирующего устройства 631 подается на покадровой основе в каждый из блоков 653, 663 вычисления взвешенного расстояния через суммирующие устройства 651, 661 для вычисления минимального взвешиваемого расстояния.

Разность между погрешностью квантования Х2 и погрешностью квантования Х2‘, представляет собой матрицу (10 2). Если разность представить как Х22‘=[х3-1, х3-2] меры искажения dVQ1, dVQ2 во время поиска кодового словаря блоками 652, 662 векторного квантования первого векторного квантователя 6401 можно выразить уравнениями

Взвешенное расстояние подается на блок 652 векторного квантования ВК1 и блок 662 векторного квантования ВК2 для векторного квантования. Каждый 8-разрядный индекс, выдаваемый с помощью этого векторного квантования, подается на переключатель сигналов 690. Величина квантования вычитается с помощью суммирующих устройств 651, 661 из входного двухкадрового вектора погрешности квантования. Блоки 653, 663 вычисления взвешенных расстояний последовательно вычисляют взвешенное расстояние, используя выходные сигналы суммирующих устройств 651, 661 для выбора величины квантования, минимизирующей взвешенное расстояние. Выходные сигналы суммирующих устройств 651, 661 подаются на суммирующие устройства 671, 681 второго векторного квантователя 6402.

Мера искажения dVQ3, dVQ4 во время поиска кодового словаря векторными квантователями 672, 682 второго векторного квантователя 6402, для

определяются уравнениями

Эти взвешенные расстояния подаются на векторный квантователь 672 (ВК3) и на векторный квантователь 682 (ВК4) для векторного квантования. 8-разрядные выходные индексные данные от векторного квантования вычисляются с помощью суммирующих устройств 671, 681 из входного вектора погрешности квантования для двух кадров. Блоки 673, 683 вычисления взвешенных расстояний последовательно вычисляют взвешенные расстояния, используя выходные сигналы суммирующих устройств 671, 681 для выбора величины квантования, минимизирующей взвешенные расстояния.

Во время обучения кодового словаря обучение осуществляется с помощью обычного алгоритма Ллойда, основанного на соответствующих мерах искажения.

Меры искажения во время поиска кодового словаря и во время обучения могут иметь разные значения.

8-разрядные индексные данные из блоков 622 и 632 матричного квантования и блоков 652, 662, 672 и 682 векторного квантования коммутируются переключателем сигналов 690 и выводятся на выходную клемму 691.

В частности, для низкой скорости передачи битов выводятся выходные сигналы первого матричного квантователя 6201, выполняющего первый этап матричного квантования, второго матричного квантователя 6202, выполняющего второй этап матричного квантования, и первого векторного квантователя 6401, выполняющего первый этап векторного квантования, тогда как для высокой скорости передачи битов выходной сигнал для низкой скорости передачи битов суммируется с выходным сигналом второго векторного квантователя 6402, выполняющего второй этап векторного квантования, и выводится полученная в результате сумма.

Эти выходные сигналы дают индекс 32 бита/40 мс и индекс 48 бит/40 мс для скоростей 2 килобайта в секунду и 6 килобайтов в секунду соответственно.

Блок матричного квантования 620 и блок векторного квантования 640 осуществляют взвешивание, ограниченное по частотной оси и (или) по временной оси в соответствии с характеристиками параметров, представляющих коэффициенты КЛП (кодирования с линейным предсказанием).

Сначала будет приведено описание взвешивания, ограниченного по частотной оси в соответствии с характеристиками параметров ЛСП (линейной спектральной пары). Если число порядков Р=10, параметры ЛСП Х(i) группируются в следующем виде:

L1={X(i) |1 i 2}

L2={X(i) |3 i 6}

L3={X(i) |7 i 10}

для трех диапазонов низкой, средней и высокой скоростей. Если взвешивание групп L2, L2 и L3 составляет 1/4, 1/2 и 1/4 соответственно, взвешивание, ограниченное только по частотной оси, запишется с помощью следующих выражений

Взвешивание соответствующих ЛСП параметров осуществляется только в каждой группе, и такой весовой коэффициент ограничивается только взвешиванием для каждой группы.

Для направления временной оси общая сумма соответственных кадров обязательно равна 1, так что ограничение в направлении по временной оси основано на кадре. Весовой коэффициент, ограниченный только в направлении временной оси, определяется выражением

где 1 i 10 и 0 t 1.

Согласно этому выражению (11) взвешивание, не ограничиваемое направлением частотной оси, осуществляется между двумя кадрами, имеющими номера кадров t=0 и t=1. Это взвешивание, ограничиваемое только в направлении временной оси, выполняется между двумя кадрами, обрабатываемыми матричным квантованием.

Во время обучения совокупность кадров, используемых в качестве обучающих данных, имеющих общее количество Т, взвешивается в соответствии с выражением

где 1 i 10 и 0 t Т.

Далее приводится описание взвешивания, ограниченного в направлении частотной оси и в направлении временной оси. Если число порядков Р=10, параметры ЛСП (i, t) группируются следующим образом:

L1={x(i, t)| 1 i 2, 0 t 1}

L2={x(i, t)| 3 i 6, 0 t 1}

L3={x(i, t)| 7 i 10, 0 t 1}

для трех диапазонов низкого, промежуточного и высокого диапазонов. Если весовые коэффициенты для групп L1, L2 и L3 равны 1/4, 1/2 и 1/4, то взвешивание, ограниченное только по частотной оси, определяется выражениями

Посредством этих выражений (13)-(15) осуществляется взвешивание, ограниченное каждыми тремя кадрами в направлении частотной оси, и через два кадра, обрабатываемых матричным квантованием. Это эффективно как во время поиска кодового словаря, так и во время обучения.

Во время обучения взвешивание осуществляется для совокупности кадров всех данных. Параметры ЛСП (i, t) группируются следующим образом:

L1={x(i, t)| 1 i 2, 0 t T}

L2={x(i, t)| 3 i 6, 0 t Т}

L3={x(i, t)| 7 i 10, 0 t Т}

для низкой, промежуточной и высокой скоростей. Если взвешивание групп L1, L2 и L3 составляет 1/4, 1/2 и 1/4 соответственно, взвешивание для групп L1, L2 и L3, ограниченное только по частотной оси, определяется выражениями

Посредством этих выражений (16)-(18) взвешивание можно выполнять для трех диапазонов в направлении частотной оси по всем кадрам в направлении временной оси.

Кроме того, блок 620 матричного квантования и блок 640 векторного квантования выполняют взвешивание в зависимости от величины изменений параметров ЛСП. В переходных областях от В к НВ или от НВ к В, которые представляют меньшую часть кадров среди совокупности кадров речевых сигналов, параметры ЛСП значительно изменяются из-за разницы в амплитудно-частотной характеристике между согласными и гласными звуками. Следовательно, представляемое выражением (19) взвешиванде можно умножать на взвешивание w'(i, t) для выполнения взвешивания, размещающего предыскажения на переходных областях.

Вместо уравнения (19) можно использовать следующее выражение:

Таким образом, блок 134 квантования ЛСП выполняет двухкаскадное матричное квантование и двухкаскадное векторное квантование с целью представления количества двоичных разрядов выходных индексных переменных.

На фиг.7 показана основная структура блока 116 векторного квантования, тогда как на фиг.8 показана более подробная конструкция изображенного на фиг.7 блока 116 векторного квантования. Теперь приведем описание иллюстративной структуры векторного квантования с взвешиванием для спектральной огибающей Am в блоке 116 векторного квантования.

Во-первых, в показанном на фиг.3 устройстве кодирования речевого сигнала представлена иллюстративная схема, предназначенная для преобразования количества данных с целью обеспечения постоянного количества данных амплитуды спектральной огибающей на входной стороне блока 148 спектральной оценки или на входной стороне блока 116 векторного квантования.

Для такого преобразования количестве данных можно использовать множество способов. В настоящем варианте осуществления изобретения фиктивные данные, интерполирующие значения из последних данных в блоке в первые данные в блоке, или заранее установленные данные типа данных, повторяющих последние данные или первые данные в блоке, добавляются к амплитудным данным одного блока эффективной полосы на частотной оси, для увеличения количества данных до NK, количество амплитудных данных, равных в Os раз, например в восемь раз, больше, найдены посредством Os-кратной, например восьмикратной, избыточной дискретизации ограниченного типа ширины полосы. Амплитудные данные ((mМх+1)xOs) линейно интерполируются для расширения до большего числа NM, например до 2048. Эти NM данных субдискретизируются для преобразования в вышеупомянутое заранее установленное количество М данных, типа 44 данных. В действительности, рассчитываются только требуемые в конечном итоге данные, необходимые для определения М данных, с помощью избыточной дискретизации и линейной интерполяции без нахождения всех вышеупомянутых NM данных.

Показанный на фиг.7 блок 116 векторного квантования, предназначенный для осуществления взвешенного векторного квантования, по меньшей мере, включает в себя первый блок 500 векторного квантования, предназначенный для выполнения первого этапа векторного квантования, и второй блок 510 векторного квантования, предназначенный для осуществления второго этипа векторного квантования, с целью квантования вектора погрешности квантования, производимого во время первого векторного квантования первым блоком 500 векторного квантования. Этот первый блок 500 векторного квантования является так называемым блоком векторного квантования первого каскада, тогда как второй блок 510 векторного квантования является так называемым блоком векторного квантования второго каскада.

Выходной вектор х блока 148 спектральной оценки, то есть данные огибающей, имеющие заранее установленное количество М, поступают на входную клемму первого блока 500 векторного квантования. Этот выходной вектор х квантуется путем векторного квантования с взвешиванием блоком 502 векторного квантования. Таким образом, индекс формы, получающийся на выходе блока 502 векторного квантования, поступает на выходную клемму 503, в то время как квантованное значения x0 поступает на выходную клемму 504 и подается в суммирующие устройства 505, 513. Суммирующее устройство 505 вычитает квантованное значение x0‘ из исходного вектора х, давая вектор погрешности квантования у большого порядка.

Вектор погрешности квантования y подается в блок 511 векторного квантования во втором блоке 510 векторного квантования. Этот второй блок 511 векторного квантования состоит из множества векторных квантователей, или двух показанных на фиг.7 векторных квантователей 5111, 5112. Вектор погрешности квантования y в размерном отношении разбивается таким образом, чтобы он квантовался путем взвешивающего векторного квантования в двух векторных квантователях 5111, 5112. Индекс формы, обеспечиваемый этими векторными квантователями 5111, 5112, поступает на выходные клеммы 5121, 5122, в то время как квантованные значения y1, y2 связываются в размерном направлении и поступают в суммирующее устройство 513. Суммирующее устройство 513 добавляет квантованные значения y1‘, y2‘ к квантованному значению x0‘ для образования квантованного значения x1‘, которое подается на выход 514.

Таким образом, для низкой скорости передачи битов на выход выдается выходной сигнал первого этапа векторного квантования первым блоком 500 векторного квантования, тогда как для высокой скорости передачи битов выдается выходной сигнал первого этапа векторного квантования и выходной сигнал второго этапа квантования, формируемый вторым блоком 510 квантования.

В частности, векторный квантователь 502 в первом блоке 500 векторного квантования в секции 116 векторного квантования L-го порядка, например, 44-мерной двухкаскадной структуры, как показано на фиг.8.

То есть сумма выходных векторов 44-мерного кодового словаря векторного квантования с размером кодового словаря 32, умноженная на коэффициент усиления gi, используется в качестве квантованной величины x0‘ 44-мерного вектора х спектральной огибающей. Таким образом, как показано на фиг.8, двумя кодовыми словарями являются СВ0 и СВ1, тогда как выходными векторами являются 1i, s1j, где 0 i и j 31. С другой стороны, выходной сигнал кодового словаря усиления СВg представляет собой gl, где 0 1 31, а gl – скалярная величина. Окончательный выходной сигнал x0, представляет собой gl(s1i+s1j).

Спектральная огибающая Am, полученная с помощью вышеупомянутого анализа МДВ разностей КЛП и преобразованная в заранее установленный размер, представляет собой х. Критическим является способ эффективного квантования х.

Энергия погрешности квантования Е определяется следующим выражением:

где Н обозначает характеристики на частотной оси синтезирующего КЛП фильтра, a W – матрица для взвешивания, предназначенного для представления характеристик для перцепционного взвешивания на частотной оси.

Если -параметр, полученный в результате анализа КЛП текущего кадра, обозначить как i (1 i Р), то значение L-мерных, например 44-мерных соответствующих точек, выбирают из амплитудно-частотной характеристики выражения

Для вычислений затем подставляются 0 в последовательность 1, 1, 2,… p для получения последовательности 1, 1, 2,… р, 0, 0,… ,0 для того, чтобы получить, например, 256-точечные данные. Затем с помощью 256-точечного БПФ рассчитывается для точек, связанных с диапазоном от 0 до и находятся обратные величины результатов. Эти обратные величины субдискретизируются до L точек, например 44 точек, и образуется матрица, имеющая эти L точек в качестве диагональных элементов:

Матрица W с перцепционным взвешиванием определяется следующим уравнением:

где i представляет результат анализа КЛП, а a, b являются постоянными величинами, например, равными a=0,4 и b=0,9.

Матрицу W можно рассчитывать из амплитудно-частотной характеристики представленного выше уравнения (23). Например, БПФ выполняется на 256-точечных данных 1, 1b, 22 b,… p bР, 0, 0,… 0, для нахождения для области от 0 до , где 0 i 128. Амплитудно-частотная характеристика знаменателя находится с помощью 256-точечного БПФ для области от 0 до для 1, 1 a, 22 a,… , pP a, 0, 0,… , 0 на 128 точках для нахождения (r2е[i]+im’2 [i])1/2, где 0 i 128.

Амплитудно-частотную характеристику уравнения 23 можно найти с помощью уравнения:

где 0 i 128. Это находится для каждой связанной точки, например, 44-мерного вектора следующим способом. Более точно, следует использовать линейную интерполяцию. Однако в нижеприведенном примере вместо этого используется ближайшая точка.

То есть

[i]= 0[nint{128i/L)], где 1 i L.

В уравнении величина nint(X) представляет собой функцию, которая возвращает ближайшее значение к X.

Что касается Н, то величины h(1), h(2),….h(L) находятся аналогичным способом. То есть

В качестве другого примера, сначала находят H(z) W(z), и затем находят амплитудно-частотную характеристику для снижения кратности БПФ. То есть знаменатель уравнения

раскрывается следующим образом:

256-точечные данные, например, создаются путем использования последовательности 1, 1, 2,… , 2p, 0, 0,… ,0. Затем выполняется 256-точечное БПФ с частотной характеристикой амплитуды, равной

где 0 i 128. Отсюда

где 0 1 128. Этот расчет производится для каждой из соответствующих точек L-мерного вектора. Если количество точек БПФ небольшое, следует использовать линейную интерполяцию. Однако ближайшее значение в данном случае определяется с помощью выражения:

где 1 i L. Если матрица, имеющая эти значения в качестве диагональных элементов, является W’ то

Формула (26) представляет собой такую же матрицу, как и матрица, представленная выше выражением (24).

В качестве альтернативы, из уравнения (25) можно непосредственно рассчитать выражение Н(ехр(j ))W(ехр(j )) относительно i , где 1 i L), чтобы его можно было использовать для wh[i].

В качестве альтернативы, можно из уравнения (25) найти импульсную характеристику подходящей длины, например 40 точек, и к найденной амплитудно-частотной характеристике, амплитуда которой используется, применить БПФ.

Ниже приводится описание способа снижения объема обработки при вычислениях характеристик перцепционно взвешивающего фильтра и фильтра синтеза КЛП.

Выражение H(z) W (z) в уравнении (25) представляет собой Q(z), то есть

для того, чтобы найти импульсную характеристику величины Q(z), которая установлена для q(n), с 0 n Limp, где Limp – длина импульсной характеристики и, например, Limp=40.

В настоящем варианте осуществления изобретения, поскольку Р=10, выражение (a1) представляет фильтр с импульсной характеристикой бесконечной длительности (ИХБД) 20-го порядка, имеющей 30 коэффициентов. Принимая приблизительно imp 3Р=1200 операций суммы произведений, можно найти Limp выборок импульсной характеристики q(n) выражения (a1). Подставляя 0 в q(n), получим q'(n), где 0 n 2m. Если, например, m=7, 2m-Limp=128-40=88, для получения q’(n) к q(n) добавляются 0 (0-заполнение).

Это значение q1(n) подвергается БПФ при 2m(=128 точек). Действительная и мнимая части результата БПФ (быстрого преобразования Фурье) представляют собой re[i] и im[i] соответственно, где 0 is 2m-1. Отсюда получим

Это является амплитудно-частотной характеристикой Q(z), представляемой 2m-1 точками. С помощью линейной интерполяции соседних значений rm[i] амплитудно-частотная характеристика отображается 2m точками. Хотя вместо линейной интерполяции можно использовать интерполяцию более высокого порядка, объем обработки, соответственно, увеличится. Если полученная с помощью такой интерполяции матрица является wlpc[i], где 0 i 2m.

Это дает wlpc[i], где 0 i 2m-1.

Отсюда можно вывести wh[i] следующим образом

где nint(х) представляет собой функцию, которая возвращает ближайшее целое число к х. Это показывает, что с помощью выполнения одной 128-точечной операции БПФ можно найти W’ выражения (26) путем выполнения одной 128-точечной операции БПФ.

Объем обработки, требуемый для N-точечного БПФ, в общем составляет (N/2)log2N умножения комплексных чисел и Nlog2N сложения комплексных чисел, что эквивалентно (N/2)log2N 4 умножениям действительных чисел и Nlog2N 2 сложениям действительных чисел.

С помощью этого способа объем операций суммирования произведений для нахождения вышеупомянутой импульсной характеристики q (n) составляет 1200. С другой стороны, объем обработки БПФ для N=27=128 равен примерно 128/2 7 4=1792 и 128 7 2=1792. Если число суммирования произведений равно одному, объем преобразований составляет приблизительно 1792. Что касается обработки в соответствии с выражением (а2), то операция суммирования квадратов, объем преобразований которой составляет примерно 3, и операция извлечения квадратного корня, объем операции которой составляет приблизительно 50, выполняются 2m-1=26=64 раза, так что объем операции для выражения (а2) составляет

64 (3+50)=3392.

С другой стороны, интерполяция выражения (а4) представляет порядка 64 2=128.

Таким образом, в общей сумме объем преобразований равен 1200+1792+3392+128=6512.

Поскольку в структуре W’TW используется матрица W весовых коэффициентов, можно найти только rm2[i] и использовать без извлечения квадратного корня. В этом случае вышеприведенные выражения (а3) и (а4) выполняются для rm2[i] вместо rm[i], тогда как посредством вышеприведенного выражения (а5) находится не wh[i], a wh2[i]. Объем обработки для нахождения rm2[i] в этом случае составляет 192, так что в общей сумме объем преобразования становится равным 1200+1792+192+128=3312.

Если проводить преобразование выражения (25) непосредственно в выражение (26), общая сумма преобразований составляет порядка 2160. То есть выполняется 256-точечное БПФ для числителя и знаменателя выражения (25). Это 256-точечное БПФ представляет собой порядка 256/2 8 4=4096. С другой стороны, преобразование для wh0[i] включает в себя две операции суммирования квадратов, каждая из которых имеет объем преобразований 3, деление, имеющее объем обработки приблизительно 25, и операции суммирования квадратов с объемом обработки приблизительно 50. Если вычисление квадратного корня опущено, как это было описано выше, объем обработки составляет порядка 128 (3+3+25)=3968. Таким образом, в общей сумме объем обработки равен 4096 2+3968=12160.

Таким образом, если вышеуказанное выражение (25) вычислять непосредственно для нахождения wh20[i] вместо wh0[i], то потребуется объем преобразований порядка 12160, тогда как если выполнять расчеты выражений (а1)-(а5), объем преобразований потребуется приблизительно 3312, что означает, что объем преобразований можно снизить до одной четвертой части. Процесс вычисления весовых коэффициентов с уменьшенным объемом преобразований можно суммировать, как показано на схеме программы фиг.9.

Рассмотрим фиг.9, на которой на первом этапе S91 выводится вышеупомянутое выражение (а1) весовой передаточной функции, а на следующем этапе S92 выводится импульсная характеристика выражения (а1). После 0-добавлений (0-заполнение) к этой импульсной характеристике на этапе S93 на этапе S94 производится БПФ (быстрое преобразование Фурье). Если выведена импульсная характеристика, равная по длине показателю степени 2, БПФ можно выполнять непосредственно, без заполнения 0. На следующем этапе S95 находятся частотные характеристики амплитуды или квадрат амплитуды. На следующем этапе S96 выполняется линейная интерполяция для увеличения точек амплитудно-частотных характеристик.

Эти вычисления, предназначенные для уточнения векторно-квантования с взвешиванием, можно применять не только для кодирования речевого сигнала, но также для кодирования акустических сигналов, таких как звуковые сигналы. То есть при кодировании речевые или звуковые сигналы представлены коэффициентами ДПФ коэффициентами ДКП или коэффициентами модифицированного ДКП в качестве параметров частотных областей или параметров, получаемых из этих параметров, типа амплитуд гармоник или амплитуд гармоник остатков КЛП, параметры можно квантовать путем векторного квантования с взвешиванием посредством преобразования БПФ импульсной характеристики весовой передаточной функции или импульсной характеристики, частично прерываемой и заполняемой 0, и вычисления весового коэффициента на основании результатов БПФ. В данном случае предпочтительно, чтобы после преобразования БПФ весовой импульсной характеристики сами коэффициенты БПФ (re, im), где rе и im представляют действительную и мнимую части коэффициентов, соответственно rе2+im2 или (rе2+im2)1/2, были интерполированы и использованы в качестве весовых коэффициентов.

Если переписать выражение (21), используя матрицу W’ из вышеприведенного выражения (26), то есть амплитудно-частотной характеристики синтезирующего фильтра с взвешиванием, получим

Рассмотрим способ обучения кодового словаря формы и кодового словаря усиления.

Ожидаемая величина искажения минимизируется для всех кадров к, для которых выбирается вектор кода sOc для кодового словаря СВ0. Если имеется М таких кадров, то оказывается достаточным, если минимизируется

В выражении (28) Wk, xk, gк и Sik обозначают взвешивание для к-го кадра, входной сигнал для к-го кадра, коэффициент усиления к-го кадра и выходной сигнал кодового словаря СВ1 для к-го кадра соответственно.

Для минимизации выражения (28)

Следовательно,

так что

где () обозначает обратную матрицу, а WkT обозначает транспонированную матрицу Wk’.

Далее, рассмотрим оптимизацию коэффициента усиления. Ожидаемая величина искажения относительно к-го кадра, выбирающего кодовое слово q с коэффициента усиления, определяется выражением

Решая это уравнение,

получим

и

Представленные выше выражения (31) и (32) дают оптимальные центроидные условия для формы s0i, s1i, и усиление g1 для 0 i 31, 0 j 31 и 0 l 31, то есть оптимальный выходной сигнал декодирующего устройства. Между тем, s1i можно найти тем же способом, как и s0i.

Рассмотрим оптимальные условия кодирования, то есть ближайшие граничные условия.

Представленное выше выражение (27) для нахождения меры искажения, то есть s0i и s1i, минимизирующие выражение находятся каждый раз, когда задаются входная величина х и весовая матрица W’, то есть на покадровой основе.

По существу, Е находят способом алгоритма кругового обслуживания для всех комбинаций gl (0 l 31), s0i (0 i 31) и s0j (0 j 31), то есть 32 32 32=32768, с целью нахождения набора s0i, s1i, который дает минимальное значение Е. Однако, поскольку это требует объемных вычислений, форму коэффициента усиления в настоящем варианте осуществления изобретения определяют по существу методом поиска. Между тем, поиск методом кругового обслуживания используется для комбинации 0i и s1i. Имеется 32 32=1024 комбинации для s0i и s1i. В следующем описании для простоты s1i+s1j обозначают как sm.

Вышеприведенное выражение (27) преобразуется в Если для дальнейшего упрощения обозначить х=W’x и sw=W’sm, то получим

Следовательно, если gl можно сделать достаточно точным, поиск можно провести в два этапа:

1) поиск sw, который максимизирует

и (2) поиск gl, который является ближайшим к

Если вышеприведенные значения переписать, используя первоначальное обозначение, то получим

(1)’ поиск проводится для набора s0i и s1i, которые максимизируют

и (2)’ поиск проводится для g1, который является ближайшим к

Вышеприведенное уравнение (35) представляет оптимальное условие кодирования (ближайшее граничное условие).

Используя условия (центроидные условия) выражений (31) и (32) и условие выражения (35), кодовые словари (СВ0, СВ1 и СВg) можно обучать одновременно с использованием так называемого обобщенного алгоритма Ллойда (ОАЛ).

В настоящем варианте осуществления изобретения в качестве W’ используется W’, деленное на норму входного сигнала х. То есть в уравнения (31), (32) и (35) вместо W’ подставляется W’||x||.

В качестве альтернативы, взвешивание W’, используемое для перцепционного взвешивания во время векторного квантования с помощью векторного квантователя 116, определяется вышеприведенным уравнением (26). Однако взвешивание W’, учитывающее временное маскирование, можно также найти путем нахождения текущего взвешивания W’, при котором учитывается прошедший W’.

Значения wh(1), wh(2),… , wh(L) в приведенном выше уравнении (26), обнаруживаемые в момент времени n, то есть в n-ном кадре, обозначены величинами whn(1), whn(2),… , whn(L) соответственно.

Если весовые коэффициенты в момент времени n, учитывающие прошлое значение, определяются как Аn(i), где

1 i L,

An(i)= An-1(i)+(1- )whn(i), (whn(i) An-1(i))=whn(i), (whn(i)>An-1(i))

где можно установить равной, например, =0,2. В уравнении An(i), при 1 i L, найденную таким образом матрицу, имеющую такие An(i) в качестве диагональных элементов, можно использовать в качестве вышеупомянутого взвешивания.

Значения индекса формы s0i, s1j, полученные таким способом посредством векторного квантования с взвешиванием, выводятся на выходные клеммы 520, 522 соответственно, тогда как индекс усиления gl поступает на выходную клемму 521. Кроме того, квантованное значение x0 выводится на выходную клемму 504, в то же время поступая в суммирующее устройство 505.

Суммирующее устройство 505 вычитает квантованное значение из вектора спектральной огибающей х с целью генерирования вектора погрешности квантования y. В частности, этот вектор погрешности квантования y поступает в блок 511 векторного квантования с тем, чтобы подвергнуться размерному разделению и квантованию векторными квантователями 5111-5118 векторным квантованием с взвешиванием.

Второй блок 510 векторного квантования использует большее количество двоичных разрядов, чем первый блок 500 векторного квантования. Следовательно, объем памяти кодового словаря и объем обработки (уровень сложности) для поиска кодового словаря значительно увеличены. Таким образом, становится невозможным осуществлять 44-мерное векторное квантование, которое происходит таким же образом, как в первом блоке 500 векторного квантования. Поэтому блок 511 векторного квантования во втором блоке 510 векторного квантования состоит из множества векторных квантователей, а входные квантованные значения размерно разделяются на множество векторов низкой размерности для выполнения векторного квантования с взвешиванием.

Соотношение между квантованными значениями y0-y7, используемыми в векторных квантователях 5111-5118, количество размерностей и количество двоичных разрядов показаны в нижеприведенной таблице 2.

Значения индекса Idvq0-Idvq7, выводимые с векторных квантователей 5111-5118, поступают на выходные клеммы 5231-5238. Сумма двоичных разрядов этих индексных данных равна 72.

Если значение, полученное посредством подачи выходных квантованных значений y0’-y7’ векторных квантователей 5111-5118 в размерном направлении, представляет собой y’, квантованные значения y’ и x0’, суммируются суммирующим устройством 513 для получения квантованного значения x1’. Следовательно, квантованное значение x1’ представляется следующим образом:

x1’=x0’+y’

=x-y+y’

То есть окончательный вектор погрешности квантования равен y’-y.

Если необходимо декодировать квантованное значение x1’ со второго векторного квантователя 510, устройство декодирования речевого сигнала не нуждается в квантованном значении x1 с первого блока 500 квантования. Однако есть необходимость в индексных данных с первого блока 500 квантования и второго блока 510 квантования.

Теперь будет описан способ обучения и поиск кодового словаря в секции 511 векторного квантования.

Что касается способа обучения, то вектор погрешности квантования y делится на восемь векторов низкой размерности 0-y7 с использованием весового коэффициента W’, как показано в таблице 2. Если весовой коэффициент W’ является матрицей, имеющей 44-точечные субдискретизированные значения в качестве диагональных элементов:

где весовой коэффициент W’ разделяется на следующие восемь матриц:

y и W’, разделенные таким образом на низкие размерности, обозначаются yi и Wi’ где 1 i 8, соответственно.

Мера искажения Е определяется выражением

Вектор кодового словаря s представляет собой результат квантования yi. Осуществляется поиск такого кодового вектора кодового словаря, минимизирующего меру искажения Е.

При обучении кодового словаря выполняется дополнительное взвешивание, используя обобщенный алгоритм Ллойда (ОАЛ). Сначала приведем объяснение оптимального центроидного условия для обучения. Если имеется М входных векторов y, которые имеют выбранный кодовый вектор s в качестве оптимальных результатов квантования, и данные обучения представляют собой yк, то ожидаемая величина искажения J задается уравнением (38), минимизирующим центр искажения при взвешивании относительно всех кадров к:

Решая уравнение

получим

Проведя перестановку величин обеих сторон, получим

Следовательно,

В представленном выше выражении (39) s является оптимальным показательным вектором и отображает оптимальное центроидное условие.

Что касается оптимальных условий кодирования, достаточно провести поиск s, минимизирующего величину

W’i во время поиска не обязательно должен быть таким же, как Wi’ во время обучения и может быть невзвешенной матрицей:

Составляя блок 116 векторного квантования в кодирующем устройстве речевого сигнала из двухкаскадных блоков векторного квантования, становится возможным воспроизводить ряд выходных переменных индексных двоичных разрядов.

Второй блок 120 кодирования, в котором используется вышеупомянутая схема кодирующего устройства ЛПКВ (линейное предсказание кодового возбуждения), соответствующая настоящему изобретению, состоит из многокаскадных процессоров векторного квантования, как показано на фиг.10. Эти многокаскадные процессоры векторного квантования собраны в виде двухкаскадных кодирующих блоков 1201, 1202 в показанном на фиг.10 варианте осущетвления, в котором изображено устройство, предназначенное для работы со скоростью передачи в битах, равной 6 килобайт в секунду в случае, когда скорость передачи двоичных разрядов может переключаться между, например, 2 килобайтами в секунду и 6 килобайтами в секунду. Кроме того, выходной сигнал индекса формы и усиления можно переключать между 23 битами /5 мс и 15 битами/ 5 мс. На фиг.1 показан ход обработки в изображенном на фиг.10 устройстве.

Рассмотрим фиг.10, на которой первый блок 300 кодирования фиг.10 эквивалентен первому блоку 113 кодирования фиг.3, схема 302 анализа КЛП фиг.10 соответствует схеме 132 анализа КЛП, показанной на фиг.3, тогда как схема 303 квантования параметров ЛСП соответствует конструкции схемы 137 преобразования в ЛСП в схеме 133 преобразования ЛСП в фиг.3, а перцепционно взвешивающий фильтр 304 фиг.10 соответствует схеме 139 вычисления перцепционно взвешивающего фильтра и перцепционно взвешивающему фильтру 125 фиг.3. Следовательно, на фиг.10 выходной сигнал, который такой же, как выходной сигнал схемы 137 преобразования ЛСП в первого блока 113 кодирования фиг.3, подается на клемму 305, в то время как выходной сигнал, который такой же, как выходной сигнал схемы 139 вычисления перцепционно взвешивающего фильтра на фиг.3, подается на клемму 307, а выходной сигнал, который является таким же, как выходной сигнал перцепционно взвешивающего фильтра 125 фиг.3, подается на клемму 306. Однако в отличие от перцепционно взвешивающего фильтра 125 перцепционно взвешивающий фильтр 304 фиг.10 вырабатывает перцепционно взвешенный сигнал, то есть такой же сигнал, как выходной сигнал перцепционно взвешивающего фильтра 125 фиг.3, используя входные речевые данные и -параметр предварительного квантования вместо использования выходного сигнала схемы 137 преобразования ЛСП в .

В двухкаскадных вторых блоках кодирования 1201 и 1202, показанных на фиг.10, вычитающие устройства 313 и 323 соответствуют вычитающему устройству 123 на фиг.3, тогда как схемы 314, 324 расчета расстояния соответствуют схеме расчета расстояния 124 фиг.3. Кроме того, схемы усиления 311, 321 соответствуют схеме усиления 126 фиг.3, тогда как стохастические кодовые словари 310, 320 и кодовые словари коэффициента усиления 315, 325 соответствуют шумовому кодовому словарю 121 фиг.3.

В конструкции фиг.10 схема 302 анализа КЛП на этапе S1 фиг.10 разделяет входные речевые данные х, поступающие с клеммы 301, на кадры, как было описано выше, для выполнения анализа КЛП с целью нахождения -параметра. Схема 303 квантования параметров ЛСП преобразует -параметр со схемы 302 анализа КЛП в параметры ЛСП для квантования параметров ЛСП. Квантованные параметры ЛСП интерполируются и преобразуются в -параметры. Схема 303 квантования параметров ЛСП формирует функцию 1/Н (z) фильтра синтеза КЛП из -параметров, преобразованных из квантованных параметров ЛСП, то есть квантованные параметры ЛСП, и посылает сформированную функцию 1/Н (z) фильтра синтеза КЛП на фильтр 312 с перцепционным взвешиванием первого каскада второго блока 1201 кодирования через клемму 305.

Перцепционный взвешивающий фильтр 304 находит данные для перцепционного взвешивания, которые являются такими же, как данные, полученные схемой 139 вычисления перцепционного взвешивающего фильтра фиг.3, из -параметра со схемы 305 анализа КЛП, то есть -параметры предварительного квантования. Эти данные взвешивания подаются через клемму 307 в перцепционно взвешивающий синтезирующий фильтр 312 второго блока 1201 кодирования первого каскада. Перцепционный взвешивающий фильтр 304 вырабатывает перцепционно взвешенный сигнал, который является таким же сигналом, как сигнал, выдаваемый перцепционно взвешивающим фильтром 125 фиг.3, из входных речевых данных и -параметра предварительного квантования, как показано на этапе S2 фиг.10. То есть функция W(z) фильтра синтеза КЛП является первой, вырабатываемой из -параметра предварительного квантования. Вырабатываемая таким образом функция фильтра W(z) применяется для входных речевых данных х с целью вырабатывания хw, который подается в качестве перцепционно взвешенного сигнала через клемму 306 в вычитающее устройство 313 второго блока 1201 кодирования первого каскада. Во втором блоке 1201 кодирования первого каскада характерное выходное значение стохастического кодового словаря 310 9-разрядного выходного сигнала индекса формы подается в схему усиления 311, которая затем перемножает характерный выходной сигнал из стохастического кодового словаря 310 с коэффициентом усиления (скалярная величина) из кодового словаря усиления 315 6-разрядного выходного сигнала индекса усиления. Характерное выходное значение, умноженное на коэффициент усиления в схеме усиления 311, подается на фильтр синтеза 312 с перцепционным взвешиванием с 1/A(z)=(1/Н(z))*W(z)). Взвешивающий синтезирующий фильтр 312 посылает выходной сигнал отклика при отсутствии входного сигнала 1/А (z) на вычитающее устройство 313, как показано на этапе S3 фиг.11. Вычитающее устройство 313 выполняет вычитание между выходным сигналом отклика при отсутствии входного сигнала фильтра 312 синтеза с перцепционным взвешиванием и сигналом с перцепционным взвешиванием xw из перцепционного взвешивающего фильтра 304, и получающаяся разность или погрешность выводится в качестве опорного вектора r. Во время поиска во втором блоке 1201 кодирования первого каскада этот опорный вектор r подается на схему 314 оценки расстояния, где вычисляется расстояние и производится поиск вектора формы s и коэффициента усиления g, минимизирующих энергию погрешности квантования Е, как показано на этапе s4 фиг.11. Здесь 1/А(z) представлено в состоянии “0”. То есть, если вектор формы S в кодовом словаре, синтезированный с помощью 1/А(z) в состоянии “0”, представляет собой ssyn, осуществляется поиск вектора формы s и коэффициента усиления g, минимизирующих уравнение

Хотя можно произвести полный поиск s и g, минимизирующих энергию ошибки квантования Е, для снижения объема вычислений можно использовать следующий метод.

Первый способ заключается в поиске вектора формы s, минимизирующего Еs, определяемого следующим уравнением:

По s, полученному первым способом, определяется идеальное усиление, как показано уравнением

Следовательно, в качестве второго способа осуществляется поиск такого g, минимизирующего уравнение

Поскольку Е является квадратичной функцией от g, такой коэффициент усиления g, минимизирующий Еg, минимизирует Е.

По s и g, полученным первым и вторым способом, можно вычислить вектор погрешности квантования e с помощью следующего уравнения

Это выражение квантуется во втором блоке 1202 кодирования второго каскада, как в первом каскаде.

То есть сигнал, подаваемый на выводы 305 и 307, непосредственно поступает из фильтра 312 синтеза с перцепционным взвешиванием второго блока 1201 кодирования первого каскада на фильтр 322 синтеза с перцепционным взвешиванием второго блока 1202 кодирования второго каскада. Вектор погрешности квантования _ е, найденный с помощью второго блока 1201 кодирования первого каскада, поступает в вычитающее устройство 323 второго блока кодирования 1202 второго каскада.

На этапе s5 фиг.11 происходит обработка, аналогичная обработке, выполняемой на первой стадии во втором блоке кодирования 1202 второго каскада. То есть характерное выходное значение из стохастического кодового словаря 320 5-разрядного выходного сигнала индекса формы подается в схему усиления 321, где это выходное значение из кодового словаря 320 умножается на коэффициент усиления из кодового словаря 325 усиления 3-разрядного выходного сигнала индекса усиления. Выходной сигнал взвешивающего синтезирующего фильтра 322 подается на вычитающее устройство 323, где находится разность между выходным сигналом фильтра 322 синтеза с перцепционным взвешиванием и вектором е погрешности квантования первого каскада. Эта разность подается на схему 324 оценки расстояния для расчета расстояния с целью поиска вектора формы s и коэффициента усиления g, минимизирующих энергию погрешности квантования Е.

Выходной сигнал индекса формы стохастического кодового словаря 310 и выходной сигнал индекса усиления кодового словаря 315 коэффициента усиления второго блока кодирования 1201 первого каскада и выходной сигнал индекса стохастического кодового словаря 320 и выходной сигнал индекса кодового словаря 325 коэффициента усиления второго блока кодирования 1202 второго каскада подаются на схему 330 коммутации выходного сигнала индекса. Если 23 двоичных разрядов выводятся со второго блока кодирования 120, данные индекса стохастических кодовых словарей 310, 320 и кодовых словарей 315, 325 коэффициентов усиления вторых блоков кодирования 1201, 1202 первого каскада и второго каскада суммируются и выводятся. Если выводятся 15 двоичных разрядов, выводятся данные индекса стохастического кодового словаря 310 и кодового словаря 315 коэффициента усиления второго блока кодирования 1201 первого каскада.

Затем состояние фильтра корректируется для вычисления выходного сигнала отклика при отсутствии входного сигнала, как показано на этапе s6.

В настоящем варианте осуществления изобретения количество двоичных разрядов индекса второго блока кодирования 1202 второго каскада достигает 5 для вектора формы, в то время как для коэффициента усиления оно достигает 3. Если подходящие форма и коэффициент усиления отсутствуют в данном случае в кодовом словаре, погрешность квантования, вероятно, возрастет вместо уменьшения.

Хотя в коэффициенте усиления можно обеспечить 0 для предотвращения такой проблемы, имеется только три двоичных разряда для коэффициента усиления. Если один из них установить на 0, эффективность квантователя значительно ухудшится. При таком соображении для вектора формы обеспечен вектор всех 0, для которого назначено большее количество двоичных разрядов. Выполняется вышеупомянутый поиск, за исключением вектора всех нулей, а вектор всех нулей выбирается в том случае, если в конечном итоге увеличивается погрешность квантования. Коэффициент усиления является произвольным. Это дает возможность предотвратить возрастание погрешности квантования во втором блоке кодирования 1202 второго каскада.

Хотя выше была описана двухкаскадная конструкция, количество каскадов может быть больше 2. В этом случае, если векторное квантование путем поиска замкнутым циклом первого каскада стало хорошим, квантование N-го каскада, где 2 N, осуществляется с погрешностью квантования (N-1)-го каскада в качестве опорного входного сигнала, и погрешность квантования N-го каскада используется в качестве опорного входного сигнала для (N+1)-го каскада.

На фиг.10 и 11 видно, что благодаря использованию многокаскадных векторных квантователей для второго блока кодирования объем вычислений снижается по сравнению с объемом при использовании прямого векторного квантования с тем же количеством двоичных разрядов или при использовании сопряженного кодового словаря. В частности, при кодировании ЛПКВ (линейное предсказание кодового возбуждения), при котором осуществляется векторное квантование временного сигнала с использованием поиска в замкнутом контуре методом анализа через синтез, критическим является меньшее количество операций поиска. Кроме того, можно легко переключать количество двоичных разрядов путем перехода с использования обоих выходных сигналов индекса двухкаскадных вторых блоков кодирования 1201, 1202 на использование только выходного сигнала второго блока кодирования 1201 первого каскада без использования выходного сигнала второго блока кодирования 1201 второго каскада. При объединении и выдаче на выход выходных сигналов индексов вторых блоков кодирования 1201, 1202 первого каскада и второго каскада декодирующее устройство может без затруднений обеспечить выбор одного из выходных сигналов индексов. То есть декодирующее устройство может осуществить это путем декодирования параметра, кодированного, например, со скоростью 6 килобайтов в секунду, используя декодирующее устройство, функционирующее со скоростью 2 килобайта в секунду. Кроме того, если в кодовом словаре формы второго блока кодирования 1202 второго каскада содержится нулевой вектор, становится возможным предотвратить увеличение погрешности квантования с меньшим ухудшением характеристики, чем если к коэффициенту усиления добавляется 0.

Кодовый вектор стохастического кодового словаря (вектор формы) можно формировать, например, следующим способом.

Кодовый вектор стохастического кодового словаря можно формировать, например, путем ограничения гауссова шума. В частности, кодовый словарь можно вырабатывать путем генерирования гауссова шума, ограничения гауссова шума соответствующим пороговым значением и нормированием ограниченного гауссова шума.

Однако существует множество типов речевых сигналов. Например, гауссов шум может быть использован в случае речевого сигнала из согласных звуков, близких к шуму, таких как “sа (са), shi (ши), su (су), se (се) и so (со)”, однако использование гауссова шума будет неэффективным в случае речевого сигнала с резким повышением согласных звуков, типа “ра (па), pi (пи), рu (пу), ре (пе) и ро (по)”.

В соответствии с настоящим изобретением, гауссов шум применим к некоторым из кодовых векторов, тогда как другая часть кодовых векторов должна применяться с обучением, чтобы можно было обрабатывать оба типа согласных звуков, как имеющих резко возрастающие согласные звуки, так и согласные звуки, близкие к шуму. Если, например, увеличивается пороговое значение, получается такой вектор, который имеет несколько большие пиковые значения, тогда как если уменьшается пороговое значение, кодовый вектор оказывается близким к гауссову шуму. Таким образом, путем увеличения изменений ограничивающего порогового уровня становится возможным обрабатывать согласные звуки, имеющие резко возрастающие участки, типа “ра, pi, рu, ре и ро (па, пи, пу, пе и по)”, или согласные звуки, близкие к шуму, типа “sа, shi, su, se и so (са, ши, су, се и со)”, тем самым повышая четкость речи. На фиг.12 показан вид гауссова шума и ограниченный шум сплошной линией и пунктирной линией соответственно. Фиг.12А и 12В изображают шум с ограничивающим пороговым значением, равным 1,0, то есть с большим пороговым значением, и шум с ограничивающим пороговым значением, равным 0,4, то есть с меньшим пороговым значением. На фиг.12А и 12В видно, что если пороговое значение выбирается больше, получается вектор, имеющий несколько большие пиковые значения, тогда как если пороговое значение выбирается меньшей величины, шум приближается к гауссову шуму.

Для реализации этого, подготавливается исходный кодовый словарь путем ограничения гауссова шума и устанавливается подходящее количество необучающих кодовых векторов.

Необучающие кодовые векторы выбирают с целью увеличения значения дисперсии для обеспечения обработки согласных звуков, близких к шуму, типа “sa, shi, su, se, и so (са, ши, су, се и со)”. Векторы, найденные путем обучения, используют для обучения алгоритм LBG. Кодирование при ближайших граничных условиях использует как фиксированный кодовый вектор, так и кодовый вектор, полученный при обучении. При центроидных условиях обновляется только кодовый вектор, подлежащий обучению. Тем самым, подлежащий обучению кодовый вектор может обеспечить обработку согласных звуков с резким подъемом типа “ра, pi, pu, ре и ро (па, пи, пу, пе и по)”.

Оптимальный коэффициент усиления может быть получен для этих кодовых векторов с помощью обычного обучения.

Фиг.13 изображает схему алгоритма, предназначенного для построения кодового словаря путем ограничения гауссова шума.

На фиг.13 на этапе s10 количество циклов обучения n установлено на n=0 для инициализации. При погрешности Do= устанавливается максимальное число циклов обучения и устанавливается пороговое значение , устанавливающее условия окончания обучения.

На следующем этапе s11 вырабатывается исходный кодовый словарь путем ограничения гауссова шума. На этапе s12 часть кодовых векторов фиксируется как необучающие кодовые векторы.

На следующем этапе s13 осуществляется кодирование звука вышеупомянутым кодовым словарем. На этапе s14 оценивается погрешность. На этапе s15 проводится оценка, обеспечено ли (Dn-1-Dn)/Dn< , или n=nmax. Если результат оказывается положительным (ДА), обработка заканчивается. Если результат оказывается отрицательным (НЕТ), обработка переходит к этапу s16.

На этапе s16 обрабатываются кодовые векторы, не используемые для кодирования. На следующем этапе s17 осуществляется обучение кодовых словарей. На этапе s18 число циклов обучения получает приращение перед возвратом к этапу s13.

Приведем описание конкретного примера блока 115 распознавания вокализированного – невокализированного (В-НВ) речевого сигнала в показанном на фиг.3 устройстве кодирования речевого сигнала.

Блок 115 распознавания В-НВ осуществляет распознавание В-НВ рассматриваемого кадра на основании выходного сигнала схемы 145 ортогонального преобразования, оптимального основного тона с блока 146 поиска основного тона высокой точности, спектральных амплитудных данных с блока 148 спектральной огибающей, максимального нормированного значения автокорреляции r(p) с блока 141 поиска основного тона в разомкнутом контуре и величины счета пересечений нулевого уровня со счетного устройства 412 пересечений нулевого уровня. В качестве одного из условий для рассматриваемого кадра используется также граничное положение основанных на полосе результатов принятия решения В-НВ, аналогичное используемому для метода МДВ.

Теперь рассмотрим условие для распознавания В-НВ в случае МДВ с использованием результатов диапазонного распознавания В-НВ.

Параметр или амплитуду представляющую модуль m гармоник в случае МДВ, можно представить следующим образом:

В этом уравнении является спектром, получаемым из подвергнутых ДПФ остатков КЛП, a является спектром основного сигнала, в частности 256-точечной взвешивающей функции Хэмминга, тогда как аm, bm являются нижним и верхним предельными значениями, представляемыми индексом j, частоты, соответствующей m-ой полосе, соответствующей, в свою очередь, m-ым гармоникам. Для основанного на полосе распознавания В-НВ используется отношение шум-сигнал (ш/с). Для m-ой полосы ш/с определяется выражением:

Если величина ш/с больше, чем вновь установленный порог, такой как 0,3, то есть если погрешность больше, можно считать, что аппроксимация к в рассматриваемой полосе нехорошая, то есть что сигнал возбуждения не подходит в качестве базового. Таким образом, рассматриваемая полоса определяется как невокализированная (НВ). В противном случае можно считать, что аппроксимация проведена довольно хорошо и, следовательно, полосу можно определить вокализированной (В).

Следует отметить, что отношения ш/с соответствующих полос (гармоник) представляют сходство между собой одних гармоник по отношению к другим. Сумма гармоник с взвешенным усилением для отношения ш/с определяется величиной ш/сall следующим образом:

Критерий, используемый для распознавания В-НВ, определяется в зависимости от того, является ли это спектральное подобие ш/сall больше или меньше, чем некоторое пороговое значение. Этот порог здесь установлен равным Thш/с=0,3. Этот критерий учитывает максимальную величину автокорреляции остатков КЛП, энергии кадра и пересечения нулевого уровня. В случае, когда критерий используется для ш/сall<Тhш/с, рассматриваемый кадр становится В и НВ, если правило применяется и если правило не применимо соответственно.

Указанное правило выражается следующим образом:

Для ш/сall<ТНш/с.

Если число нулей ХР<24, энергия кадра >340 и r0>0,32, то рассматриваемый кадр является В (вокализированным).

Для ш/сall THш/с.

Если число нулей ХР>30, энергия кадра <900 и r0>0,23, то исследуемый кадр является НВ (невокализированным);

где соответствующие переменные определены следующим образом:

число нулей ХР – количество пересечений нулевого уровня на кадр;

r0 – максимальная величина автокорреляции.

Для распознавания В-НВ целесообразно использовать набор установленных правил, типа вышеописанных.

Далее приводится более подробное описание структуры основных элементов и работа показанного на фиг.4 устройства декодирования речевого сигнала.

Фильтр 214 синтеза КЛП разделен на синтезирующий фильтр 236 для вокализированного речевого сигнала (В) и синтезирующий фильтр 237 для невокализированного речевого сигнала (НВ), как описывалось выше. Если кодирование КЛП непрерывно интерполируются каждые 20 выборок, то есть каждые 2,5 мс, без разделения синтезирующего фильтра, без выполнения различия В-НВ, кодирования КЛП полностью различных свойств интерполируются на переходных участках от В к НВ или от НВ к В. В результате этого КЛП НВ и В используются в качестве остатков В и НВ соответственно, так что имеется тенденция создания странного звука. Для предотвращения появления таких плохих эффектов синтезирующий КЛП фильтр разделен на В и НВ, и интерполяция коэффициентов КЛП выполняется независимо для В и НВ.

Теперь будет описан способ, предназначенный для интерполяции коэффициентов фильтров КЛП 236, 237 в этом случае. В частности, интерполяция ЛСП переключается в зависимости от состояния В-НВ, как показано в таблице 3.

Принимая в качестве примера анализ КЛП 10-го порядка, ЛСП равных интервалов представляют собой ЛСП, соответствующие -параметрам для плоских амплитудно-частотных характеристик фильтра и коэффициента усиления, равного единице, то есть 0=1, 1= 2=… = 10=0, при 0 10.

Такой анализ КЛП 10-го порядка, то есть ЛСП 10-го порядка, является ЛСП (линейной спектральной парой), соответствующей совершенно равномерному спектру, с расположением ЛСП через равные интервалы в 11 разнесенных на равные расстояния друг от друга местоположениях между 0 и . В таком случае коэффициент усиления всей полосы синтезирующего фильтра имеет минимальные сквозные характеристики в данный момент времени.

На фиг.15 схематически показан способ изменения коэффициента усиления. В частности, на фиг.15 показано, как изменяются коэффициент усиления 1/НUV(z) (1/НHB(z)) коэффициент усиления 1/HV(z) (1/HB(z)) во время перехода от невокализированного (НВ) участка к вокализированному (В) участку.

Что касается элемента интерполяции, то он составляет 2,5 мс (20 выборок) для скорости передачи двоичных разрядов 2 килобайта в секунду и 5 мс (40 выборок) для скорости передачи двоичных разрядов 6 килобайтов в секунду, соответственно, для коэффициента 1/HUV(Z). Для НВ, поскольку второй блок кодирования 120 осуществляет согласование формы сигнала, используя метод анализа через синтез, интерполяция пар ЛСП соседних В участков может осуществляться без выполнения интерполяции пар ЛСП с равными интервалами. Отметим, что при кодировании НВ части во второй схеме кодирования 120 отклик при отсутствии входного сигнала устанавливается на нуль путем деблокирования внутреннего состояния синтезирующего фильтра 122 с взвешиванием 1/А(Z) на переходном участке от В к НВ.

Выходные сигналы этих синтезирующих КЛП фильтров 236, 237 подаются в соответствующие независимо обеспеченные постфильтры 238u, 238v. Интенсивность и амплитудно-частотную характеристику постфильтров устанавливают на значения, различные для В и НВ, с целью установления интенсивности и амплитудно-частотной характеристики постфильтров на различные значения для В и НВ.

Теперь будет описано взвешивание с использованием финитной функции переходных участков между В и НВ частями разностных сигналов КЛП, то есть возбуждение в качестве входного сигнала фильтра синтеза КЛП. Это взвешивание с использованием финитной функции осуществляется синусоидальной синтезирующей схемой 215 блока 211 синтеза вокализированного речевого сигнала и схемой 223 взвешивания с использованием финитной функции блока 220 синтеза невокализированного речевого сигнала. Способ, предназначенный для синтеза В-части возбуждения, подробно описан в заявке на патент Японии №4-91422, правопреемника настоящей заявки, тогда как способ, предназначенный для быстрого синтеза В-части возбуждения, описан подробно в заявке на патент Японии №6-198451 правопреемника настоящей заявки. В настоящем иллюстративном варианте осуществления изобретения этот способ быстрого синтеза используется для генерирования возбуждения В-части, использующей этот способ быстрого синтеза.

В вокализированной (В) части, в которой выполняется синусоидальный синтез путем интерполирования, используя спектр соседних кадров, можно создавать все формы сигналов между n-ным и (n+1)-ым кадрами. Однако для части сигнала по обеим сторонам В и НВ частей, таких как (n+1)-ый кадр и (n+2)-ой кадр на фиг.16, или для части по обеим сторонам НВ части и В части, часть НВ кодирует и декодирует только данные 80 выборок (в общей сумме 160 выборок равны одному кадровому интервалу). В результате это взвешивание с использованием финитной функции осуществляется за пределами центральной точки СN между соседними кадрами на В-стороне, хотя оно осуществляется относительно центральной точки СN на стороне НВ для перекрытия смежных участков, как показано на фиг.17. Для переходного участка от НВ к В используется обратный процесс. Взвешивание с использованием финитной функции на В-стороне можно также осуществлять, как показано на фиг.17 пунктирной линией.

Далее приводится описание синтеза шума и добавления шума на вокализированной (В) части. Эти операции выполняются с помощью схемы 216 синтеза шума схемы 217 перекрытия и добавления с взвешиванием и суммирующего устройства 218 фиг.4 с помощью добавления к вокализированной части разностного сигнала КЛП шума, который учитывает последующие параметры в связи с воздействием вокализированной части входного сигнала синтезирующего КЛП фильтра.

То есть вышеупомянутые параметры можно перечислить с помощью запаздывания основного тона Pch, спектральной амплитуды Am[i] вокализированного звука, максимальной спектральной амплитуды в кадре Амах и уровня разностного сигнала Lev. Отставание основного тона Pch представляет собой количество выборок в периоде основного тона для заранее установленной частоты выборок fs, например fs=8 кГц, тогда как i в спектральной амплитуде Аm[i] является целым числом, так что 0 i I для количества гармоник в полосе fs/2, равного I=Рсh/2.

Обработка с помощью этой синтезирующей шум схемы 216 осуществляется почти таким же образом, как при синтезе невокализированного звука, например с помощью многодиапазонного возбуждения. Фиг.18 иллюстрирует конкретный вариант осуществления синтезирующей шум схемы 216.

То есть, рассматривая фиг.18, видим, что генератор 401 белого шума выдает гауссов шум, который затем обрабатывается с помощью кратковременного преобразования Фурье (КВПФ) процессором КВПФ 402 с целью создания энергетического спектра шума на частотной оси. Гауссов шум является формой сигнала белого шума во временной области, взвешенной с использованием подходящей финитной функции, такой как взвешивающая функция Хэмминга, имеющего заранее установленную длину, например 256 выборок. Энергетический спектр с процессора КВПФ 402 поступает для обработки амплитуды в устройство умножения 403 для умножения на выходной сигнал схемы 410 управления амплитудой шума. Выходной сигнал устройства умножения 403 поступает в процессор обратного КВПФ 404 (ОКВПФ), где производится обратное кратковременное преобразование Фурье с использованием фазы первоначального белого шума в качестве фазы для преобразования в сигнал временной области. Выходной сигнал процессора ОКВПФ 404 подается в схему 217 перекрытия и суммирования с взвешиванием.

В показанном на фиг.18 варианте осуществления шум временной области генерируется в генераторе 401 белого шума и обрабатывается с помощью ортогонального преобразования, такого как КВПФ, для создания шума частотной области. В качестве альтернативы шум частотной области также можно генерировать непосредственно шумовым генератором. При непосредственном генерировании шума частотной области операции обработки ортогональным преобразованием типа КВПФ или ОКВПФ можно исключить.

В частности, можно использовать способ генерирования случайных чисел в диапазоне х и обработки полученных случайных чисел в качестве действительной и мнимой частей спектра БПФ, способ генерирования положительных случайных чисел, изменяющихся от 0 до максимального числа (макс), и обработки в качестве амплитуды спектра БПФ, или способ генерирования случайных чисел, изменяющихся от – до + , и их обработки в качестве фазы спектра БПФ.

Это представляет возможность исключить процессор КВПФ 402 (фиг.18) для упрощения конструкции или снижения объема вычислений.

Схема 410 управления амплитудой шума имеет основную конструкцию, показанную в качестве примера на фиг.19, и находит амплитуду синтезированного шума Аm_шум [i] путем управления коэффициентом умножения в устройстве умножения 403, основываясь на спектральной амплитуде Am[i] вокализированного звука, поступающего через клемму 411 с квантователя 212 спектральной огибающей фиг.4. То есть на фиг.19 выходной сигнал схемы 416 вычисления оптимальной величины шум_микш (микширование), на которую поступает спектральная амплитуда Am[i] и запаздывание основного тона Pсh, взвешивается с помощью взвешивающей шум схемы 417, а получаемый в результате выходной сигнал подается в умножающее устройство 418 для умножения на спектральную амплитуду Am[i] и формирования амплитуды шума Аm_шум [i]. В качестве первого конкретного варианта осуществления синтеза и добавления шума теперь будет рассмотрен случай, при котором амплитуда шума Аm_шум[i] становится функцией двух из указанных выше четырех параметров, а именно: запаздывания основного тона Рсh и спектральной амплитуды Am[i].

Для этих функций f1 (Pch, Am[i]) справедливо следующее:

f1 (Pch, Am[i])=0, где 0 i Шум_в I,

f1 (Pch, Am[i])=Am[i] шум_микш, где Шум_в I i I, и шум_микш=К Pch /2,0.

Отметим, что максимальное значение шум_макс представляет собой шум_микш_макс, при котором происходит ограничение. В качестве примера возьмем: К=0,02, шум_микш_макс=0,3 и Шум_в=0,7, где Шум__в является постоянной, которая определяет, из какого участка всей полосы следует добавлять этот шум. В настоящем варианте осуществления изобретения шум добавляется в частотном диапазоне выше, чем 70%-положения, то есть если fs=8 кГц, шум добавляется в диапазоне от 4000 0,7=2800 кГц до 4000 кГц.

В качестве второго конкретного варианта осуществления синтезирования и добавления шума рассмотрим вариант, где амплитуда шума Аm шум [i] является функцией f2(Рсh, Am[i], Амакс) трех из четырех параметров, а именно: запаздывания основного тона Рch, спектральной амплитуды Am[i] и максимальной амплитуды спектра Амакс.

Для этих функций f2(Pch, Am[i], Амакс) имеет место следующее:

f2 (Рсh, Am[i], Амакс)=0, где 0 I,

f2 (Pсh), Аm[i], Амакс)=Am[i] шум_микш, где Шум_в I i 1, и

шум_микш=К Рсh/2,0.

Отметим, что максимальное значение шум_микш представляет собой шум_микш_макс; если, например К=0,02, то шум_микш_макс=0,3, и Шум_в=0,7.

Если Am[i] шум_микш>Амакс С шум_микш, то f2(Pсh, Am[i], Амакс)=Амакс С шум_микш, где постоянная С устанавливается равной 0,3. Поскольку это условное уравнение может предотвратить появление чрезвычайно большого уровня, можно дополнительно увеличить вышеупомянутые значения К и шум_микщ_макс, и можно дополнительно увеличить уровень шума, если уровень верхнего диапазона выше.

В качестве третьего конкретного варианта осуществления синтеза и добавления шума вышеупомянутая амплитуда шума Аm_шум [i] может быть функцией всех упомянутых выше четырех параметров, то есть f3(Pch, Am[i], Амакс, Lev).

Заданными параметрами функции f3 (Pch, Am[i], Am макс, Lev) являются по существу аналогичные примеры вышеупомянутой функции f2 (Pch, Am[i], Амакс). Уровень сигнала остатка Lev представляет собой среднеквадратичное значение (СКЗ) спектральных амплитуд Аm[i] или уровень сигнала, измеряемого на временной оси. Отличие от второго конкретного примера заключается в том, что значения К и шум_микш_макс устанавливаются так, чтобы они зависели от Lev. To есть, если Lev оказывается меньше или больше, то значение К и шум_микш_макс устанавливаются на большие или меньшие значения соответственно. В качестве альтернативы величину Lev можно установить так, чтобы она была обратно пропорциональна значениям К и шум_микш_макс.

Теперь рассмотрим постфильтры 238v, 238u.

На фиг.20 показан постфильтр, который можно использовать в качестве постфильтров 238u, 238v в показанном на фиг.4 варианте осуществления. Фильтр формирования спектра 440 в качестве важной части постфильтра состоит из формантного предыскажающего фильтра 441 и предыскажающего фильтра 442 большого диапазона. Выходной сигнал формирующего спектр фильтра 440 поступает в схему 443 регулирования усиления, приспособленную для корректирования изменений усиления, вызываемых формированием спектра. Схема 443 регулирования усиления имеет свой коэффициент усиления G, определяемый схемой 445 управления коэффициентом усиления путем сравнения входного сигнала x с выходным сигналом y формирующего спектр фильтра 440 для вычисления изменений усиления для вычисления значений коррекции.

Если коэффициенты знаменателей Нv(z) и Huv(z) (HB(z) и НHB(z)) синтезирующего КЛП фильтра, то есть ||-параметры, выразить через i, то характеристики PF(z) формирующего спектр фильтра 440 можно выразить уравнением

Дробная часть этого уравнения представляет характеристики формантного предыскажающего фильтра, тогда как часть (1-kz-1) представляет характеристики предыскажающего фильтра большого диапазона. Величины , и к – постоянные, такие, например, как =0,6, =0,8, к=0,3.

Коэффициент усиления схемы 443 регулирования усиления определяется уравнением

В приведенном выше уравнении x(i) и y(i) представляют входной и выходной сигналы формирующего спектр фильтра 440 соответственно.

Следует отметить, что, хотя период корректирования коэффициентов формирующего спектр фильтра 440 составляет 20 выборок, или 2,5 мс, как в случае периода корректирования для -параметра, который является коэффициентом синтезирующего КЛП фильтра, период корректирования коэффициента усиления G схемы 443 регулирования усиления составляет 160 выборок, или 20 мс.

Путем установления периода корректирования коэффициентов формирующего спектр фильтра 443 так, чтобы он был длиннее, чем период коррекции коэффициента формирующего спектр фильтра 440 в качестве постфильтра, становится возможным предотвратить нежелательные эффекты, вызываемые в противном случае флуктуациями корректирования усиления.

То есть в базовом постфильтре период корректирования коэффициентов формирующего спектр фильтра устанавливается так, чтобы он был равен периоду коррекции усиления и, если период коррекции усиления выбран равным 20 выборкам и 2,5 мс, изменения значений усиления вызываются даже в одном периоде основного тона, в результате чего прослушивается потрескивающий шум. В настоящем варианте осуществления изобретения с помощью устанавливания периода переключения коэффициента усиления на более длительное время, например, равным одному кадру или 160 выборкам, или 20 мс, можно предотвратить возникновение резких изменений величины усиления. И наоборот, если период корректирования коэффициентов формирующего спектр фильтра составляет 160 выборок, или 20 мс, то не обеспечивается плавное изменение характеристик фильтра, что приводит к искажению синтезируемой формы сигнала. Однако с помощью установления периода корректирования коэффициентов фильтра на меньшие значения, равные 20 выборок, или 2,5 мс, становится возможным реализовать более эффективную постфильтрацию.

В процессе проведения обработки на переходных участках изменения коэффициентов усиления между соседними кадрами коэффициенты фильтра и коэффициенты усиления предыдущего кадра и текущего кадра перемножаются с помощью треугольных финитных взвешивающих функций

W(i)=i/20 (0 i 20), и

1-W(i), где 0 i 20 для плавного увеличения и плавного уменьшения уровня сигнала, и полученные результаты суммируются вместе. На фиг.22 показано, как коэффициент усиления G1 предыдущего кадра сливается с коэффициентом усиления G1 текущего кадра. В частности, доля использования коэффициента усиления и коэффициентов фильтра предыдущего кадра постепенно уменьшается, в то время как доля использования коэффициента усиления и коэффициентов фильтра текущего кадра постепенно увеличивается. Внутренние состояния фильтра для текущего кадра и для предыдущего кадра в момент времени Т на фиг.22 начинаются с одних и тех же состояний, то есть с конечных состояний предыдущего кадра.

Описанное выше устройство кодирования сигнала и декодирования сигнала можно применять в качестве речевого кодового словаря, используемого, например, в портативной оконечной аппаратуре системы связи или портативном телефонном аппарате, показанных на фиг.23 и 24.

На фиг.23 изображена передающая часть портативной оконечной аппаратуры, в которой используется блок 160 кодирования речевого сигнала, сконфигурированного, как показано на фиг.1 и 3. Речевые сигналы, принимаемые микрофоном 161, усиливаются усилительным устройством 162 и преобразуются аналого-цифровым преобразователем 163 в цифровые сигналы, которые подаются в блок 160 кодирования речевых сигналов, выполненный так, как показано на фиг.1 и 3. Цифровые сигналы из аналого-цифрового преобразователя 163 подаются на входной вывод 101. Блок 160 кодирования речевого сигнала выполняет кодирование, как было описано со ссылками на фиг.1 и 3. Выходные сигналы с выходных выводов (фиг.1 и 2) поступают в качестве выходных сигналов блока 160 кодирования речевых сигналов в блок 164 кодирования канала передачи, который затем осуществляет кодирование передаваемых в канале сигналов. Выходные сигналы блока 164 кодирования канала передачи поступают в схему модуляции 165, где они модулируются, и затем подаются на антенну 168 через цифроаналоговый преобразователь 166 и радиочастотный усилитель 167.

На фиг.24 изображена приемная часть портативного оконечного устройства, в котором используется блок 260 декодирования речевого сигнала, выполненный, как показано на фиг.4. Речевые сигналы, принимаемые антенной 261 (фиг.24), усиливаются РЧ усилителем 262 и подаются через аналого-цифровой преобразователь 263 в схему демодуляции 264, из которой демодулированный сигнал поступает в блок 265 декодирования канала передачи. Выходной сигнал блока декодирования 265 поступает в блок 260 декодирования речевого сигнала, выполненный как показано на фиг.2 и 4. Блок 260 декодирования речевых сигналов декодирует сигналы, как описано со ссылками на фиг.2 и 4. Выходной сигнал с выхода 201 (фиг.2 и 4) подается в качестве сигнала блока 260 декодирования речевого сигнала в цифроаналоговый преобразователь 266. Аналоговый речевой сигнал из цифроаналогового преобразователя 266 поступает в динамик 268.

Настоящее изобретение не ограничено вышеописанными вариантами осуществления. Например, показанную на фиг.1 и 3 структуру анализирующего речевой сигнал устройства (кодирующего устройства) или показанного на фиг.2 и 4 синтезирующего речевой сигнал устройства (декодирующего устройства), описанные выше в виде аппаратного оборудования, можно реализовывать с помощью программы системы программного обеспечения, используя, например, процессор обработки цифровых сигналов. Синтезирующие фильтры 236, 237 или постфильтры 238v, 238u на декодирующей стороне можно выполнить в виде единственного синтезирующего КЛП фильтра или единственного постфильтра, без разделения на фильтр, предназначенный для вокализированного речевого сигнала или невокализированного речевого сигнала. Настоящее изобретение не ограничено также передачей или записью-воспроизведением и может применяться в различных системах, например, при преобразовании основного тона, преобразовании скорости, синтезе компьютеризированного речевого сигнала или подавлении шумов.

Формула изобретения

1. Способ кодирования речевых сигналов, при котором входной речевой сигнал делят по временной оси на заранее установленные элементы кодирования и кодируют на основании заранее установленных элементов кодирования, включающий нахождение остатков кратковременных предсказаний входного речевого сигнала; распознование входного речевого сигнала как вокализированного речевого сигнала или как невокализированного речевого сигнала; кодирование остатков кратковременных предсказаний с использованием синусоидального аналитического кодирования, если часть входного речевого сигнала определена как вокализированный речевой сигнал; и кодирование входного речевого сигнала путем кодирования формы сигнала, если часть входного речевого сигнала определена как невокализированный речевой сигнал.

2. Способ по п.1, отличающийся тем, что в качестве синусоидального аналитического кодирования используется гармоническое кодирование.

3. Способ по п.1, отличающийся тем, что кодирование формы сигнала осуществляется с помощью векторного квантования формы сигнала во временной области путем поиска в замкнутом цикле оптимального вектора с использованием метода анализа через синтез.

4. Способ по п.1, отличающийся тем, что для квантования параметров синусоидального аналитического кодирования остатков кратковременных предсказаний используют векторное квантование или матричное квантование с перцепционным взвешиванием.

5. Способ по п.1, отличающийся тем, что при выполнении упомянутого матричного квантования или векторного квантования с перцепционным взвешиванием вычисляют весовые коэффициенты на основании результатов ортогонального преобразования параметров, полученных из импульсной характеристики весовой передаточной функции.

6. Устройство кодирования речевых сигналов, обеспечивающее разделение входного речевого сигнала по временной оси на заранее установленные элементы кодирования и кодирование на основании заранее установленных элементов кодирования, отличающееся тем, что содержит: средство определения остатков кратковременных предсказаний входного речевого сигнала; средство распознавания входного речевого сигнала как вокализированного речевого сигнала или невокализированного речевого сигнала; средство кодирования остатков кратковременных предсказаний частей входного речевого сигнала, распознанных как вокализированный речевой сигнал, путем синусоидального аналитического кодирования; и средство кодирования частей входного речевого сигнала, распознанных как невокализированный речевой сигнал, путем кодирования формы сигнала.

7. Устройство по п.6, отличающееся тем, что в качестве синусоидального аналитического кодирования используется гармоническое кодирование.

8. Устройство по п.6, отличающееся тем, что в качестве упомянутого средства кодирования формы сигнала используется возбуждаемое кодом средство кодирования с линейным предсказанием, выполняющее векторное квантование путем поиска в замкнутом цикле оптимального вектора с использованием метода анализа через синтез.

9. Устройство по п.6, отличающееся тем, что средство синусоидального аналитического кодирования использует векторное или матричное квантование с перцепционным взвешиванием для квантования параметров синусоидального аналитического кодирования упомянутых параметров кратковременного аналитического кодирования.

10. Устройство по п.6, отличающееся тем, что средство синусоидального аналитического кодирования предназначено для расчета весового коэффициента при матричном или векторном квантовании с перцепционным взвешиванием на основании результатов ортогонального преобразования параметров, полученных из импульсной характеристики весовой передаточной функции.

11. Способ декодирования речевого сигнала, предназначенный для декодирования кодированного речевого сигнала, полученного при кодировании вокализированной части входного речевого сигнала синусоидальным аналитическим кодированием посредством нахождения остатка кратковременных предсказаний, и при кодировании невокализированной части входного речевого сигнала путем другого кодирования с использованием остатков кратковременных предсказаний, отличающийся тем, что включает нахождение остатков кратковременных предсказаний для вокализированной части речевого сигнала, кодированного путем синусоидального синтеза, нахождение остатков кратковременных предсказаний для невокализированной части речевого сигнала кодированного речевого сигнала; синтезирующее фильтрование с предсказанием для синтезирования формы сигнала на временной оси на основании полученных остатков кратковременных предсказаний вокализированной и невокализированной частей речевого сигнала, синтезирующее фильтрование с предсказанием включает в себя первую операцию фильтрования с предсказанием при синтезировании временного сигнала для вокализированной части на основании полученных остатков кратковременных предсказаний вокализированной части речевого сигнала, и вторую операцию фильтрования с предсказанием при синтезировании временного сигнала для невокализированной части на основании полученных остатков кратковременных предсказаний невокализированной части речевого сигнала.

12. Способ по п.11, отличающийся тем, что дополнительно включает первую операцию постфильтрации, предназначенную для постфильтрации выходного сигнала первого синтезирующего фильтра с предсказанием, и вторую операцию постфильтрации, предназначенную для постфильтрации выходного сигнала второго синтезирующего фильтра предсказания.

13. Способ по п.11 или 12, отличающийся тем, что для квантования параметра синусоидального синтеза упомянутых остатков кратковременных предсказаний используют векторное или матричное квантование с перцепционным взвешиванием.

14. Устройство декодирования речевого сигнала, предназначенное для декодирования кодированного речевого сигнала, получаемого при кодировании вокализированной части входного речевого сигнала синусоидальным аналитическим кодированием путем нахождения остатка кратковременных предсказаний, и при кодировании невокализированной части входного речевого сигнала путем другого кодирования с использованием остатков кратковременных предсказаний, отличающееся тем, что содержит средство определения остатков кратковременных предсказаний для вокализированной части речевого сигнала с помощью синусоидального аналитического кодирования; средство определения остатков кратковременных предсказаний для невокализированной части речевого сигнала; и средство синтезирующего фильтрования с предсказанием, предназначенное для синтезирования формы сигнала на временной оси, на основании полученных остатков кратковременных предсказаний вокализированной и невокализированной частей речевого сигнала, при этом средство синтезирующего фильтрования с предсказанием содержит первое средство фильтрования с предсказанием при синтезировании временного сигнала вокализированной части на основании полученных остатков кратковременных предсказаний, вокализированной части речевого сигнала, и второе средство фильтрования с предсказанием при синтезировании временного сигнала невокализированной части на основании полученных остатков кратковременных разностей предсказаний невокализированой части речевого сигнала.

РИСУНКИ

Рисунок 1, Рисунок 2, Рисунок 3, Рисунок 4, Рисунок 5, Рисунок 6, Рисунок 7, Рисунок 8, Рисунок 9, Рисунок 10, Рисунок 11, Рисунок 12, Рисунок 13, Рисунок 14, Рисунок 15, Рисунок 16, Рисунок 17, Рисунок 18, Рисунок 19, Рисунок 20, Рисунок 21, Рисунок 22, Рисунок 23, Рисунок 24, Рисунок 25

Categories: BD_2233000-2233999