Патент на изобретение №2184399
|
||||||||||||||||||||||||||
(54) СПОСОБ ВЫДЕЛЕНИЯ ОСНОВНОГО ТОНА ИЗ РЕЧЕВОГО СИГНАЛА
(57) Реферат: Изобретение относится к анализу речи и может быть использовано в средствах для распознавания речи. Техническим результатом является повышение точности. Способ основан на разложении речевого сигнала в последовательность спектров Фурье, нахождении абсолютного максимума, вычислении среднего значения аргумента последовательности полученных максимумов, оценке средней частоты основного тона исследуемого речевого сигнала, амплитудной селекции сигналов, вычислении значений определителя автокорреляционной матрицы и фильтрации этих значений. 1 з.п. ф-лы, 1 ил. Изобретение относится к анализу речи и может быть использовано для выделения мгновенной частоты основного тона речевого сигнала в задачах распознавания речи, идентификации диктора по его голосу, определения эмоционального состояния говорящего. Известен способ выделения частоты основного тона [1], основанный на преобразовании речевых колебаний в импульсную последовательность. Каждый импульс соответствует переходу через ноль речевого колебания (берется однополярный переход). Используется свойство, что на периоде основного тона последовательности межимпульсных интервалов повторяются. Однако данный способ обладает существенным недостатком, который связан с пропусками интервалов, обладающих основным тоном, при смене одной фонемы другой. Это происходит благодаря тому, что при смене одной звучащей фонемы другой между двумя соседними периодами основного тона изменения межимпульсных интервалов становятся значительными. Известен также способ выделения частоты основного тона с помощью узкополосного фильтра [2], следящего за изменением частоты первой гармоники речевого сигнала, причем ширина полосы итерационно подстраивается под среднюю частоту основного тона, рассчитываемую на основании выходной функции этого фильтра и передаваемую на фильтр благодаря обратной связи. Данный способ проявляет хорошую работоспособность при условии, что фильтр подстраивается под диктора в течение нескольких минут. Однако способ не пригоден для выявления частоты основного тона в коротких сообщениях, длительность которых составляет несколько секунд. Наиболее близким к предлагаемому является способ выделения основного тона, предложенный в работе [3], принятый за прототип, заключающийся в предварительной записи речевого сигнала и его последующей обработке. В прототипе используется трехканальный метод обработки речевого сигнала. В первом канале проводится амплитудная селекция по схеме Голда, во втором канале используется аппроксимация первой гармоники основного тона экспоненциальной функцией и в третьем канале проводится вычисление корреляционной функции по схеме Медана. Считается, что частота основного тона найдена, если разность между полученными значениями оценок частоты основного тона для различных каналов не превышает заданную величину. Недостатком данного способа является низкая точность, которая связана с сильной зависимостью схемы в целом от точности каждого алгоритма, входящего в его состав. Технический результат, получаемый от внедрения изобретения, заключается в повышении точности определения частоты основного тона. Данный технический результат достигается за счет того, что в описываемом способе выделения частоты основного тона из речевого сигнала, заключающемся в предварительной записи речевого сигнала и его последующей обработке, обработку речевого сигнала ведут путем его разложения в последовательность спектров Фурье на интервалах длительностью не менее 0,2 с с последующим интегрированием каждого из этих спектров с множеством сумм параметрических функций Лапласа и нахождением абсолютного максимума результатов проведенного интегрирования, последующим вычислением среднего значения аргумента последовательности полученных максимумов, по полученному значению которого осуществляют предварительную оценку средней частоты основного тона исследуемого речевого сигнала, затем используя результаты предварительной оценки средней частоты основного тона с помощью трех видов выделителей параллельно проводят амплитудную селекцию сигналов по схеме Голда, вычисление значений определителя автокорреляционной матрицы с последующей фильтрацией этих значений низкочастотным фильтром Баттерворта с частотой среза, равной найденной средней частоте основного тона, и фильтрацию речевого сигнала полосовым фильтром Чебышева со средней частотой полосы пропускания, равной найденной средней частоте основного тона, и шириной полосы пропускания, равной 100 Гц, затем определяют моменты времени появления максимальных значений выходных функций перечисленных трех выделителей и проводят формирование из них единичных импульсов в найденные моменты времени, после чего осуществляют проверку синхронности появления этих импульсов от трех выделителей и формирование выходной последовательности единичных импульсов, соответствующих событиям синхронности, и вычисление длительности межимпульсных интервалов, по обратной величине которых проводят оценку мгновенной частоты основного тона речевого сигнала. Кроме того, дополнительно проводят аппроксимацию полученных длительностей межимпульсных интервалов квадратичной функцией и вычисление ошибки аппроксимации, по значению которой судят о достоверности определения текущего межимпульсного интервала основного тона исследуемого речевого сигнала. Согласно предлагаемому способу выделения мгновенной частоты основного тона все операции обработки речи можно разделить на три класса: а) операции предварительной оценки средней частоты основного тона; б) операции предварительной оценки мгновенной частоты основного тона; с) операции принятия решения о текущей частоте основного тона. Предварительная оценка средней частоты основного тона включает в себя следующие операции обработки речевого сигнала: определение спектра Фурье на сегментах речи длительностью не менее 0,2 с, интегрирование произведения спектра Фурье и множества сумм параметрических функций Лапласа, нахождение абсолютного максимума этого множества интегралов, получение предварительной оценки средней частоты основного тона на основе известного значения максимума. Множество предварительных оценок мгновенной частоты основного тона использует три вида выделителей основного тона, выполняющих следующие операции: амплитудную селекцию по схеме Голда, вычисление значений определителя автокорреляционной матрицы с последующей фильтрацией этих значений низкочастотным фильтром Баттерворта с частотой среза, равной найденной средней частоте основного тона, фильтрацию речевого сигнала полосовым фильтром Чебышева со средней частотой полосы, равной найденной средней частоте основного тона, определение моментов времени появления максимальных значений выходных функций выделителей и формирование единичных импульсов в эти моменты времени, проверка синхронности появления этих импульсов у всех трех выделителей, формирование выходной последовательности единичных импульсов, соответствующих событиям синхронности, вычисление длительности межимпульсных интервалов, обратная величина которой соответствует предварительной оценке мгновенной частоты основного тона. Принятие окончательного решения о текущей частоте основного тона включает в себя следующие операции: аппроксимацию длительностей межимпульсных интервалов квадратичной функцией, вычисление ошибки аппроксимации, на основании которой принимается решение о том, является ли текущий межимпульсный интервал основным тоном. Изобретение поясняется чертежом, на котором представлена блок-схема устройства для реализации способа. Устройство включает в себя блок вычисления спектра Фурье (блок 1), см., например, [4]. Блок 2 (интегратор, см., например, [5]) проводит интегрирование полученного спектра Фурье с суммой функций Лапласа, зависящих от параметра ![]() ![]() где F(w)-cneктp Фурье, ![]() ![]() ![]() ![]() ![]() ![]() где ![]() ![]() в те моменты времени t’j, когда либо выходные функции фильтров испытывают максимальные значения (для фильтров Баттерворта и Чебышева) либо принимается решение об окончании одного импульса основного тона и начале другого импульса (для схемы Голда). Величина обратная скважности выходных импульсов каждого выделителя является оценкой мгновенной частоты основного тона. Блок 6 (см., например, [10]) предназначен для проверки синхронности появления импульсов на выходе выделителей. Эта проверка происходит на основе решения неоднородного дифференциального уравнения звена первого порядка с правой частью, равной сумме выходных функций выделителей основного тона ![]() как только для решения уравнения выполняется условие вида ![]() ![]() Если ошибка аппроксимации меньше пороговой величины, т.е. Fk(a,b,c) F, то принимается решение о том, что импульсы этой последовательности соответствуют основному тону. Источники информации Формула изобретения
РИСУНКИ
MM4A Досрочное прекращение действия патента Российской Федерации на изобретение из-за неуплаты в установленный срок пошлины за поддержание патента в силе
Дата прекращения действия патента: 23.09.2004
Извещение опубликовано: 20.02.2006 БИ: 05/2006
|
||||||||||||||||||||||||||