|
(21), (22) Заявка: 2005127863/09, 05.02.2004
(24) Дата начала отсчета срока действия патента:
05.02.2004
(30) Конвенционный приоритет:
07.02.2003 US 10/360,581
(43) Дата публикации заявки: 27.01.2006
(46) Опубликовано: 20.08.2008
(56) Список документов, цитированных в отчете о поиске:
US 6199037 B1, 06.03.2001. RU 2166804 C2, 10.05.2001. US 6377916 B1, 23.04.2002. ЕР 1103955 А2, 30.05.2001. WO 92/10830 A1, 25.06.1992.
(85) Дата перевода заявки PCT на национальную фазу:
07.09.2005
(86) Заявка PCT:
US 2004/003425 (05.02.2004)
(87) Публикация PCT:
WO 2004/072949 (26.08.2004)
Адрес для переписки:
129010, Москва, ул. Б. Спасская, 25, стр.3, ООО “Юридическая фирма Городисский и Партнеры”, пат.пов. Ю.Д.Кузнецову, рег.№ 595
|
(72) Автор(ы):
РАМАБАДРАН Тенкаси В. (US), СОРИН Александр (IL)
(73) Патентообладатель(и):
МОТОРОЛА, ИНК. (US), ИНТЕРНЭШНЛ БИЗНЕС МАШИНЗ КОРПОРЕЙШН (US)
|
(54) КВАНТОВАНИЕ ОСНОВНОГО ТОНА ДЛЯ РАСПРЕДЕЛЕННОГО РАСПОЗНАВАНИЯ РЕЧИ
(57) Реферат:
Изобретение касается области систем распределенного распознавания речи, где раскрыты система, способ и пригодная для чтения компьютером среда для квантования информации об основном тоне звука. Способ включает в себя захват звука, представляющего пронумерованный кадр из множества пронумерованных кадров. Способ дополнительно включает в себя вычисление класса кадра, в котором класс представляет собой любой из вокализированного или невокализированного класса. Если кадр представляет собой вокализированный класс, для кадра рассчитывается основной тон (903). Если кадр представляет собой кадр с четным номером и вокализированный класс, рассчитывается ключевое слово первой длины посредством абсолютного квантования основного тона кадра (910). Если кадр представляет собой кадр с нечетным номером и вокализированный класс и доступен достоверный кадр, рассчитывается ключевое слово второй длины посредством дифференциального квантования основного тона кадра (905). Если нет доступного достоверного кадра, рассчитывается ключевое слово второй длины посредством абсолютного квантования основного тона кадра. Технический результат – компактное представление информации о классе и основном тоне для сохранения низкой скорости передачи в битах без потери точности и устойчивости против ошибок канала связи. 4 н. и 20 з.п. ф-лы, 10 ил., 2 табл.
Перекрестная ссылка на родственные заявки
Настоящая заявка на патент связана с находящейся в процессе одновременного рассмотрения и находящейся в общей собственности заявки на патент США № 10/360,582, досье поверенного № CML00872M, под названием “Квантование классов для распределенного распознавания речи”, зарегистрированной одним числом с настоящей заявкой на патент, положения которой, таким образом, полностью включены здесь путем ссылки.
Область техники, к которой относится изобретение
Настоящее изобретение в общем касается области систем распределенного распознавания речи, и более конкретно, касается распределенного распознавания речи для связи в узкой полосе пропускания и беспроводной связи.
Уровень техники
С появлением пейджеров и мобильных телефонов индустрия беспроводного обслуживания превратилась в индустрию стоимостью в миллиарды долларов. Большая часть доходов поставщиков беспроводных услуг (ПБУ) происходят от подписок. По существу, способность ПБУ успешно работать в сети зависит от качества обслуживания, обеспечиваемого абонентам через сеть, имеющую ограниченную полосу пропускания. С этой целью поставщики ПБУ постоянно ищут способы уменьшать количество информации, которая передается через сеть, при поддержании высокого качества обслуживания для абонентов.
В последнее время распознавание речи в индустрии беспроводного обслуживания пользуется успехом. Распознавание речи используется для ряда применений и услуг. Например, абонента беспроводного обслуживания можно обеспечивать возможностью ускоренного набора телефонного номера, посредством чего абонент произносит имя адресата вызова в беспроводное устройство. Имя адресата распознается с использованием распознавания речи и между абонентом и адресатом инициализируется вызов. В другом примере, информация (411) вызывающего абонента может использовать распознавание речи, чтобы распознать имя адресата, с которым абонент пытается заказать разговор по телефону.
Поскольку распознавание речи завоевывает признание в беспроводном семействе, возникло распределенное распознавание речи (РРР), как новая технология. РРР относится к структуре, в которой участки выделения признаков и распознавания образов системы распознавания речи являются распределенными. То есть, участки выделения признаков и распознавания образов системы распознавания речи выполняются двумя различными устройствами обработки данных в двух различных местоположениях. В частности, процесс выделения признаков выполняется во внешнем интерфейсе, то есть, в беспроводном устройстве, а процесс распознавания образов выполняется на серверном участке, то есть, поставщиком беспроводных услуг. РРР расширяют распознавание речи для более сложных задач типа автоматизированного заказа авиалинии с помощью выраженной словами информации о рейсе или брокерских операций с помощью аналогичных признаков.
Европейский институт стандартов электросвязи (ETSI) обнародовал ряд стандартов для РРР. Стандарты РРР ETSI ES 201 108 (апрель 2000 г.) и ES 202 050 (июль 2002 г.) определяют выделение признаков и алгоритмы сжатия на внешнем интерфейсе. Однако эти стандарты не включают в себя реконструкцию речи на серверном участке, которая может быть важной в некоторых применениях. В результате, ETSI выпустил новые Позиции работы WI-030 и WI-034, с целью расширения вышеупомянутых стандартов (ES 201 108 и ES 202 050, соответственно), для включения в них реконструкции речи на серверном участке, а также тонального распознавания языка.
В действующих стандартах РРР признаки, которые извлекаются, сжимаются и передаются на серверный участок, представляют собой 13 коэффициентов косинусного преобразования Фурье частоты Мела (MFCC), С0-C12, и логарифм энергии кадра, log-E. Эти признаки обновляются каждые 10 мс или 100 раз в секунду. В предложениях о расширенных стандартах (то есть, в ответ на описанные выше Позиции работы) информацию об основном тоне и классе (или вокализировании) также получают для каждого кадра и передают в дополнение к коэффициентам MFCC и log-E. Это увеличивает количество информации, которая передается беспроводным устройством по сети, и расходует дополнительную полосу пропускания. Таким образом, желательно, чтобы представление информации о классе и основном тоне было компактным, насколько возможно, для сохранения низкой скорости передачи в битах.
Остается проблема компактного представления информации об основном тоне и без потери точности и устойчивости против ошибок канала связи. В общем, речевые вокодеры (например, кодер смешанного возбуждения с линейным предсказанием (СВЛП), который является федеральным стандартом США на скорости 2400 битов в секунду), выполняют абсолютное квантование информации об основном тоне, используя 7 или больше битов на кадр. В расширенных стандартах РРР важно сохранить скорость передачи дополнительных битов, соответствующих информации об основном тоне и о классе, настолько низкий, насколько возможно. Для квантования информации о периоде основного тона была принята комбинация абсолютного и дифференциального методов с использованием только 6 битов на кадр, сохраняя, таким образом, по меньшей мере 1 бит на кадр. Однако это может потенциально приводить к проблемам в отношении точности и устойчивости против ошибок канала.
Поэтому существует необходимость в преодолении проблемы, связанной с предшествующим уровнем техники, как обсуждалось выше.
Сущность изобретения
Коротко говоря, в соответствии с настоящим изобретением раскрыты система, способ и пригодная для чтения компьютером среда для квантования информации об основном тоне звука. В варианте осуществления настоящего изобретения способ в системе обработки информации включает в себя захват звука, представляющего пронумерованный кадр из множества пронумерованных кадров. Способ дополнительно включает в себя вычисление класса кадра, в котором класс представляет собой любой из вокализированного класса и невокализированного класса. Если кадр представляет собой вокализированный класс, для кадра вычисляется основной тон. Если кадр представляет собой кадр с четным номером и вокализированный класс, вычисляется ключевое слово первой длины посредством абсолютного квантования основного тона кадра. Если кадр представляет собой кадр с четным номером и невокализированный класс, вычисляется ключевое слово первой длины, указывающее кадр невокализированного класса. Если кадр представляет собой кадр с нечетным номером и вокализированный класс, и по меньшей мере один из трех кадров, непосредственно предшествующих этому кадру, является достоверным, вычисляется ключевое слово второй длины посредством дифференциального квантования основного тона кадра, ссылаясь на квантованный основной тон ближайшего предшествующего достоверного кадра, в котором первая длина больше, чем вторая длина. Если кадр представляет собой кадр с нечетным номером и вокализированный класс, а каждый из трех кадров, непосредственно предшествующих этому кадру, является недостоверным, вычисляется ключевое слово второй длины посредством абсолютного квантования основного тона кадра. Если кадр представляет собой кадр с нечетным номером и невокализированный класс, вычисляется ключевое слово второй длины, указывающее кадр невокализированного класса.
В другом варианте осуществления настоящего изобретения система обработки информации для квантования информации об основном тоне звука включает в себя микрофон для захвата звука, представляющего пронумерованный кадр из множества пронумерованных кадров. Система обработки информации дополнительно включает в себя цифровой процессор сигналов для вычисления класса кадра, в котором класс представляет собой любой из вокализированного класса и невокализированного класса. Если кадр представляет собой вокализированный класс, процессор вычисляет основной тон для кадра. Если кадр представляет собой кадр с четным номером и вокализированный класс, процессор вычисляет ключевое слово первой длины посредством абсолютного квантования основного тона кадра. Если кадр представляет собой кадр с четным номером и невокализированный класс, процессор вычисляет ключевое слово первой длины, указывающее кадр невокализированного класса. Если кадр представляет собой кадр с нечетным номером и вокализированный класс, и по меньшей мере один из трех кадров, непосредственно предшествующих этому кадру, является достоверным, процессор вычисляет ключевое слово второй длины посредством дифференциального квантования основного тона кадра, ссылаясь на квантованный основной тон ближайшего предшествующего достоверного кадра, в котором первая длина больше, чем вторая длина. Если кадр представляет собой кадр с нечетным номером и вокализированный класс, а каждая из трех кадров, непосредственно предшествующих этому кадру, является недостоверным, процессор вычисляет ключевое слово второй длины посредством абсолютного квантования основного тона кадра. Если кадр представляет собой кадр с нечетным номером и невокализированный класс, процессор вычисляет ключевое слово второй длины, указывающее кадр невокализированного класса.
Предпочтительные варианты осуществления настоящего изобретения являются выгодными, потому что они служат для уменьшения количества битов, используемых для передачи звуковой информации по сети связи. Это выгодно, потому что сети связи обладают ограниченной полосой пропускания. Экономия битов преобразуется в создание большей полосы пропускания, доступной для существующих или дополнительных абонентов. Таким образом, настоящее изобретение обеспечивает как улучшение производительности сети, так и повышение качества связи.
Краткое описание чертежей
Фиг.1 представляет блок-схему, иллюстрирующую сеть для распределенного распознавания речи согласно предпочтительному варианту осуществления настоящего изобретения.
Фиг.2 представляет детализированную блок-схему системы беспроводной связи для распределенного распознавания речи согласно предпочтительному варианту осуществления настоящего изобретения.
Фиг.3 представляет блок-схему, иллюстрирующую беспроводное устройство для системы беспроводной связи согласно предпочтительному варианту осуществления настоящего изобретения.
Фиг.4 представляет блок-схему, иллюстрирующую обмен данными беспроводного устройства с поставщиком беспроводных услуг.
Фиг.5 представляет оперативную схему последовательности операций, показывающую полный процесс распределенного распознавания речи согласно предпочтительному варианту осуществления настоящего изобретения.
Фиг.6 представляет оперативную схему последовательности операций, показывающую процесс квантования класса и основного тона согласно предпочтительному варианту осуществления настоящего изобретения.
Фиг.7 представляет блок-схему, иллюстрирующую обычные распределения битов для процесса квантования класса и основного тона.
Фиг.8 представляет блок-схему, иллюстрирующую распределения битов для процесса квантования класса и основного тона согласно предпочтительному варианту осуществления настоящего изобретения.
Фиг.9A, 9B и 9C представляют оперативную схему последовательности операций, показывающую другой процесс квантования основного тона согласно предпочтительному варианту осуществления настоящего изобретения.
Фиг.10 представляет блок-схему системы обработки информации, полезной для реализации предпочтительного варианта осуществления настоящего изобретения.
Подробное описание
Настоящее изобретение, согласно предпочтительному варианту осуществления, преодолевает проблемы, связанные с предшествующим уровнем техники, эффективно снижая количество битов, используемых в квантовании основного тона, как подробно обсуждается ниже.
I. Краткий обзор
Фиг.1 представляет блок-схему, иллюстрирующую сеть для распределенного распознавания речи (РРР) согласно предпочтительному варианту осуществления настоящего изобретения. Фиг.1 изображает сетевой сервер или поставщика 102 беспроводных услуг, действующего в сети 104, которая соединяет сервер/поставщика 102 беспроводных услуг с клиентами 106 и 108 (клиентским оборудованием). В одном варианте осуществления настоящего изобретения, фиг.1 представляет сетевую компьютерную систему, которая включает в себя сервер 102, сеть 104 и клиентские компьютеры 106-108. В первом варианте осуществления сеть 104 представляет собой сеть с коммутацией каналов, типа коммутируемой телефонной сети общего пользования (КТСОП). В качестве альтернативы, сеть 104 представляет собой сеть с коммутацией пакетов. Сетью с коммутацией пакетов является территориально распределенная сеть (ТРС) типа глобального Интернета, частная ТРС, локальная вычислительная сеть (ЛВС), сеть передачи данных или любая комбинация вышеупомянутых сетей. В другом альтернативном варианте сеть 104 представляет собой проводную сеть, беспроводную сеть, сеть с широковещательной рассылкой сообщений или сеть с двухточечным соединением абонентов.
В первом варианте осуществления сервер 102 и компьютерные клиенты 106 и 108 содержат один или более персональные компьютеры (ПК) (например, IBM или совместимые с ПК автоматизированные рабочие места, выполняющие операционную систему Microsoft Windows 95/98/2000/ME/CE/NT/XP, компьютеры Macintosh, выполняющие операционную систему Mac OS, ПК, выполняющие операционную систему LINUX, или эквивалентные устройства), или любые другие компьютерные обрабатывающие устройства. В качестве альтернативы, сервер 102 и компьютерные клиенты 106 и 108 включают в себя одну или более серверных систем (например, автоматизированные рабочие места SUN Ultra, выполняющие операционную систему SunOS или AIX, автоматизированные рабочие места и серверы IBM RS/6000, выполняющие операционную систему AIX, или серверы, выполняющие операционную систему LINUX).
В другом варианте осуществления настоящего изобретения фиг.1 представляет систему беспроводной связи, которая включает в себя поставщика 102 беспроводных услуг, беспроводную сеть 104 и беспроводные устройства 106-108. Поставщик 102 беспроводных услуг представляет собой аналоговое обслуживание телефонной связи с подвижными объектами первого поколения, цифровое обслуживание телефонной связи с подвижными объектами второго поколения или способное работать с Интернетом обслуживание телефонной связи с подвижными объектами третьего поколения.
В этом варианте осуществления беспроводная сеть 104 представляет собой сеть мобильной телефонной связи, сеть мобильных устройств обмена текстовыми сообщениями, сеть поискового вызова, или аналогичную сеть. Далее, стандарт в области связи беспроводной сети 104 на фиг.1 представляет собой множественный доступ с кодовым разделением (МДКР), множественный доступ с разделением по времени (МДРВ), Глобальную систему мобильной связи (ГСМС), систему пакетной радиосвязи общего пользования (СПРОП), множественный доступ с разделением по частоте (МДРЧ) или аналогичный стандарт. Беспроводная сеть 104 поддерживает любое количество беспроводных устройств 106-108, которые являются мобильными телефонами, мобильными устройствами обмена текстовыми сообщениями, миниатюрными портативными компьютерами, пейджерами, устройствами звуковой сигнализации или подобными устройствами.
В этом варианте осуществления поставщик 102 беспроводных услуг включает в себя сервер, который содержит один или более персональные компьютеры (ПК) (например, IBM или совместимые с ПК автоматизированные рабочие места, выполняющие операционную систему Microsoft Windows 95/98/2000/ME/CE/NT/XP, компьютеры Macintosh, выполняющие операционную систему Mac OS, компьютеры ПК, выполняющие операционную систему LINUX, или эквивалентные устройства), или любые другие компьютерные обрабатывающие устройства. В другом варианте осуществления настоящего изобретения сервер поставщика 102 беспроводных услуг представляет собой одну или более системы серверов (например, автоматизированные рабочие места SUN Ultra, выполняющие операционную систему SunOS или AEK, автоматизированные рабочие места и серверы IBM RS/6000, выполняющие операционную систему AIX, или серверы, выполняющие операционную систему LINUX).
Как объяснялись выше, РРР относится к структуре, в которой участки выделения признаков и распознавания образов системы распознавания речи являются распределенными. То есть, участки выделения признаков и распознавания образов системы распознавания речи выполняются двумя различными устройствами обработки данных в двух различных местоположениях. В частности, процесс выделения признаков выполняется внешним интерфейсом, например, беспроводными устройствами 106 и 108, а процесс распознавания образов выполняется серверным участком, например, сервером поставщика 102 беспроводных услуг. Процесс выделения признаков, как он выполняется на внешнем интерфейсе беспроводными устройствами 106 и 108, описан более подробно ниже.
Фиг.2 представляет детализированную блок-схему системы беспроводной связи для РРР согласно предпочтительному варианту осуществления настоящего изобретения. Фиг.2 представляет собой более детализированную блок-схему системы беспроводной связи, описанной со ссылкой на описанную выше фиг.1. Система беспроводной связи фиг.2 включает в себя контроллер 201, подсоединенный к базовым станциям 202, 203 и 204. Помимо этого, система беспроводной связи фиг.2 обеспечивает сопряжение с внешней сетью через устройство 206 сопряжения телефона. Базовые станции 202, 203 и 204 индивидуально поддерживают участки географической зоны охвата, содержащей абонентские устройства или приемопередатчики (то есть, беспроводные устройства) 106 и 108 (см. фиг.1). Беспроводные устройства 106 и 108 осуществляют сопряжение с базовыми станциями 202, 203 и 204, используя протокол связи, типа МДКР, МДРЧ, МДКР, СПРОП и ГСМС.
Географическая зона охвата системы беспроводной связи фиг.2 разделена на регионы или ячейки, которые индивидуально обслуживаются базовыми станциями 202, 203 и 204 (также упоминаемыми здесь как серверы ячеек). Беспроводное устройство, работающее в пределах системы беспроводной связи, выбирает конкретный сервер ячейки в качестве своего первичного устройства сопряжения для операций приема и передачи в пределах системы. Например, беспроводное устройство 106 имеет сервер 202 ячейки в качестве своего первичного сервера ячейки, а беспроводное устройство 108 имеет сервер 204 ячейки в качестве своего первичного сервера ячейки. Беспроводное устройство предпочтительно выбирает сервер ячейки, который обеспечивает лучшее устройство сопряжения с системой связи в системе беспроводной связи. Обычно это зависит от качества сигнала в сигналах канала связи между беспроводным устройством и конкретным сервером ячейки.
Когда беспроводные устройства перемещаются между различными географическими местоположениями в зоне охвата, может быть необходима передача обслуживания или перемещение вызова на другой сервер ячейки, который тогда будет функционировать, как первичный сервер ячейки. Беспроводное устройство контролирует сигналы связи от базовых станций, служащих соседними ячейками, для определения наиболее подходящего нового сервера для целей передачи обслуживания. Помимо контроля качества передаваемого сигнала от соседнего сервера ячейки, беспроводное устройство также контролирует передаваемую информацию цветового кода, связанную с передаваемым сигналом, чтобы быстро идентифицировать, который сервер соседней ячейки является источником передаваемого сигнала.
Фиг.3 представляет блок-схему, иллюстрирующую беспроводное устройство для системы беспроводной связи согласно предпочтительному варианту осуществления настоящего изобретения. Фиг.3 представляет собой более детализированную блок-схему беспроводного устройства, описанного выше со ссылкой на фиг.1 и 2. Фиг.3 изображает беспроводное устройство 106, типа показанного на фиг.1. В одном варианте осуществления настоящего изобретения беспроводное устройство 106 представляет собой приемно-передающую радиоустановку, способную принимать и передавать радиочастотные сигналы по каналу связи согласно протоколу связи типа МДКР, МДРЧ, МДКР, СПРОП или ГСМС. Беспроводное устройство 106 работает под управлением контроллера 302, который переключает беспроводное устройство 106 между режимами приема и передачи. В режиме приема контроллер 302 подсоединяет антенну 316 через переключатель 314 прием/передача к приемнику 304. Приемник 304 декодирует принимаемые сигналы и подает эти декодированные сигналы на контроллер 302. В режиме передачи контроллер 302 подсоединяет антенну 316 через переключатель 314 прием/передача, к передатчику 312.
Контроллер 302 управляет передатчиком и приемником в соответствии с командами, хранящимися в запоминающем устройстве 310. Хранящиеся команды включают в себя алгоритм планирования измерений соседних ячеек. Запоминающее устройство 310 представляет собой флэш-память, другое энергонезависимое запоминающее устройство, оперативное запоминающее устройство (ОЗУ), динамическое ОЗУ (ДОЗУ) или подобное устройство. Модуль 311 синхронизирующего устройства обеспечивает информацию синхронизации для контроллера 302, чтобы отслеживать синхронизированные события. Далее, контроллер 302 может использовать информацию о времени от модуля 311 синхронизирующего устройства, чтобы отслеживать планирование для передач серверов соседних ячеек и передаваемую информацию цветового кода.
Когда запланировано измерение соседней ячейки, приемник 304 под управлением контроллера 302 контролирует серверы соседних ячеек и принимает “индикатор качества принимаемого сигнала” (ИКПС). Схема 308 ИКПС генерирует сигналы ИКПС, представляющие качество сигналов, передаваемых каждым контролируемым сервером ячеек. Каждый сигнал ИКПС преобразуется в цифровую информацию аналого-цифровым преобразователем 306 и подается в качестве входного сигнала на контроллер 302. Используя информацию цветового кода и связанный индикатор качества принимаемого сигнала, беспроводное устройство 106 определяет наиболее подходящий сервер соседней ячейки, чтобы использовать его в качестве первичного сервера ячейки, когда необходима передача обслуживания.
Процессор 320 на фиг.3 выполняет различные функции типа функций, приписываемых распределенному распознаванию речи, описанных более подробно ниже. В различных вариантах осуществления настоящего изобретения процессор 320 на фиг.3 представляет собой единственный процессор или больше чем один процессор для выполнения описанных выше задач.
II. Распределенное распознавание речи
Фиг.4 представляет блок-схему, иллюстрирующую обмен данными беспроводного устройства 106 с поставщиком 102 беспроводных услуг. Фиг.4 представляет собой более детализированную блок-схему беспроводного устройства 106, описанного выше со ссылкой на фиг.1 и 2. Также показаны некоторые из функций, которые выполняются в беспроводном устройстве 106. Фиг.4 изображает беспроводное устройство 106 и беспроводную сеть 104, типа показанной на фиг.1. Также показаны процессор 320 и передатчик 312 беспроводного устройства 106, как показано на фиг.3.
В одном варианте осуществления настоящего изобретения беспроводное устройство 106 также включает в себя микрофон 404 для приема звука 402. Затем принимаемый звук 402 обрабатывается процессором 320. Среди процессов, выполняемых процессором 320, процессором 320 квантуются класс и основной тон кадра звука 402. Класс и основной тон кадра звука 402 воплощены по меньшей мере в одном ключевом слове, которое включено в пакет 406. Затем пакет 406 передается передатчиком 312 через сеть 104 на сервер или поставщику 102 беспроводных услуг. Процессы квантования класса и основного тона кадра звука 402 и генерирования по меньшей мере одного ключевого слова более подробно описаны ниже.
Фиг.5 представляет оперативную схему последовательности операций, показывающую полный процесс распределенного распознавания речи согласно предпочтительному варианту осуществления настоящего изобретения. Оперативная схема последовательности операций на фиг.5 изображает процесс, на примере клиента 106, выполнения выделения признаков поступающего звука, и процесс, в сервере или поставщике 102 беспроводных услуг, выполнения распознавания образов. Оперативная схема последовательности операций фиг.5 начинается с этапа 502 и переходит непосредственно к этапу 504.
На этапе 504 клиент 106 принимает звук для передачи на сервер 102. В варианте осуществления, в котором система фиг.1 представляет собой беспроводную сеть, типа описанной на фиг.2, на этапе 504 беспроводное устройство 106 принимает звук 404 (см. фиг.4) через микрофон 404. После этого, на этапе 506, клиент 106 переходит к выполнению выделения признаков на звуке, который был принят. Выделение признаков включает в себя квантование значений основного тона и класса для одного кадра. Выделение признаков описано более подробно ниже. В варианте осуществления беспроводной сети на этапе 506 процессор 320 (см. фиг.3) беспроводного устройства 106 переходит к выполнению выделения признаков на звуке 402.
На этапе 508 клиент 106 генерирует пакетированные данные, включающие в себя извлеченные признаки, для передачи на сервер 102. Генерирование пакета данных описано более подробно ниже. В варианте осуществления беспроводной сети на этапе 508 беспроводное устройство 106 генерирует пакет 406 данных, включающий в себя извлеченные признаки. Затем, на этапе 510, клиент 106 переходит к передаче пакета данных на сервер 102. В варианте осуществления беспроводной сети на этапе 510 передатчик 312 беспроводного устройства 106 переходит к передаче пакета 406 данных провайдеру беспроводной сети или на сервер 102 через беспроводную сеть 104.
На этапе 512, сервер 102 принимает пакетированные данные, посланные клиентом 106, и на этапе 514 сервер 102 переходит к восстановлению звука, основываясь на пакетированных данных. На этапе 516 сервер 102 выполняет распознавание речи, основываясь на пакетированных данных, принятых от клиента 106. В варианте осуществления беспроводной сети на этапе 512 поставщик беспроводных услуг или сервер 102 принимает пакет 406 данных, посланный беспроводным устройством 106, и на этапе 514 поставщик беспроводных услуг или сервер 102 переходит к восстановлению звука, основываясь на пакете 406 данных. На этапе 516 поставщик беспроводных услуг или сервер 102 выполняет распознавание речи, основываясь на пакете 406 данных, принятых от беспроводного устройства 106. На этапе 518 оперативная схема последовательности операций фиг.5 останавливается.
III. Создание пакета данных
A. Первая схема квантования
В предложениях о расширенных стандартах РРР (в ответ на Позиции работы WI-030 и WI-034) информация о классе (или вокализировании) для кадра может принимать четыре возможных значения: 1) отсутствие речи, то есть тишина или фоновый шум, 2) невокализированный сигнал, 3) смешанно-вокализированный и 4) полностью вокализированный сигнал. Эти четыре значения могут в общем разделяться на две категории: отсутствие вокализирования (включающее в себя класс отсутствия речи и невокализированный класс) и вокализированный (включающий в себя смешанно-вокализированный и полностью вокализированный классы). Чтобы квантовать информацию о классах для одного кадра, обычно необходимы 2 бита, поскольку для представления имеется четыре значения классов, и 2 бита могут представлять четыре значения. Информация об основном тоне для кадра может принимать любое значение в пределах от, приблизительно, 19 до, приблизительно, 140 выборок. Чтобы квантовать информацию об основном тоне для одного кадра, например, в виде целочисленных значений, обычно необходимы 7 битов, поскольку для представления имеется 122 значения основного тона, а 7 битов могут представлять 128 значений.
В одном предпочтительном варианте осуществления настоящего изобретения, благодаря объединению информации о классе и информации об основном тоне, можно сохранить один бит на кадр следующим образом. Одно из 7-битовых ключевых слов основного тона (например, ключевое слово с одними нулями) используется для указания, что класс является классом отсутствия вокализирования (то есть, либо отсутствие речи, либо невокализированный). Остальные 127 ненулевых 7-битовых ключевых слов основного тона используются для представления различных значений основного тона, а также информации о том, что класс вокализированный (то есть, либо смешанно-вокализированный, либо полностью вокализированный). То есть, одно из 7-битовых ключевых слов основного тона указывает, что класс является классом отсутствия вокализирования, в то время как остающиеся ключевые слова указывают, что класс вокализированный. Следовательно, один бит класса теперь достаточен для устранения неоднозначности среди двух классов отсутствия вокализирования (то есть, между классом отсутствия речи и невокализированным классом) и среди двух вокализированных классов (то есть, между и смешанно-вокализированным классом и полностью вокализированным классом).
Приведенная ниже таблица показывает один пример значений 7-битовых ключевых слов основного тона и значений 1-битовых ключевых слов, используемых для указания информации об основном тоне и о классе, как описано выше.
Тип класса |
7-битовое ключевое слово основного тона |
7-битовое ключевое слово класса |
Отсутствие речи |
с одними нулями |
0 |
Невокализированный |
с одними нулями |
1 |
Смешанно-вокализированный |
ненулевое |
0 |
Полностью вокализированный |
ненулевое |
1 |
Таким образом, в итоге, согласно настоящему примеру общее количество битов, используемых для представления информации о классе и об основном тоне, составляет 8 битов. Это – в противоположность 9 битам, которые были бы необходимы для представления информации о классе и об основном тоне, если информацию о классе и об основном тоне квантовать отдельно (то есть, 7 битов для основного тона и 2 бита для класса; см. выше). Штраф, который налагается на такую схему, заключается в том, что одно из 128 ключевых слов основного тона используется для указания информации о классе. Из-за относительной неважности одного ключевого слова это имеет очень маленькое (и незначительное) воздействие на точность квантования основного тона.
Фиг.6 представляет оперативную схему последовательности операций, показывающую процесс квантования класса и основного тона согласно предпочтительному варианту осуществления настоящего изобретения. Оперативная схема последовательности операций фиг.6 изображает процесс, на клиенте 106, вычисления информации об основном тоне и о классе и генерирования пакета данных, представляющего ее. Фиг.6 описывает более подробно этапы 506 и 508 фиг.5. Оперативная схема последовательности операций фиг.6 начинается с этапа 602 и переходит непосредственно к этапу 604.
На этапе 604 клиент 106 вычисляет значение основного тона звука, который был принят. В примерном варианте осуществления беспроводной сети, на этапе 604, беспроводное устройство 106 (более конкретно, процессор 320 беспроводного устройства 106) вычисляет значение основного тона звука 402, который был принят через микрофон 404. На этапе 606 клиент 106 выполняет квантование основного тона на основании значения основного тона звука. В одном примере выполняется квантование 7-битового основного тона, как описано выше. В варианте осуществления беспроводной сети, на этапе 606, беспроводное устройство 106 выполняет квантование основного тона на основании значения основного тона звука 402.
На этапе 608 клиент 106 выполняет вычисление класса звука. На этапе 610 клиент 106 определяет, имеет ли класс, который был вычислен на этапе 608, категорию отсутствия вокализирования, то есть является ли он классом отсутствия речи или невокализированным классом. Если результат определения этапа 610 положительный, то управление переходит к этапу 612. Если результат определения этапа 610 отрицательный, то управление переходит к этапу 616.
На этапе 612 клиент 106 устанавливает ключевое слово основного тона для предварительно определенного ключевого слова основного тона, указывающего кадр категории класса отсутствия вокализирования (то есть, класса отсутствия речи или невокализированного класса). В одном примере клиент 106 устанавливает 7-битовое ключевое слово основного тона на все нули – предварительно определенное ключевое слово основного тона, указывающее кадр класса отсутствия речи или невокализированного класса. На этапе 614 клиент 106 устанавливает ключевое слово класса для указания класса кадра категории класса отсутствия вокализирования (то есть либо класса отсутствия речи, либо невокализированного класса). В одном примере клиент 106 устанавливает 1-битовое ключевое слово класса, указывающее либо класс отсутствия речи, либо невокализированный класс.
На этапе 616 клиент 106 устанавливает ключевое слово основного тона на значение основного тона, сгенерированное для квантования основного тона, выполненного на этапе 604. В одном примере клиент 106 устанавливает 7-битовое ключевое слово основного тона на значение основного тона, сгенерированное для квантования основного тона, выполненного на этапе 604. На этапе 618 клиент 106 устанавливает ключевое слово класса для указания класса кадра вокализированной категории класса (то есть либо смешанно-вокализированного, либо полностью вокализированного). В одном примере клиент 106 устанавливает 1-битовое ключевое слово класса, указывающее либо смешанно-вокализированный, либо полностью вокализированный класс. На этапе 620 оперативная схема последовательности операций фиг.6 останавливается.
Фиг.7 представляет блок-схему, иллюстрирующую обычные распределения битов для процесса квантования класса и основного тона. Фиг.7 изображает, что семь битов представляют квантование 702 основного тона. Таким образом, для представления периодических данных основного тона одного кадра звука используются 128 возможных значений. Фиг.7 также изображает, что два бита представляют квантование 704 класса. Таким образом, четыре возможных значения используются для представления класса одного кадра звука. Четыре класса определяются следующим образом: отсутствие речи, невокализированный, смешанно-вокализированный и полностью вокализированный. Поэтому, согласно фиг.7 для представления значений квантования основного тона и класса для одного кадра звука используется общее количество девять битов.
Фиг.8 представляет блок-схему, иллюстрирующую распределения битов для процесса квантования класса и основного тона согласно предпочтительному варианту осуществления настоящего изобретения. Фиг.8 изображает распределения битов для квантования класса и основного тона согласно настоящему изобретению. Фиг.8 изображает, что семь битов представляют квантование 802 основного тона. Однако из 128 возможных значений, доступных с семью битами, для представления периодических данных основного тона одного кадра звука используются только 127 значений. Остающееся одно значение используется для указания информации о классе, в частности, категории класса отсутствия вокализирования (то есть класса отсутствия речи или невокализированного класса). Предпочтительно, одно значение 802, используемое для указания категории класса, представляет собой все нули, и это значение указывает кадр категории класса отсутствия вокализирования (то есть класса отсутствия речи или невокализированного класса). Другие 127 значений 802 используются для указания значения основного тона кадра вокализированной категории класса (то есть смешанно-вокализированного класса или полностью вокализированного класса).
Фиг.8 также изображает, что один бит представляет квантование 804 класса. Это является существенным преимуществом настоящего изобретения. Таким образом, два возможных значения или ключевые слова, используются, чтобы дополнительно представлять класс одного кадра звука. Два возможных значения используются для установления различий среди категории класса отсутствия вокализирования (то есть класса отсутствия речи или невокализированного класса) и среди кадра вокализированной категории класса (то есть смешанно-вокализированного класса или полностью вокализированного класса). Предпочтительно, нулевое значение 804 используется для указания класса отсутствия речи, если 802 представляет собой все нули, нулевое значение 804 используется для указания смешанно-вокализированного класса, если 802 не представляет собой все нули, значение одного из 804 используется для указания невокализированного класса, если 802 представляет собой все нули, и значение одного из 804 используется для указания полностью вокализированного класса, если 802 не представляет собой все нули (см. таблицу выше). Поэтому согласно фиг.8 для представления значений квантования основного тона и класса для одного кадра звука используется общее количество восемь битов.
B. Вторая схема квантования
В предложениях о расширенных стандартах РРР период основного тона оценивается для каждого кадра и обновляется каждые 10 мс (или 100 раз в секунду). Оцениваемый период основного тона может принимать дробные значения и диапазоны от, приблизительно, 19 до, приблизительно, 140 выборок при частоте дискретизации 8 кГц. Поэтому, оцениваемые частоты основного тона находятся в диапазоне от, приблизительно, 57 Гц до, приблизительно, 420 Гц. При выполнении процесса квантования основного тона желательно достигать точности, то есть низкой ошибки квантования, низкой скорости передачи в битах и устойчивости против ошибок канала.
В предпочтительном варианте осуществления настоящего изобретения все кадры с четными номерами (начиная с первого кадра, пронумерованного нулем) квантуются с использованием 7 битов, а все кадры с нечетными номерами квантуются с использованием 5 битов. При рассмотрении в виде пар кадров первый кадр в паре кадров квантуется с использованием 7 битов, а второй кадр в паре кадров квантуется с использованием 5 битов. Таким образом, среднее количество битов на кадр составляет шесть. Это соответствует скорости передачи в битах, равной 600 битов в секунду, обусловленной единственно квантованием основного тона.
Для кадров с четными номерами используется абсолютная схема квантования. Из этих доступных 128 ключевых слов одно ключевое слово (то есть ключевое слово с одними нулями) используется для передачи информации о классе категории отсутствия вокализирования, то есть для указания, что кадр представляет собой отсутствие речи или невокализированный кадр. Остальные 127 ключевых слов используются для квантования периода основного тона. Эта схема описана более подробно выше. Диапазон основного тона от, приблизительно, 19 до, приблизительно, 140 выборок одинаково разделен (в логарифмической области определения) на 127 регионов, и средние точки этих регионов выбраны в качестве уровней реконструкции. Для любого данного значения основного тона соответствующее квантованное значение основного тона выбирается, как самый близкий уровень реконструкции в линейной области определения. Эти 127 ключевых слов назначаются взаимно однозначным образом для 127 уровней реконструкции. Максимальная ошибка квантования при таком проектном решении устройства квантования составляет приблизительно 0,8%.
Для кадров с нечетными номерами большую часть времени используется дифференциальная схема квантования. Однако при некоторых ситуациях (как показано в таблице ниже) также используется абсолютная схема квантования. Для дифференциальной схемы квантования исходную точку следует выбирать так, чтобы можно было квантовать разность между значением периода основного тона текущего кадра и значением исходной точки (или более подходяще, отношение этих двух значений). Хотя квантованный период основного тона предыдущего кадра обеспечивает наилучшую возможную исходную точку, этот кадр может не всегда иметь вокализированную категорию класса (то есть либо смешанно-вокализированного, либо полностью вокализированного класса). Поэтому в качестве исходной точки выбирается квантованное значение периода основного тона одного из предшествующих трех кадров. То есть, дифференциальное квантование второго кадра из пары кадров выполняется с использованием квантованного значения периода основного тона первого кадра из пары кадров или любого из двух квантованных значений периода основного тона предыдущей пары кадров в качестве исходной точки.
На стороне сервера важно ограничить распространение ошибок из-за ошибки в одном из декодированных значений периода основного тона. Для этой цели мы идентифицируем каждое квантованное значение основного тона на клиентской стороне, как являющееся либо достоверным (R), либо недостоверным (U), чтобы оно служило в качестве исходной точки. Каждое абсолютно квантованное значение основного тона рассматривается как достоверное. Каждое дифференциально квантованное значение основного тона рассматривается как достоверное, если исходная точка, используемая для ее квантования, представляет собой квантованное значение периода основного тона первого кадра из той же самой пары кадров. Поскольку значения периода основного тона соседних кадров являются в общем близкими друг к другу, значения периода основного тона около значения исходной точки являются точно квантованными, а период основного тона, расположенный дальше от исходной точки, грубо квантуется. Уровни квантования, выбранные для дифференциального квантования, зависят от того, которое из трех предшествующих квантованных значений основного тона было выбрано в качестве исходной точки, также как от значения исходной точки. Приведенная ниже таблица иллюстрирует, как квантуются значения периода основного тона кадров с нечетными номерами.
P(-2) |
P(-1) |
P(0) |
Предпринятое действие |
0 |
0 |
0 |
Абсолютное квантование |
0 |
1U |
0 |
Абсолютное квантование |
* |
* |
1 |
Дифференциальное квантование: Исходная точка P(0) |
* |
1R |
0 |
Дифференциальное квантование: Исходная точка P(-1) |
1 |
0 |
0 |
Дифференциальное квантование: Исходная точка P(-2) |
1 |
1U |
0 |
Дифференциальное квантование: Исходная точка P(-2) |
В приведенной выше таблице значение, подлежащее квантованию, представляет собой P(1), значение периода основного тона второго кадра из пары кадров. Значение исходной точки представляет собой квантованное значение периода основного тона одного из трех предшествующих кадров, то есть P(0), квантованное значение периода основного тона первого кадра из той же самой пары кадров, P(-1), квантованное значение периода основного тона второго кадра из предыдущей пары кадров, и P(-2), квантованное значение периода основного тона первого кадра из предыдущей пары кадров.
В таблице значение “0” указывает, что соответствующий кадр представляет собой класс категории отсутствия вокализирования (то есть класс отсутствия речи или невокализированный класс). Значение “1” указывает, что соответствующий кадр представляет собой вокализированную категорию класса (то есть класс смешанно-вокализированный или класс полностью вокализированный), и его квантованное значение периода основного тона можно использовать в качестве исходной точки. Для дифференциально квантованного P(-1) мы также имеем “1R” и “1U” для указания, является ли квантованное значение периода основного тона достоверным или недостоверным, соответственно. Символ “*” указывает, что квантованный период основного тона является несущественным, то есть значение может быть “0” или “1”, и это не делает разницы. В качестве исходных условий мы полагаем, что Р(-1) = 0 и Р(-2) = 0, и в кодере (то есть клиенте 106), и в декодере (то есть, сервере 102). Последний столбец указывает, квантован ли основной тон абсолютно или дифференциально, и если дифференциально, используемый кадр исходной точки.
Когда три предшествующих кадра имеют класс категории отсутствия вокализирования или когда единственное доступное значение исходной точки является недостоверным Р(-1), Р(1) абсолютно квантуется, с использованием 5 битов. Одно ключевое слово, типа ключевого слова с одними нулями, используется для указания, что кадр имеет класс категории отсутствия вокализирования. Остальные 31 ключевое слово используются для квантования периода основного тона Р(1) способом, аналогичным используемому для квантования значений периода основного тона кадров с четными номерами. Опция абсолютного квантования, использующая 5 битов, выбирается обычно для первого кадра вокализированного сегмента или для некоторых ошибочно классифицированных кадров, принадлежащих к условию фона с шумами. Или в случае, когда немного большая ошибка квантования, обусловленная использованием только 5 битов, не вызывает какую-либо существенную потерю качества или разборчивости речи. Использование только 5 битов помогает ограничивать распространение ошибок декодирования, как мы объясним позже.
Когда первый кадр из пары кадров имеет класс вокализированной категории, тогда в качестве исходной точки, независимо от значений Р(-1) и Р(-2), всегда выбирается соответствующее квантованное значение периода основного тона. Согласно примерному варианту осуществления из 32 возможных ключевых слов (используя 5-битовое квантование значения периода основного тона), одно ключевое слово, типа ключевого слова с одними нулями, используется для указания, что текущий кадр представляет собой кадр отсутствие речи/невокализированный кадр. Двадцать семь ключевых слов используются, чтобы охватить небольшой диапазон основного тона вокруг значения исходной точки логарифмическим способом (аналогично 7-битовому абсолютному квантованию, обсуждавшемуся выше). Оба конечных пункта диапазона основного тона представляют уровни реконструкции. Остальные четыре уровня используются для грубого квантования остальной части диапазона основного тона, как обозначено в таблице. Следует отметить, что эти четыре выбранные уровня зависят от значения Р(0). Например, если Р(0) маленькое, то эти четыре уровня больше, чем Р(0). С другой стороны, если Р(0) большое, то все четыре уровня меньше, чем Р(0).
Когда первый кадр из пары кадров имеет класс невокализированной категории, тогда в качестве исходной точки выбирается либо Р(-1), либо Р(-2). Если Р(-1) соответствует кадру класса вокализированной категории и достоверен, то он выбирается в качестве исходной точки независимо от значения Р(-2). Если Р(-1) соответствует кадру класса невокализированной категории или соответствует кадру класса вокализированной категории, но является недостоверным, а Р(-2) соответствует кадру класса вокализированной категории, то в качестве исходной точки выбирается Р(-2). Независимо от того, выбирается ли в качестве исходной точки Р(-1) или Р(-2), способ квантования подобен. Одно из ключевых слов, типа ключевого слова с одними нулями, используется для указания, что текущий кадр имеет класс категории отсутствия вокализирования. Двадцать пять ключевых слов используются, чтобы охватить небольшой диапазон основного тона вокруг значения исходной точки логарифмическим способом (аналогично 7-битовому абсолютному квантованию, обсуждавшемуся выше). Оба граничные значения диапазона основного тона представляют уровни реконструкции. Остальные шесть уровней используются для грубого квантования остальной части диапазона основного тона.
Вышеупомянутая схема квантования удовлетворяет требованиям к точности, низкой скорости передачи в битах и ошибкоустойчивости следующим образом. При квантовании значений периода основного тона кадров с четными номерами с 7 битами и кадров с нечетными номерами с 5 битами в среднем сохраняется 1 бит на кадр, то есть 100 битов в секунду. В то же самое время точность не подвергается риску. Семибитовое абсолютное квантование является достаточно точным. Пятибитовое абсолютное квантование обычно используется для первого кадра вокализированного сегмента и для некоторых кадров фона с шумами. Или в случае, когда недостаток точности не является критическим и не затрагивает качество или разборчивость восстановленной речи каким-либо существенным образом. С 5-битовым дифференциальным квантованием значения периода основного тона, которые являются близкими к значению исходной точки, квантуются довольно точно. Они представляют собой значения периода основного тона высокой вероятности. Значения периода основного тона, которые находятся дальше от значения исходной точки, имеют низкую вероятность и квантуются грубо. Еще раз, большая ошибка в квантовании этих значений не является критической и не затрагивает значительно качество или разборчивость восстановленной речи.
Распространение ошибок в настоящем изобретении ограничено посредством идентифицирования дифференциально квантованных значений периода основного тона, как достоверные и недостоверные, и использования 5-битового абсолютного квантования для кадров с нечетными номерами всякий раз, когда нет доступного значения исходной точки, или единственное доступное значение исходной точки является недостоверным. Например, рассмотрим ситуацию, где был стерт ряд пар кадров. Это представляет собой наиболее обычный тип ситуации ошибки канала для канала РРР. Предположим, что биты, соответствующие кадрам, следующим за стираниями, были приняты правильно. Если первый кадр из пары кадров, следующей за стираниями, является вокализированным кадром, то вообще нет никакого распространения ошибки. Это происходит из-за того, что первый кадр всегда является абсолютно квантованным (с использованием 7 битов), а второй кадр является дифференциально квантованным, с использованием квантованного значения периода основного тона первого кадра в качестве исходной точки. По существу, следующие кадры не зависят ни от одного из стертых кадров.
Если первый кадр имеет класс категории отсутствия вокализирования, то второй кадр не может быть декодирован правильно, если он также не является классом категории отсутствия вокализирования. Это происходит из-за того, что значение основного тона второго кадра могло быть дифференциально квантовано с использованием квантованного значения основного тона одного из последних стертых кадров в качестве исходной точки. В этом случае ошибка распространяется на второй кадр, следующий за стираниями.
Если третий кадр имеет класс вокализированной категории, то распространение ошибки прекращается, потому что квантованные значения периода основного тона всех кадров, следующих за третьим кадром, не зависят от стертых кадров или правильно принятой пары кадров, следующей за стираниями. Если третий кадр имеет класс категории отсутствия вокализирования, то квантованное значение периода основного тона четвертого кадра может быть успешно декодировано, потому что оно должно быть абсолютно квантованным, при условии, что первый и третий кадры имеют класс не вокализированной категории, а второй кадр является недостоверным. Поэтому распространение ошибки после стирания одной или более пар кадров прекращается максимум после двух кадров.
Точно так же, можно показать, что любая ошибка в декодированном значении периода основного тона кадра с четным номером (из-за случайных ошибок в битах) может распространяться самое большее до трех кадров. Кроме того, любая ошибка в декодированном значении периода основного тона кадра с нечетным номером (из-за случайных ошибок в битах) может распространяться самое большее до двух кадров.
Фиг.9A, 9B и 9C представляют оперативную схему последовательности операций, показывающую другой процесс квантования основного тона согласно предпочтительному варианту осуществления настоящего изобретения. Оперативная схема последовательности операций фиг.9A, 9B и 9C изображает процесс, на клиенте 106, вычисления информации об основном тоне для одного кадра, генерирование пакета данных, представляющего этот кадр, и продолжение со следующим кадром. Фиг.9A, 9B и 9C более подробно описывают этапы 506 и 508 фиг.5. Оперативная схема последовательности операций фиг.9A, 9B и 9C начинается с этапа 902 (на фиг.9A) и переходит непосредственно к этапу 904.
На этапе 903 клиент 106 вычисляет значение основного тона звука для текущего кадра. В варианте осуществления беспроводной сети, на этапе 903, беспроводное устройство 106 (более определенно, процессор 320 беспроводного устройства 106) вычисляет значение основного тона звука 402, который был принят через микрофон 404. На этапе 904 клиент 106 определяет, является ли текущий кадр кадром с четным или кадром с нечетным номером. Если результат определения этапа 904 является четным, то управление переходит к этапу 910. Если результат определения этапа 904 является нечетным, то управление переходит к этапу 905. На этапе 905 текущий кадр представляет собой нечетный кадр, и таким образом, клиент 106 переходит к нахождению адекватного кадра исходной точки с целью его использования для дифференциального квантования основного тона. На этапе 906 управление переходит непосредственно к этапу 916(B) фиг.9B.
На этапе 910 клиент 106 выполняет абсолютное квантование основного тона, основанное на значении основного тона звука. В одном примере, выполняется 7-битовое абсолютное квантование основного тона, как описано выше. В варианте осуществления беспроводной сети, на этапе 910, беспроводное устройство 106 выполняет абсолютное квантование основного тона, основанное на значении основного тона звука 402.
На этапе 912 клиент 106 устанавливает ключевое слово основного тона для значения основного тона, сгенерированного для абсолютного квантования основного тона, выполненного на этапе 910. В одном примере, клиент 106 устанавливает 7-битовое ключевое слово основного тона для значения основного тона, сгенерированного для абсолютного квантования основного тона, выполненного на этапе 910. На этапе 915 (E) управление переходит непосредственно к этапу 914. На этапе 914 процесс квантования основного тона продвигается к следующему кадру, и управление переходит непосредственно назад, к этапу 903.
На этапе 916 (B) фиг.9B, управление переходит непосредственно к этапу 917. На этапе 917 клиент 106 определяет, является ли класс кадра, непосредственно предшествующего текущему кадру “0”, классом вокализированной категории (то есть смешанно-вокализированным классом или полностью вокализированным классом). Следует отметить, что на фиг.9B и 9C текущий кадр обозначен кадром “0”, кадр, непосредственно предшествующий кадру “0”, обозначен кадром “-1”, кадр, непосредственно предшествующий кадру “-1”, обозначен кадром “-2”, а кадр, непосредственно предшествующий кадру “-2”, обозначен кадром “-3”. Если результат определения этапа 917 положительный, то управление переходит к этапу 940. Если результат определения этапа 917 является отрицательным, то управление переходит к этапу 920. На этапе 920 клиент 106 переходит к предыдущему кадру, чтобы продолжить поиск адекватного кадра исходной точки с целью его использования для дифференциального квантования основного тона.
На этапе 927 клиент 106 определяет, является ли класс кадра “-2” классом вокализированной категории (то есть смешанно-вокализированным классом или полностью вокализированным классом). Если результат определения этапа 927 положительный, то управление переходит к этапу 928. Если результат определения этапа 927 является отрицательным, то управление переходит к этапу 930. На этапе 928 клиент 106 определяет, было ли значение основного тона кадра “-2” абсолютно квантованным. Если результат определения этапа 928 положительный, то управление переходит к этапу 940. Если результат определения этапа 928 является отрицательным, то управление переходит к этапу 929. На этапе 929 клиент 106 определяет, было ли значение основного тона кадра “-2” дифференциально квантованным и является ли достоверным (оно было дифференциально квантованным и со ссылкой на кадр, непосредственно ему предшествующий). Если результат определения этапа 929 положительный, то управление переходит к этапу 940. Если результат определения этапа 929 является отрицательным, то управление переходит к этапу 930.
На этапе 930 клиент 106 переходит к предыдущему кадру, чтобы продолжить поиск адекватного кадра исходной точки с целью его использования для дифференциального квантования основного тона. На этапе 937 клиент 106 определяет, является ли класс кадра “-3” классом вокализированной категории (то есть смешанно-вокализированным классом или полностью вокализированным классом). Если результат определения этапа 937 положительный, то управление переходит к этапу 940. Если результат определения этапа 937 является отрицательным, то управление переходит к этапу 942. Этап 940 переходит непосредственно к этапу 960 (C) фиг.9C, а этап 942 переходит непосредственно к этапу 950 (D) фиг.9C.
На этапе 950 (D) фиг.9C, управление переходит непосредственно к этапу 952. На этапе 952 определяется, что для дифференциального квантования текущего кадра “0” адекватный кадр исходной точки не был найден. На этапе 956 клиент 106 выполняет абсолютное квантование основного тона, основанное на значении основного тона звука. В одном примере выполняется 5-битовое абсолютное квантование основного тона, как описано выше. В варианте осуществления беспроводной сети на этапе 956 беспроводное устройство 106 выполняет абсолютное квантование основного тона, основанное на значении основного тона звука 402. На этапе 958, клиент 106 устанавливает ключевое слово основного тона для значения основного тона, сгенерированного для абсолютного квантования основного тона, выполненного на этапе 956. В одном примере клиент 106 устанавливает 5-битовое ключевое слово основного тона для значения основного тона, сгенерированного для абсолютного квантования основного тона, выполненного на этапе 956.
На этапе 960 (C) фиг.9C, управление переходит непосредственно к этапу 962. На этапе 962 определяется, что адекватный кадр исходной точки для дифференциального квантования текущего кадра “0” был найден. На этапе 966 клиент 106 выполняет дифференциальное квантование основного тона со ссылкой на идентифицированный кадр исходной точки. В одном примере выполняется 5-битовое дифференциальное квантование основного тона, как описано выше. На этапе 968 клиент 106 устанавливает ключевое слово основного тона для значения основного тона, сгенерированного для дифференциального квантования основного тона, выполненного на этапе 966. В одном примере клиент 106 устанавливает 5-битовое ключевое слово основного тона для значения основного тона, сгенерированного для дифференциального квантования основного тона, выполненного на этапе 966.
На этапе 970 управление переходит непосредственно назад к этапу 915 (E) фиг.9A. На этапе 915 (E) управление переходит непосредственно к этапу 914. На этапе 914 процесс квантования основного тона продвигается к следующему кадру, и управление переходит непосредственно назад к этапу 903.
C. Обзор предшествующего уровня техники
В стандарте смешанного возбуждения с линейным предсказанием (СВЛП) (стандарт телекоммуникаций) нет никакого различия между кадрами отсутствия речи и кадрами невокализированной речи. Оба класса объединены вместе и обозначены нулевым значением периода основного тона. Дополнительные 4 бита используются для квантования информации о классе, когда период основного тона больше нуля, то есть, когда кадр имеет класс вокализированной категории (например, смешанно-вокализированной или полностью вокализированной). Эти 4 бита идентифицируют вокализирование в различных диапазонах речевого спектра. Значение основного тона абсолютно квантуется с использованием 7 битов. Поэтому, в СВЛП нет сохранения битов, типа описанного в настоящем изобретении.
В LPC-10 (другой стандарт телекоммуникаций) 7 битов используются для указания кадра и основного тона класса вокализированной категории. Имеются 60 уровней периода основного тона, и 3 уровня используются для указания, что: 1) оба полукадра имеют класс категории отсутствия вокализирования (то есть класс отсутствия речи и невокализированный класс), 2) только второй полукадр имеет класс вокализированной категории (то есть смешанно-вокализированный класс и полностью вокализированный класс) или 3) только первый полукадр имеет класс вокализированной категории. Поэтому LPC-10 делает различие только между классом вокализированной категории и классом невокализированной категории. LPC-10 не делает различие среди класса вокализированной категории (то есть между классами отсутствия речи и невокализированным) или среди класса невокализированной категории (то есть между смешанно-вокализированным и полностью вокализированным классами). Настоящее изобретение расширяет LPC-10 с помощью введения класса отсутствия речи и невокализированного класса в классе категории отсутствия вокализирования и смешанно-вокализированного и полностью вокализированного классов в классе вокализированной категории.
IV. Примерные выполнения
Настоящее изобретение может быть реализовано в аппаратном обеспечении, программном обеспечении или в комбинации аппаратного обеспечения и программного обеспечения в клиентах 106, 108 или сервере 102 на фиг.1. Система согласно предпочтительному варианту осуществления настоящего изобретения, как описано на фиг.5, 6, 9A, 9B и 9C, может быть реализована централизованным способом в одной компьютерной системе, или распределенным способом, где различные элементы распределены по нескольким связанным компьютерным системам. Любой вид компьютерной системы – или другой аппаратуры, адаптированной к выполнению описанных здесь способов, является подходящим. Типичная комбинация аппаратного обеспечения и программного обеспечения может представлять собой компьютерную систему общего назначения с компьютерной программой, которая, при загрузке и выполнении, управляет компьютерной системой таким образом, что она выполняет описанные здесь способы.
Вариант осуществления настоящего изобретения также может быть воплощен в компьютерном программном продукте (в клиентах 106 и 108 и сервере 102), который содержит все признаки, допускающие выполнение описанных здесь способов, и который, когда загружен в компьютерную систему, способен выполнять эти способы. Средство компьютерной программы или компьютерная программа, как используется в настоящем изобретении, указывает любое выражение, на любом языке, коде или системе обозначений, набора команд, предназначенных для принуждения системы, имеющей возможность обработки информации, выполнять конкретную функцию либо непосредственно, либо после любого или обоих из следующих действий: a) перехода к другому языку, коду или системе обозначений; и b) воспроизведения в другой материальной форме.
Компьютерная система может включать в себя, inter alia (между прочим), один или больше компьютеров и по меньшей мере пригодную для чтения компьютером среду, позволяющую компьютерной системе считывать данные, команды, сообщения или пакеты сообщений, и другую считываемую компьютером информацию с пригодной для чтения компьютером среды. Пригодная для чтения компьютером среда может включать в себя энергонезависимое запоминающее устройство, типа ПЗУ, флэш-памяти, дискового запоминающего устройства, CD-ROM (неперезаписываемого компакт-диска) и другую нестираемую память. Дополнительно, пригодная для чтения компьютером среда может включать в себя, например, энергозависимую память типа ОЗУ, буферы, кэш-память и сетевые схемы. Кроме того, пригодная для чтения компьютером среда может содержать считываемую компьютером информацию в среде с временным состоянием типа сетевой линии связи и/или сетевого интерфейса, включая проводную сеть или беспроводную сеть, которые позволяют компьютерной системе считывать такую считываемую компьютером информацию.
Фиг.10 представляет блок-схему компьютерной системы, полезной для выполнения варианта осуществления настоящего изобретения. Компьютерная система фиг.10 является более детализированным представлением клиентов 106 и 108 и сервера 102. Компьютерная система фиг.10 включает в себя один или более процессоры, типа процессора 1004. Процессор 1004 подсоединен к инфраструктуре 1002 связи (например, коммуникационной шине, шине с перекрестными проводниками или сети). Различные программные варианты осуществления описаны в терминах этой примерной компьютерной системы. После чтения этого описания специалисту в данной области (областях) техники станет очевидно, как реализовать изобретение, используя другие компьютерные системы и/или архитектуры вычислительных систем.
Компьютерная система может включать в себя устройство 1008 сопряжения дисплея, которое переправляет графики, текст и другие данные от инфраструктуры 1002 связи (или от кадрового буфера, не показанного) для дисплея на устройство 1010 отображения. Компьютерная система также включает в себя оперативную память 1006, предпочтительно оперативное запоминающее устройство (ОЗУ), и может также включать в себя вторичную память 1012. Вторичная память 1012 может включать в себя, например, накопитель 1014 на жестких магнитных дисках и/или накопитель 1016 для хранения данных со съемным носителем, представляющий накопитель на гибких магнитных дисках, накопитель на магнитной ленте, накопитель на оптических дисках и т.д. Накопитель 1016 для хранения данных со съемным носителем считывает и/или записывает на устройство 1018 хранения данных со съемным носителем способом, известным специалистам в данной области техники. Устройство 1018 хранения данных со съемным носителем представляет собой гибкий диск, магнитную ленту, оптический диск, и т.д., которое считывается и записывается накопителем 1016 для хранения данных со съемным носителем. Как должно быть понятно, устройство 1018 хранения данных со съемным носителем включает в себя пригодный для использования компьютером носитель данных, имеющий хранящееся там программное обеспечение для компьютеров и/или данные.
В альтернативных вариантах осуществления вторичная память 1012 может включать в себя другие аналогичные средства для обеспечения возможности загружать компьютерные программы или другие команды в компьютерную систему. Такие средства могут включать в себя, например, устройство 1022 хранения данных со съемным носителем и интерфейс 1020. Примеры таких устройств могут включать в себя картридж программ и интерфейс картриджа (типа находящегося в устройствах видеоигр), съемную микросхему памяти (типа ЭСППЗУ (электрически стираемого ППЗУ) или ППЗУ (программируемого ПЗУ)) и связанный разъем, и другие устройства 1022 хранения данных со съемным носителем и интерфейсы 1020, которые позволяют передавать программное обеспечение и данные от устройства 1022 хранения данных со съемным носителем на компьютерную систему.
Компьютерная система также может включать в себя связной интерфейс 1024. Связной интерфейс 1024 позволяет передавать программное обеспечение и данные между компьютерной системой и внешними устройствами. Примеры связного интерфейса 1024 могут включать в себя модем, сетевой интерфейс (типа сетевой карты Ethernet), связной порт, разъем и плату PCMCIA (Международная ассоциация производителей плат памяти для персональных компьютеров), и т.д. Программное обеспечение и данные, передаваемые через связной интерфейс 1024, находятся в форме сигналов, которые могут быть, например, электронными, электромагнитными, оптическими или другими сигналами, которые способен принимать связной интерфейс 1024. Эти сигналы подаются на связной интерфейс 1024 через канал связи (то есть канал) 1026. Этот канал 1026 переносит сигналы и может быть выполнен с использованием провода или кабеля, волоконно-оптического кабеля, телефонной линии, линии связи сотового телефона, радиочастотной линии связи и/или других каналов связи.
В этом документе термины “среда компьютерной программы”, “пригодная для использования компьютером среда”, “машинно-читаемая среда” и “пригодная для чтения компьютером среда” используются в общем, как относящиеся к носителям информации типа оперативной памяти 1006 и вторичной памяти 1012, накопителя 1016 для хранения данных со съемным носителем, жесткого диска, установленного в накопителе 1014 на жестких дисках, и сигналам. Эта продукция компьютерных программ представляет собой средство для предоставления программного обеспечения для компьютерной системы. Пригодная для чтения компьютером среда позволяет компьютерной системе считывать данные, команды, сообщения или пакеты сообщений и другую считываемую компьютером информацию с пригодной для чтения компьютером среды. Пригодная для чтения компьютером среда, например, может включать в себя энергонезависимое запоминающее устройство, типа дискеты, ПЗУ, флэш-памяти, памяти накопителя на магнитных дисках, CD-ROM и другой нестираемой памяти. Это полезно, например, для переноса информации, типа данных и компьютерных команд, между компьютерными системами. Кроме того, пригодная для чтения компьютером среда может содержать считываемую компьютером информацию в среде с временным состоянием типа сетевой линии связи и/или сетевого интерфейса, включая проводную сеть или беспроводную сеть, которые позволяют компьютеру считывать такую считываемую компьютером информацию.
Компьютерные программы (также называемые логикой управления с помощью компьютера) хранятся в оперативной памяти 1006 и/или во вторичной памяти 1012. Компьютерные программы также могут приниматься через связной интерфейс 1024. Такие компьютерные программы, при выполнении, дают возможность компьютерной системе выполнять признаки настоящего изобретения, как здесь обсуждалось. В частности, компьютерные программы, при выполнении, дают возможность процессору 1004 выполнять функции компьютерной системы. В соответствии с этим такие компьютерные программы представляют собой контроллеры компьютерной системы.
V. Заключение
Хотя здесь были раскрыты конкретные варианты осуществления изобретения, специалисту в данной области техники должно быть понятно, что в конкретных вариантах осуществления можно делать изменения, не отступая при этом от объема и сущности изобретения. Следовательно, объем изобретения не должен быть ограничен конкретными вариантами осуществления. Кроме того, предполагается, что прилагаемая формула изобретения охватывает любые и все такие применения, модификации и варианты осуществления в пределах объема настоящего изобретения.
Формула изобретения
1. Способ в системе обработки информации для квантования информации об основном тоне звука, содержащий
захват звука с представлением пронумерованного кадра из множества пронумерованных кадров,
вычисление класса кадра, в котором класс представляет собой любой из вокализированного класса и невокализированного класса,
если кадр представляет собой вокализированный класс, вычисление основного тона для кадра,
если кадр представляет собой кадр с четным номером и вокализированный класс, вычисление ключевого слова первой длины посредством абсолютного квантования основного тона кадра,
если кадр представляет собой кадр с четным номером и невокализированный класс, вычисление ключевого слова первой длины, указывающего кадр невокализированного класса,
если кадр представляет собой кадр с нечетным номером и вокализированный класс и по меньшей мере один из трех кадров, непосредственно предшествующих этому кадру, является достоверным, вычисление ключевого слова второй длины посредством дифференциального квантования основного тона кадра, ссылаясь на квантованный основной тон самого близкого предшествующего достоверного кадра, в котором первая длина больше, чем вторая длина,
если кадр представляет собой кадр с нечетным номером и вокализированный класс и каждый из трех кадров, непосредственно предшествующих этому кадру, является недостоверным, вычисление ключевого слова второй длины посредством абсолютного квантования основного тона кадра и,
если кадр представляет собой кадр с нечетным номером и невокализированный класс, вычисление ключевого слова второй длины, указывающего кадр невокализированного класса.
2. Способ по п.1, в котором кадр с четным номером является достоверным, если он представляет собой вокализированный класс.
3. Способ по п.2, в котором кадр с нечетным номером является достоверным, если он представляет собой вокализированный класс, а основной тон кадра квантуется абсолютно или квантуется дифференциально, ссылаясь на основной тон непосредственно предшествующего кадра.
4. Способ по п.1, в котором система обработки информации представляет собой любой из клиентского компьютера и беспроводного устройства типа мобильного телефона.
5. Способ по п.4, в котором звук относится к речи.
6. Способ по п.5, в котором кадр включает в себя от приблизительно 20 до приблизительно 30 мс звука, а последовательные кадры могут перекрывать друг друга в течение периода от приблизительно 10 до приблизительно 15 мс.
7. Способ по п.1, дополнительно содержащий передачу ключевого слова, которое было рассчитано, на сервер.
8. Система обработки информации для квантования информации об основном тоне звука, содержащая
микрофон для захвата звука с представлением пронумерованного кадра из множества пронумерованных кадров и
цифровой процессор сигналов, предназначенный для
вычисления класса кадра, в котором класс представляет собой любой из вокализированного класса и невокализированного класса,
если кадр представляет собой вокализированный класс, вычисление основного тона для кадра,
если кадр представляет собой кадр с четным номером и вокализированный класс, вычисление ключевого слова первой длины посредством абсолютного квантования основного тона кадра,
если кадр представляет собой кадр с четным номером и невокализированный класс, вычисление ключевого слова первой длины, указывающего кадр невокализированного класса,
если кадр представляет собой кадр с нечетным номером и вокализированный класс и по меньшей мере один из трех кадров, непосредственно предшествующих этому кадру, является достоверным, вычисление ключевого слова второй длины посредством дифференциального квантования основного тона кадра, ссылаясь на квантованный основной тон ближайшего предшествующего достоверного кадра, в котором первая длина больше, чем вторая длина,
если кадр представляет собой кадр с нечетным номером и вокализированный класс и каждый из трех кадров, непосредственно предшествующих этому кадру, является недостоверным, вычисление ключевого слова второй длины посредством абсолютного квантования основного тона кадра и,
если кадр представляет собой кадр с нечетным номером и невокализированный класс, вычисления ключевого слова второй длины, указывающего кадр невокализированного класса.
9. Система обработки информации по п.8, в которой кадр с четным номером является достоверным, если он представляет собой вокализированный класс.
10. Система обработки информации по п.9, в которой кадр с нечетным номером является достоверным, если он представляет собой вокализированный класс, а основной тон кадра квантуется абсолютно или квантуется дифференциально, ссылаясь на основной тон непосредственно предшествующего кадра.
11. Система обработки информации по п.8, в которой система обработки информации представляет собой любой из клиентского компьютера и беспроводного устройства типа мобильного телефона.
12. Система обработки информации по п.11, в которой звук относится к речи.
13. Система обработки информации по п.12, в которой кадр включает в себя от приблизительно 20 до приблизительно 30 мс звука, а последовательные кадры могут перекрывать друг друга в течение периода от приблизительно 10 до приблизительно 15 мс.
14. Система обработки информации по п.8, дополнительно содержащая передатчик для передачи ключевого слова, которое было рассчитано, на сервер.
15. Система обработки информации для квантования информации об основном тоне звука, содержащая
средство для захвата звука с представлением пронумерованного кадра из множества пронумерованных кадров,
средство для вычисления класса кадра, в котором класс представляет собой любой из вокализированного класса и невокализированного класса,
если кадр представляет собой вокализированный класс, средство для вычисления основного тона для кадра,
если кадр представляет собой кадр с четным номером и вокализированный класс, средство для вычисления ключевого слова первой длины посредством абсолютного квантования основного тона кадра,
если кадр представляет собой кадр с четным номером и невокализированный класс, средство для вычисления ключевого слова первой длины, указывающего кадр невокализированного класса,
если кадр представляет собой кадр с нечетным номером и вокализированный класс и по меньшей мере один из трех кадров, непосредственно предшествующих кадру, является достоверным, средство для вычисления ключевого слова второй длины посредством дифференциального квантования основного тона кадра, ссылаясь на квантованный основной тон ближайшего предшествующего достоверного кадра, в котором первая длина больше, чем вторая длина,
если кадр представляет собой кадр с нечетным номером и вокализированный класс и каждый из трех кадров, непосредственно предшествующих кадру, является недостоверным, средство для вычисления ключевого слова второй длины посредством абсолютного квантования основного тона кадра и,
если кадр представляет собой кадр с нечетным номером и невокализированный класс, средство для вычисления ключевого слова второй длины, указывающего кадр невокализированного класса.
16. Система обработки информации по п.15, в которой кадр с четным номером является достоверным, если он представляет собой вокализированный класс.
17. Система обработки информации по п.16, в которой кадр с нечетным номером является достоверным, если он представляет собой вокализированный класс, а основной тон кадра квантуется абсолютно или квантуется дифференциально, ссылаясь на основной тон непосредственно предшествующего кадра.
18. Система обработки информации по п.15, в которой система обработки информации представляет собой любой из клиентского компьютера и беспроводного устройства типа мобильного телефона.
19. Система обработки информации по п.18, в которой звук относится к речи.
20. Система обработки информации по п.15, дополнительно содержащая
передатчик для передачи ключевого слова, которое было рассчитано, на сервер.
21. Способ в системе обработки информации для квантования информации об основном тоне звука, содержащий
захват звука с представлением пронумерованного кадра из множества пронумерованных кадров,
вычисление класса кадра, в котором класс представляет собой любой из вокализированного класса и невокализированного класса,
если кадр представляет собой вокализированный класс, вычисление основного тона для кадра,
если кадр представляет собой вокализированный класс, а номер n кадра является кратным предварительно определенному числу N>0, вычисление ключевого слова первой длины посредством абсолютного квантования основного тона кадра,
если кадр представляет собой невокализированный класс, а номер n кадра является кратным N, вычисление ключевого слова первой длины, указывающего кадр невокализированного класса,
если кадр представляет собой невокализированный класс, а номер n кадра не является кратным N, вычисление ключевого слова второй длины, указывающего кадр невокализированного класса, в котором первая длина больше, чем вторая длина,
если кадр представляет собой вокализированный класс, а номер n кадра не является кратным N и основной тон кадра может быть квантован дифференциально, ссылаясь на квантованный основной тон предшествующего вокализированного кадра так, что полная длина зависимости кадра не превышает значение, заданное предварительно определенной функцией D(n) номера n кадра, вычисление ключевого слова второй длины посредством дифференциального квантования основного тона кадра, ссылаясь на квантованный основной тон предшествующего вокализированного кадра, в котором
полная длина зависимости кадра, основной тон которого квантуется абсолютно, составляет 0 и
полная длина зависимости кадра, основной тон которого квантуется дифференциально, составляет сумму полной длины зависимости кадра исходной точки и расстояния, измеренного в кадре, считая номера между этим кадром и кадром исходной точки, и
если кадр представляет собой вокализированный класс, а номер n кадра не является кратным N и основной тон кадра не может быть квантован дифференциально, ссылаясь на квантованный основной тон предшествующего вокализированного кадра, так что полная длина зависимости кадра не превышает значение, заданное предварительно определенной функцией D(n) номера кадра n, вычисление ключевого слова второй длины посредством абсолютного квантования основного тона кадра.
22. Способ по п.21, в котором дифференциальное квантование основного тона кадра выполняется с использованием самого близкого предшествующего кадра в качестве кадра исходной точки так, чтобы полная длина зависимости кадра не превышала значение, заданное предварительно определенной функцией D(n) номера n кадра.
23. Способ по п.21, в котором D(n)=kN+n модуль N, где k – предварительно определенное неотрицательное число.
24. Способ по п.23, в котором N=2 и k=1.
РИСУНКИ
|
|