WWW.NEW.Z-PDF.RU
БИБЛИОТЕКА  БЕСПЛАТНЫХ  МАТЕРИАЛОВ - Онлайн ресурсы
 

«канд. филол. наук, проф. каф. прикладной и экспериментальной лингвистики Института прикладной и математической лингвистики МГЛУ; e-mail: kuvlad2007 МЕТОД ...»

УДК 81' 342.1+81' 342.2

В. Б. Кузнецов

канд. филол. наук, проф. каф. прикладной и экспериментальной лингвистики Института прикладной и математической лингвистики МГЛУ; e-mail:

kuvlad2007@yandex.ru

МЕТОД ЛИНЕЙНОГО ПРЕДИКТИВНОГО КОДИРОВАНИЯ (ЛПК)

В ФОНЕТИЧЕСКИХ ИССЛЕДОВАНИЯХ

(из практики применения спектрального анализа речи)

В статье рассматривается актуальный вопрос инструментальной фонетики – измерение параметров формант гласных звуков речи методом линейного предиктивного кодирования. Дается характеристика этого метода, указываются сложные моменты в его использовании. Приводится перечень основных параметров ЛПК-анализа, которые исследователь должен задать, руководствуясь целями и задачами своего исследования. Предложен алгоритм проведения спектрального анализа методом ЛПК с опорой на результаты Фурьеанализа .

Ключевые слова: линейное предиктивное кодирование; форманта; спектральный максимум, формантная траектория; динамическое программирование; коэффициенты предсказания .

Kouznetsov V. B .

PhD; Department of Applied and Experimental Linguistics, Institute of Applied and Mathematical Linguistics, Faculty of the Humanities and Applied Sciences, MSLU

ON PRACTICE OF USING LINEAR PREDICTIVE CODING (LPC)

FOR SPECTRAL ANALYSIS IN PHONETIC RESEARCH

The present paper is concerned with the practice of using linear predictive coding (LPC) for spectral analysis in phonetic research. Usually LPC is used to measure formant frequency and its bandwidth of vowel sound. The question of what actually is measured by LPC is discussed and a way is suggested how to increase the validity of LPC analysis .

Key words: linear predictive coding; formant; spectral maximum; formant track; dynamic programming; predictive coefficients .

В последнее время метод ЛПК получил широкое распространение при измерении параметров формант – частоты и амплитуды (ширины полосы). В немалой степени этому способствовали излишне оптимистичные оценки эффективности этого метода, свойственные его разработчикам. Так, в книге Маркела и Грэйя [1] утверждается, что Вестник МГЛУ. Выпуск 13 (699) / 2014 в модели линейного прогнозирования «…спектральные резонансы (формантные пики) вокализованной речи имеют наибольший вес для выбранного критерия качества, а потому представляются наиболее точно. Задача выделения формант во многих случаях редуцируется к простой задаче поиска пиков» [1, с. 128]. Кроме этого, метод ЛПК обладает еще одним привлекательным свойством для исследователей речи: по сравнению со спектром, оцененным методом быстрого преобразования Фурье (БПФ), метод линейного прогнозирования дает сглаженную спектральную огибающую с хорошо выраженными спектральными пиками, число которых не может превышать величину, заранее заданную исследователем (см. рис. 1) .

Рис. 1. Спектральный разрез гласного [a], выполненный методом ЛПК (жирная кривая) и методом БПФ. Частота дискретизации 11025 Гц, предварительно усилены высокие частоты, длина окна анализа – 22 мс, порядок модели ЛПК = 12, мужской голос Однако применение этого метода сопряжено с определенными трудностями. По мнению В. Н. Сорокина, методы линейного предсказания в первую очередь предназначены для описания речевого сигнала во временнй области; оценки формант по коэффициентам ЛПК вторичны по отношению к форме сигнала и не обязаны соответствовать истинным значениям параметров [2] .

В цитированной выше книге Маркела и Грэйя авторы при обсуждении роли такого ключевого параметра модели предсказания, как ее порядок (М) демонстрируют результаты спектрального анализа дифтонга [i], произнесенного во втором слоге слова «linear»

В. Б. Кузнецов (см. рис. 2). Можно заметить, что в зависимости от порядка модели (числа используемых коэффициентов предсказания) в спектре дифтонга обнаруживаются три или четыре форманты. Следует выяснить, какая из моделей адекватно отражает спектральные характеристики данного звука? Метод ЛПК не дает однозначного ответа на этот вопрос, так как порядок модели – это произвольный параметр, задаваемый исследователем в соответствии с поставленными целями .

Для принятия решения необходимы априорные знания о формантной структуре этого дифтонга, которые должны быть получены с помощью других методов (в частности, Фурье-анализа) .

Рис. 2. Спектрограммы дифтонга [i]: а) М=10, б) М=15 Вестник МГЛУ. Выпуск 13 (699) / 2014 Следует прислушаться к совету Г. Фанта о том, как нужно использовать метод ЛПК: «Для простых задач анализа гласных методы ЛПК могут обеспечить точную оценку формантных частот при условии, что результаты тщательно сверяются со спектрограммой (имеется в виду спектрограмма, полученная методом БПФ. – Прим. В. К.)» [4, с. 168] .

Далее попытаемся описать приемы использования ЛПК-анализа и предложить, в соответствии с рекомендацией Г. Фанта, стратегию сочетания ЛПК- и БПФ-анализа при измерении, в частности формантных частот гласных .

При разработке метода ЛПК стояла задача – добиться эффективного кодирования и сжатия речевого сигнала, передаваемого по каналам связи. Суть метода состоит в предположении, что i-й отсчет речевого сигнала может быть представлен как сумма n предыдущих отсчетов, взвешенных с соответствующими коэффициентами, и сигнала возбуждения (акустического источника). Причем в модель фильтрующей (передаточной) функции речевого тракта вносится существенное упрощение – считается, что она определяется только резонансами тракта, а наличие антирезонансов игнорируется .

Современные компьютерные программы анализа акустических параметров речевого сигнала требуют от пользователя самостоятельного принятия ряда решений при обращении к методу ЛПК .

Во-первых, необходимо определить, какой из множества существующих на сегодняшний день методов ЛПК будет использован. Так, в широко распространенной среди фонетистов программе PRAAT [3] на выбор предлагаются четыре метода. Разработчики рекомендуют метод Burg. В программе WAVESURFER [9] нужно выбрать один из двух методов (по умолчанию используется автокорреляционный метод) .

Далее необходимо определить порядок модели ЛПК. При решении этого вопроса возможны два подхода. В первом случае во внимание принимается в основном то, с какой частотой дискретизации был записан (оцифрован) исследуемый материал. Порядок модели определяется как число равное частоте дискретизации в кГц плюс от 2-х до 5-ти дополнительных коэффициентов прогноза [ 1] .

В программе WAVESURFER соотношение между порядком модели и числом определяемых «формант» задано следующей формулой:

Число формант = (М–4)/2 .

В. Б. Кузнецов Во втором случае исходят из оценки того, сколько формантных максимумов может находиться в исследуемом частотном диапазоне .

Считается, что в случае гласных звуков у мужчин одна форманта приходится на 1000 Гц, а у женщин одна форманта – на 1200 Гц. Таким образом, до 5 кГц у мужчин должно быть 5 формант, у женщин – на одну меньше. Для определения каждого спектрального максимума требуется два коэффициента предсказания. При частоте дискретизации 10 кГц порядок модели должен быть равен 10 или 8 для мужского и женского голоса соответственно. В программе PRAAT по умолчанию предлагаются следующие параметры модели ЛПК для женского голоса: максимальная формантная частота – 5,5 кГц, что требует оцифровки речевого сигнала с частотой 11 кГц или снижения до этого значения более высокой исходной частоты дискретизации; число формант – 5. При анализе речи мужчин предлагается снизить максимальную формантную частоту до 5 кГц. Разработчики программы замечают, что если для мужского голоса оставить значение максимальной формантной частоты таким же, как и для женского голоса, может оказаться, что, например, для гласного [u], имеющего нижние две форманты на частотах 300 и 600 Гц соответственно, в ЛПК-спектре в этой области будет присутствовать только один максимум на частоте 500 Гц. По мнению авторов программы, только предлагаемые ими по умолчанию параметры ЛПК обеспечивают результаты спектрального анализа, совместимые с традиционной артикуляторной трактовкой формант гласного: F1 связана с подъемом, F2 – с рядом гласного .

Сравнение двух способов определения порядка модели ЛПК показывает, что в первом случае используется на 2–5 коэффициентов больше, чем во втором. Эти дополнительные коэффициенты необходимы, чтобы в какой-то степени отобразить в спектре такие неучитываемые в модели факторы, как форма сигнала голосового источника, характеристики излучения губ и антирезонансы речевого тракта .

Следующий параметр ЛПК анализа, который должен быть задан исследователем, – это длина окна анализа. Общий принцип выбора длины окна анализа состоит в том, что на интервале анализа измеряемый параметр не должен существенно изменяться. Считается, что для большинства звуков речи этот интервал равен примерно 15– 20 мс. При такой длине окна анализа влияние его абсолютного положения в речевом сигнале не является критичным для оценки спектра .

Вестник МГЛУ. Выпуск 13 (699) / 2014 При малой длине окна анализа, соизмеримой с периодом основного тона, целесообразно производить спектральный анализ синхронно с основным тоном, когда границы окна анализа должны находиться или внутри, или совпадать с границами периода основного тона .

Исследуя спектральные характеристики фрикативных и переходных (взрывных) звуков, длину окна анализа желательно уменьшить до 10 мс. При длине окна анализа, превышающей 15 мс, считается необходимым применение взвешивающего окна .

Следующий настраиваемый параметр ЛПК анализа – предусиление высоких частот (предыскажение). Коэффициент усиления может изменяться от 0,0 до 1,0. Рекомендуемый диапазон значений: 0,9–1,0 .

Предусиление позволяет выровнять наклон спектральной огибающей

-6 дБ на октаву, характерный для гласных звуков. Таким образом удается приблизиться к оценке в чистом виде резонансной характеристике речевого тракта .

В некоторых программах, например PRAAT при наложении формантных треков (траекторий) на БПФ спектрограмму предлагается задавать значение параметра «динамический диапазон». С помощью этого параметра можно ограничить диапазон отображаемых «формант» по амплитуде. Так, в программе PRAAT по умолчанию динамический диапазон равен 30 Дб. Это означает, что на спектрограмме будут отображены только те ЛПК-пики, разность амплитуды которых по отношению к максимальной формантной амплитуде анализируемого сигнала не будет больше, чем 30 Дб. Для отбора «правдоподобных» формант наряду с амплитудой используется ее аналог – ширина полосы форманты. Считается, что при ширине полосы больше 400 Гц, спектральным пиком можно пренебречь .

Для представления результатов ЛПК анализа в виде спектрограммы могут быть использованы алгоритмы построения формантных треков (formant tracks), подвергающие «интеллектуальной» обработке исходные данные спектрального анализа [10]. При построении треков должно выполняться следующее условие: во всех вычесленных ЛПК спектрах число обнаруженных спектральных пиков не должно быть меньше заданного числа треков. В тех случаях, когда число спектральных пиков превышает число рассчитываемых треков, алгоритм на основе ряда критериев должен отобрать из исходных кандидатов наиболее правдоподобные .

В. Б. Кузнецов Используется два типа критериев. Во-первых, локальные критерии, на основе которых в отдельном ЛПК-спектре отбираются наиболее вероятные из исходных кандидатов. При этом учитывается частота и ширина полосы кандидатов в форманты. Во-вторых, критерии непрерывности при переходе от предшествующего ЛПК-спектра к последующему. Плавность формантных траекторий обеспечивается с помощью методов динамического программирования (в частности, алгоритма Витерби) .

Прежде чем перейти к описанию процедуры измерения частот формант гласных, необходимо прояснить смысл вышеприведенной рекомендации Фанта об использовании метода ЛПК: «тщательно сверять результаты ЛПК-анализа с данными БПФ-анализа». Фактически данное соображение Фанта основывается на представлении о том, что БПФ-анализ рассматривается в некотором смысле как эталон (дающий распределение энергии по частоте в сигнале в чистом виде без опоры на какие-либо идеи исследователя о природе анализируемого сигнала), а ЛПК-анализ является лишь некоторой его апроксимацией .

Условно говоря, расчет ЛПК-спектра можно интерпретировать как задачу аппроксимации: имеется исходная спектральная огибающая, полученная методом БПФ, которую алгоритм ЛПК, исходя из заданного числа коэффициентов предсказания (напомним, два на один пик), должен представить с наименьшими возможными расхождениями путем подбора частоты и ширины полосы спектральных максимумов .

Очевидно, что местоположение этих пиков не всегда будет совпадать с максимумами БПФ-спектра, а тем более с теми максимумами, которые сформированы резонансами речевого тракта .

Практическое выполнение рекомендации Фанта может быть осуществлено следующим образом .

Как правило, ЛПК-анализ не используется самостоятельно, параллельно проводится спектральный анализ методом БПФ, который рассамтривается как эталонный результат. В случае расхождения ЛПК-анализа с БПФ исследователь должен изменить параметры ЛПК-анализа таким образом, чтобы устранить различия .

Исследователей интересовал вопрос точности измерения формантных частот гласных звуков речи. На протяжении последних 30 лет неоднократно предпринимались попытки оценить эффективность спектрального анализа методом ЛПК. Монсен и Енгебретсон Вестник МГЛУ. Выпуск 13 (699) / 2014 [7] провели сравнительную оценку точности измерения формантных частот методом ЛПК и БПФ, используя 91 синтезированную гласную .

Харрисон [6] также использовал синтезированные гласные при оценке эффективности ЛПК-анализа. Кроме того, он использовал базу данных, для которой были получены формантные ЛПК треки, подвергнутые ручной экспертной корректировке, что дало ему основание рассматривать эти результаты как эталон .

Вслед за классической работой Петерсона и Барни [8] американские исследователи провели повторное измерение формантных частот гласных американского английского, используя метод ЛПК [6] .

Рис. 3. Исходные результаты ЛПК-анализа в программе PRAAT .

Макс. формантная частота – 5000 Гц, число формант – 5, длина окна анализа – 25 мс, динам. диапазон – 30 Дб

–  –  –

СПИСОК ЛИТЕРАТУРЫ

1. Маркел Дж. Д., Грэй А. X. Линейное предсказание речи / пер. с англ. ; под ред. Ю. Н. Прохорова и В. С. Звездина. – М. : Связь, 1980. – 308 с .

2. Сорокин В. Н. Речевые процессы. – М. : Народное образование, 2012. – 600 с .

3. Boersma P., Weenink D. Praat: doing phonetics by computer version 4.5.24 .

2007. – URL: http://www.praat.org/

4. Fant G. Speech Acoustics and Phonetics. – Dordrecht, The Netherlands :

Kluwer Academic Publishers, 2004. – 320 p .

5. Harrison P. Formant measurement errors from real speech // IAFPA 20th Annual Conference, Vienna, Austria. – URL: http://www.google.com/ url?q=http%3A%2F%

6. Hillenbrand J., Getty L. A., Clark M. J., Wheeler K. Acoustic characteristics of American English vowels // The journal of the Acoustical society of America. – N. Y., 1995. – Vol. 97. – P. 3099–3111 .

7. Monsen. R. B., Eugebretson A. M. The Accuracy of formant frequency measurements. A comparison of spectrographic analysis and linear prediction // Journal of Speech and Hearing Research. – 1983. – Vol. 26. – P. 89–97 .

8. Peterson G. E., Barney H. L. Control methods used in a study of the vowels // The journal of the Acoustical society of America. – N. Y., 1952. Vol. 24. – P. 175–184 .

9. Sjlander K., Beskow J. Wavesurfer – an open source speech tool // INTERSPEECH, ISCA, 2000. – P. 464–467 .

10. Talkin D. Speech formant trajectory estimation using dynamic programming with modulated transition costs // Journal of the Acoustical Society of America. – N.Y., 1987. – Vol. 82. – (S1). – P. S55–S55 .

11. Wood S. The precision of formant frequency measurement from spectrograms and by linear prediction // STL-QPSR. – Stockholm, 1989. – Vol. 1. – P. 91–93 .

12. Yao Y., Tilsen S., Sprouse R. L., Johnson K. Automated measurement of vowel formants in the Buckeye corpus. Varying analysis parameters // UC Berkeley

Похожие работы:

«А.П. Стахов "ЗОЛОТАЯ" ГОНИОМЕТРИЯ И ТЕОРЕТИЧЕСКОЕ ЕСТЕСТВОЗНАНИЕ Развитие современной "математики гармонии" [1] осуществляется в трех основных направлениях: 1. "Обобщенная теория золотого сечения", в основе которой лежит понятие р-чисел Фибоначчи и золотого р-сечения. Эта теория значитель...»

«УДК 547.233.4:665.622.43.065.6 ДЕЭМУЛЬГИРУЮЩИЕ СВОЙСТВА НОВЫХ ФУНКЦИОНАЛЬНОЗАМЕЩЕННЫХ ИМИДАЗОЛИНИЕВЫХ СОЕДИНЕНИЙ Фахретдинов П.С., Голубев И.Ю., Романов Г.В., Хамидуллин Р.Ф. Учреждение Российской академии на...»

«С И Б И Р С К О Е О ТД Е Л Е Н И Е РОССИЙСКОЙ АКАДЕМИИ НАУК НАУЧНЫЙ ЖУРНАЛ ГЕОЛОГИЯ И ГЕО ФИЗИКА Геология и геофизика, 2014, т. 55, № 5—6, с . 721—744 СедиментолоГия и палеоГеоГрафия УДК 550.461 ГЕОХИМ...»

«РОССИЙСКАЯ АКАДЕМИЯ НАУК СИБИРСКОЕ ОТДЕЛЕНИЕ ИНСТИТУТ ПРОБЛЕМ ПЕРЕРАБОТКИ УГЛЕВОДОРОДОВ СО РАН ИНСТИТУТ КАТАЛИЗА ИМ . Г.К. БОРЕСКОВА СО РАН СОВЕТ НАУЧНОЙ МОЛОДЕЖИ ИППУ СО РАН СОВЕТ НАУЧНОЙ МОЛОДЕЖИ ИК СО РАН СОВЕТ НАУЧНОЙ МОЛОДЕ...»

«"Рассмотрено" "Согласовано" "Утверждено" Руководитель МО Заместитель директора по УВР Директор МАОУ СОШ с. Маянга // МАОУ СОШ с.Маянга /ГабаловаО.Н./ /Панкратова Л.П./ Протокол № от Приказ № _ от "_"_2015. "_"2015 "_"_2015 РАБОЧАЯ ПРОГРАММА по химии 8 – 9 класс Саулиной Веры Васильевны категория высшая Расс...»

«УДК 550.34 Цуканов Алексей Алексеевич ИССЛЕДОВАНИЕ И РАЗВИТИЕ МЕТОДА МИКРОСЕЙСМИЧЕСКОГО ЗОНДИРОВАНИЯ Специальность 25.00.10 – Геофизика, геофизические методы поисков полезных ископаемых АВТОРЕФЕРАТ диссертации на соискание учено...»

«уральский государственный горный университет Институт геологии и геохимии УрО РАН ЛЛ Екатеринбург Федеральное агентство по образованию ГОУ ВПО "Уральский государственный горный университет" Институт геологии и геохимии УрО РАН А.В. Маслов ОСАДОЧНЫЕ ПОРОДЫ: мето...»

«177 ПРОБЛЕМЫ НЕФТЕДОБЫЧИ, НЕФТЕХИМИИ, НЕФТЕПЕРЕРАБОТКИ И ПРИМЕНЕНИЯ НЕФТЕПРОДУКТОВ УДК 541.128.3:542.952.1:547.214.452183 А. А. Ламберов, И. А. Башева, Е. Ю. Ситникова, А. Г. Аптикашева, Р. Г. Романова, Р. Р. Гильмуллин, Б. А. Камалов ИЗМЕНЕНИЕ СТРУКТУРЫ, ФАЗОВОГО, ЭЛЕМЕНТНОГО СОСТАВА И АК...»

«ГРИГАС СТАНИСЛАВ ЭДУАРДОВИЧ ИНЖЕКЦИОННЫЕ ЛАЗЕРЫ С ВЕРТИКАЛЬНЫМ РЕЗОНАТОРОМ С КОНТРОЛИРУЕМОЙ ПОЛЯРИЗАЦИЕЙ ИЗЛУЧЕНИЯ 01.04.03 – Радиофизика АВТОРЕФЕРАТ диссертации на соискание ученой степ...»

«Вестник СГГА, вып. 3 (27), 2014 УДК 528 (091) 528 (092) ЛОГИСТИЧЕСКИЙ ЗАКОН РАЗВИТИЯ ГЕОДЕЗИИ КАК ПРОСТРАНСТВЕННО-ВРЕМЕННАЯ ПРЕДОПРЕДЕЛЕННОСТЬ Мария Леонидовна Синянская Сибирская государственная г...»

















 
2018 www.new.z-pdf.ru - «Библиотека бесплатных материалов - онлайн ресурсы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 2-3 рабочих дней удалим его.