Метод підвищення інформативності частоти основного тону в задачах ідентифікації мовця

Ключові слова: мовна ідентифікація особи, вейвлет Морле, сегментація мовного сигналу, форманти, атомарні структури, мультифрактальний спектр, скейлограмма

Анотація

Розглянуто питання підвищення точності ідентифікації мовця завдяки аналізу фізичної природи формування особливостей мовного сигналу та математичного опису структури сигналу. Здійснено огляд процесу ідентифікації особи, зроблено висновок, що в сигналі мають бути постійні самоподібні структури, які формуються під час мовлення кожної конкретної особи. Подібність структур самим собі можлива за рахунок їхнього масштабування в мовних фрагментах. На підставі проведеного аналізу визначено основні параметри опису індивідуальних особливостей голосу мовця у вигляді частоти основного тону та спектральних характеристик мовного сигналу. Проведений огляд методів визначення частоти основного тону дав змогу виділити напрями поліпшення точності ідентифікації мовця внаслідок точнішого математичного опису унікальних ознак мовного сигналу. Під час аналізу зроблено висновок, що найвдалішим інструментом виявлення самоподібних структур можна вважати фрактальний та вейвлет-аналіз. Обґрунтовано використання комплексного вейвлету Морле для опису мовного сигналу. У вигляді оцінки частоти основного тону мовного сигналу в роботі розглянуто відстані між локальними частотними максимумами скейлограм. Важливим фактором стійкості і достовірності оцінок частоти основного тону для цього методу є можливість оцінки частоти основного тону не тільки по локальних максимумах, але і по кореляції між фрагментами областей максимумів. На підставі вейвлет-перетворення та мультифрактального спектра запропоновано алгоритм виділення характеристик самоподібних структур, притаманних мовцю, та розроблені методи оброблення мовного сигналу дають змогу використовувати їх для побудови систем ідентифікації мовного сигналу та для створення інтелектуальних систем взаємодії користувача й комп'ютера. На підставі алгоритму запропоновано метод підвищення інформативності частоти основного тону для мовної ідентифікації особи, в якому, на відміну від наявних, за ознаку для розпізнавання використано значення коефіцієнтів вейвлет-перетворення на відрізках мовного сигналу, де спостерігаються екстремуми кореляційних функцій частоти основного тону. Проведений аналіз точності запропонованого методу показав достатній для використання рівень його ефективності.

Завантаження

Дані завантаження ще не доступні.

Афіліація автора

Я. А. Бєлозьорова, Національний авіаційний університет, м. Київ

канд. техн. наук, доцент, кафедра інженерії програмного забезпечення

Посилання

Agranovsky, A. V., & Lednov, D. A. (2004). Theoretical aspects of algorithms for processing and classifying speech signals. Radio and communications, 164. [In Russian].

Aidan, O. T. Hogg, Christine, Evers, & Patrick, A. Naylor. (2019). Speaker Change Detection Using Fundamental Frequency with Application to Multi-talker Segmentation. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 20(1). https://doi.org/10.1109/ICASSP35589.2019

Beet, S. W. (1990). Automatic speech recognition using a reduced auditory representation and position-tolerant discrimination. Computer Speech & Language, 4(1), 17–33. https://doi.org/10.1016/0885-2308(90)90021-W

Candy, Olivia Mawalim, Kasorn, Galajit, Jessada, Karnjana, Shunsuke, Kidani, & Masashi Unoki. (2022). Show more Speaker anonymization by modifying fundamental frequency and x-vector singular value. Computer Speech & Language, 73(1), 101–126. https://doi.org/10.1016/j.csl.2021.101326

Cheveigne, A., & Kawahara, H. (2002). A fundamental frequency estimator for speech and music. Journal of the Acoustical Society of America, 111(4), 200–218. https://doi.org/10.1121/1.1458024

Dolanský, L. O. (1955). An Instantaneous Pitch‐Period Indicator. The Journal of the Acoustical Society of America, 27(1), 38–67. https://doi.org/10.1121/1.1907499

Gold, V., & Rabiner, L. (1969). Parallel processing techniques for estimating pitch period of speech in the time domain. The Journal of the Acoustical Society of America, 46(2), 442–448. https://doi.org/10.1121/1.1911709

Gold, V., & Rabiner, L. (1976). Theory and Application of Digital Signal Processing. Englewood Cliffs, 7(4), 126–187. https://doi.org/10.1002/piuz.19760070413

Hsieh, C.-T. (2017). Segmentation of continuous speech into phonemic units. International Journal of Computer Science and Mobile Computing, 6(4), 420–424.

Jaffard, S., Lashermes, B., & Abry, P. (2006). Wavelet Leaders in Multifractal Analysis. Wavelet Analysis and Applications. Signal Processing, 6(89), 219–264. https://doi.org/10.1007/978-3-7643-7778-6

Jennifer, M. Vojtech, & Roxanne, K. Segina. (2019). Refining algorithmic estimation of relative fundamental frequency: Accounting for sample characteristics and fundamental frequency estimation method. The Journal of the Acoustical Society of America, 146(5), 31–84. https://doi.org/10.1121/1.5131025

Kimberly, L. Dahl, & Cara, E. Stepp. (2021). Changes in Relative Fundamental Frequency Under Increased Cognitive Load in Individuals With Healthy Voices. Journal of Speech, Language, and Hearing Research, 64(4), 1189–1196. https://doi.org/10.1044/2021_JSLHR-20-00134

Markel, J. D., & Gray, A. H. (1977). Linear Prediction of Speech. Linguistic Society of America, 53(3), 723–752. https://doi.org/10.2307/413194

Mohamed, A. Serry, Cara, E. Stepp, & Sean, D. Peterson. (2021). Physics of phonation offset: Towards understanding relative fundamental frequency observations. The Journal of the Acoustical Society of America, 149(5), 36–54. https://doi.org/10.1121/10.0005006

Muzy, J. F., Bacry, E., & Arneodo, A. (1991). Wavelets and multifractal formalism for singular signals: application to turbulence data. American Physical Society, 67(25), 3515−3518. https://doi.org/10.1103/PhysRevLett.67.3515

Noll, A. M. (1964). Short-time spectrum and "cepstrum" techniques for vocal-pitch detection. The Journal of the Acoustical Society of America, 36(5), 296–302.

Noll, A. M. (1969). Pitch determination of human speech be harmonic product spectrum, the harmonic sum spectrum and a maximum likelihood estimation. Proc. of a symposium on Computer culture, 5(3), 779–797.

Pavlov, A. N., & Anishchenko, V. S. (2007). Multifractal signal analysis based on wavelet transform. Series: Physics, 7(1), 3–25. https://doi.org/10.18500/1817-3020-2007-7-1-3-25

Rashid, Jahangir, Ying, Wah The, Henry, Friday Nweke, & Ghulam, Mujtaba. (2021). Speaker identification through artificial intelligence techniques: A comprehensive review and research challenges. Expert Systems with Applications, 171(1), 114–136. https://doi.org/10.1016/j.eswa.2021.114591

Sapozhkov, M. A. (1963). Speech signal in cybernetics and communications. Radio and communications, 452. [In Russian].

Solovyov, V. I., & Belozerova, Y. A. (2013). Using the fractal dimension of audio files in the problem of audio file segmentation. Scientific journal. Bulletin of the Eastern Ukrainian National University named after Volodymyr Dahl, 5(194), 165–168. [In Russian]

Teichert, T., Gnanateja, G. Nike, & Sadagopan, S. (2022). A Linear Superposition Model of Envelope and Frequency Following Responses May Help Identify Generators Based on Latency. Neurobiology of Language, 3(3), 441–468. https://doi.org/10.1162/nol_a_00072

Wendt, H., & Abry, P. (2007). Multifractality Tests Using Bootstrapped Wavelet Leaders. IEEE Transactions on Signal Processing, 55(10), 4811–4820. https://doi.org/10.1109/TSP.2007.896269

Yeonggwang, Park, Feng, Wang, Manuel, Díaz-Cádiz1, & Jennifer, M. Vojtech. (2021). Vocal fold kinematics and relative fundamental frequency as a function of obstruent type and speaker age. The Journal of the Acoustical Society of America, 149(4), 21–89. https://doi.org/10.1121/10.0003961

Yunan, Wu, Vibha, Viswanathan, & Taylor, Abel. (2022). Auditory cortical responses to speech are shaped by statistical learning of short-term speech input regularities. bioRxiv, 31(5), 534–560. https://doi.org/10.1101/2022.12.19.520832

Zue, V. W., Glass, J., Philips, M., & Seneff, S. (1990). Speech database development at MIT: Timit and beyond. Speech Communication, 9(4), 351–356. https://doi.org/10.1016/0167-6393(90)90010-7

Zybin, S., & Bielozorova, Y. (2022). Method of Extracting Formant Frequencies Based on a Vocal Signal. The International Conference on Artificial Intelligence and Logistics Engineering (ICAILE): Advances in Artificial Systems for Logistics Engineering, 135(2), 448–457. https://doi.org/10.1007/978-3-031-04809-8_40


Переглядів анотації: 72
Завантажень PDF: 82
Опубліковано
2023-02-27
Як цитувати
Бєлозьорова, Я. А. (2023). Метод підвищення інформативності частоти основного тону в задачах ідентифікації мовця. Науковий вісник НЛТУ України, 33(1), 82-88. https://doi.org/10.36930/40330111
Розділ
Інформаційні технології