Метод генерування штучної мови на основі комбінації наявних

Ю. Ю. Білас; В. В. Різник

doi:10.36930/40360216

Ю. Ю. Білас Національний університет "Львівська політехніка", м. Львів https://orcid.org/0009-0006-0051-5081
В. В. Різник Національний університет "Львівська політехніка", м. Львів https://orcid.org/0000-0002-3880-4595

Ключові слова: штучна мова, сконструйована мова, тарабарщина, синтез мовлення, емоції в мовленні

Анотація

Проаналізовано підходи до створення штучних мов (ручні, ШІ-орієнтовані та алгоритмічні) і встановлено, що наявні рішення або потребують значних витрат часу та експертної участі, або демонструють недостатню відтворюваність результатів, або зберігають впізнаваність мови-оригіналу. Розроблено метод генерування тарабарщини на основі комбінації наявних мов із використанням фонетичних даних у форматі IPA. Для побудови методу застосовано багатомовні словники "ipa-dict" (близько 25 мов), очищення транскрипцій від невалідних і просодичних символів, поділ фонемних послідовностей на склади за набором фонотактичних правил та формування частотної бази складів за їх довжиною і позицією у слові (початок, середина, кінець). Наведено механізм детермінованого відображення вхідного складу на згенерований склад із використанням хешування MD5 для ініціалізації псевдовипадкового вибору, що забезпечує відтворюваність перетворення за однакових вхідних даних. Для зниження шуму в частотній моделі відкинуто рідкісні складові шаблони з низькою частотою появи, а генерування цільових складів реалізовано шляхом зваженого вибору з відповідних частотних груп. Проведено експериментальне оцінювання властивостей висловлювань, згенерованих запропонованим методом, за участі 32 респондентів у чотирьох етапах: розпізнавання мови, розпізнавання емоцій у тарабарщині, відмінність штучної мови від справжньої та ідентифікація базової мови. Встановлено, що точність розпізнавання шести базових емоцій у згенерованому мовленні перевищує 80 %, а частка правильного визначення штучної мови в парі з малознайомою природною мовою становить 59,4 %, що свідчить про складність надійного розрізнення штучного й природного мовлення в запропонованій постановці. З'ясовано, що за використання однієї базової мови її фонетичний вплив часто виявляється під час сприйняття, тоді як комбінація багатьох мов істотно ускладнює ідентифікацію мовного джерела. Досліджено швидкодію підсистеми: тривалість генерування тарабарщини приблизно лінійно залежить від тривалості вхідного аудіо та становить близько 0,1 с на 1 с запису (тобто опрацьовує дані швидше, ніж у реальному часі). Запропоновано структуру наскрізної системи перетворення мовлення на штучне зі збереженням емоцій і голосу мовця; у межах цієї роботи реалізовано блоки розпізнавання фонем у мовленні та їх перетворення на тарабарщину, а також експериментально оцінено результати генерування тарабарщини, а інтеграцію TTS і перенесення просодичних характеристик визначено як напрям подальших досліджень.

Завантаження

Дані завантаження ще не доступні.

Біографії авторів

Ю. Ю. Білас, Національний університет "Львівська політехніка", м. Львів

аспірант, кафедра автоматизованих систем управління

В. В. Різник, Національний університет "Львівська політехніка", м. Львів

д-р техн. наук, професор, кафедра автоматизованих систем управління

Посилання

Akyazı, K. G., & Baştemur, Ş. (2024). Interactive Robots: Therapy Robots. Psikiyatride Güncel Yaklaşımlar – Current Approaches in Psychiatry, 16(1), 16–30. https://doi.org/10.18863/pgy.1242958

Alper, M., Yanuka, M., Giryes, R., & Begus, G. (2025). ConlangCrafter: Constructing Languages with a Multi-Hop LLM Pipeline.arXiv preprint. https://doi.org/10.48550/arXiv.2508.06094

Beinhoff, B. (2023). Design intentions and actual perception of fictional languages: Quenya, Sindarin and Navi. In: I. Noletto, J. Norledge, & P. Stockwell (Eds.), Reading Fictional Languages (pp. 76–92). Edinburgh University Press. https://doi.org/10.1515/9781399529167

Bracchi, L. (2023). Invented languages and their reflections on the world of video games. Thesis for: Languages, Literatures and Intercultural Studies, pp. 1–34 https://doi.org/10.13140/RG.2.2.14042.31687

Breazeal, C. L. (2000). Sociable machines: Expressive social exchange between humans and robots. PhD thesis, Massachusetts Institute of Technology, Cambridge, United States. order number AAI0801833. URL: https://dl.acm.org/doi/10.5555/932790

Diamond, J. (2023). "Genlangs" and Zipfs Law: Do languages generated by ChatGPT statistically look human? arXiv preprint. https://doi.org/10.48550/arXiv.2304.12191

Dutta, S., & Ganapathy, S. (2024). Zero Shot Audio To Audio Emotion Transfer With Speaker Disentanglement. ICASSP 2024 – 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 10371–10375. https://doi.org/10.1109/ICASSP48485.2024.10445962

Gonzalez, A. G. C., Lo, W., & Mizuuchi, I. (2022). Talk to Kotaro: a web crowdsourcing study on the impact of phone and prosody choice for synthesized speech on human impression. 2022 31st IEEE International Conference on Robot and Human Interactive Communication (RO-MAN), pp. 244–251. https://doi.org/10.1109/RO-MAN53752.2022.9900685

Gonzalez, A. G. C., Lo, W.-S., & Mizuuchi, I. (2023). The Impression of Phones and Prosody Choice in the Gibberish Speech of the Virtual Embodied Conversational Agent Kotaro. Applied Sciences, 13(18), article ID 10143. https://doi.org/10.3390/app131810143

González, C. (2025). Inventing Languages: An Introduction to Constructed Languages. Cambridge: Cambridge University Press, 402 p. https://doi.org/10.1017/9781108864015

Gonzalez, S. (2024). A Network Analysis Approach to Conlang Research Literature.arXiv preprint. URL: https://arxiv.org/abs/2407.15370

Heyer, F. (2021). Generating Immersive Conlangs. Thesis for B. Sc. Computer Science, Kiel University, Kiel, Germany, pp. 1–26. https://doi.org/10.13140/RG.2.2.22160.28168

Liu, R., Şişman, B., & Li, H. (2021). Reinforcement Learning for Emotional Text-to-Speech Synthesis with Improved Emotion Discriminability. Interspeech 2021, 4648–4652. https://doi.org/10.21437/Interspeech.2021-1236

Mehta, S., Székely, É., Beskow, J., & Henter, G. E. (2022). Neural HMMs Are All You Need (For High-Quality Attention-Free TTS). ICASSP 2022 – 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 7457–7461. https://doi.org/10.1109/ICASSP43922.2022.9746686

Mooshammer, C., Bobeck, D., Hornecker, H., Meinhardt, K., Olina, O., Walch, M. C., & Xia, Q. (2024). Does Orkish Sound Evil? Perception of Fantasy Languages and Their Phonetic and Phonological Characteristics. Language and Speech, 67(4), 961–1000. https://doi.org/10.1177/00238309231202944

Oudeyer, P.-Y. (2003). The production and recognition of emotions in speech: Features and algorithms. International Journal of Human-Computer Studies, 59(1–2), 157–183. https://doi.org/10.1016/S1071-5819(02)00141-6

Peterson, J. (2025). How to Create a Language: The Conlang Guide. Cambridge: Cambridge University Press, 420 p. https://doi.org/10.1017/9781108991827

Ping, W., Peng, K., Gibiansky, A., Arik, S. O., Kannan, A., Narang, S., Raiman, J., & Miller, J. J. (2017). Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning. 6th International Conference on Learning Representations (ICLR 2018), pp. 1–16. https://doi.org/10.48550/arXiv.1710.07654

Saldien, J., Goris, K., Yilmazyildiz, S., Verhelst, W., & Lefeber, D. (2008). On the Design of the Huggable Robot Probo. Journal of Physical Agents, 2(2), 3–11. https://doi.org/10.14198/JoPha.2008.2.2.02

Schreyer, C. (2021). Constructed Languages. Annual Review of Anthropology, 50, 327–344. https://doi.org/10.1146/annurev-anthro-101819-110152

Suprycheva, I. (2022). Linguistic Creativity in Cinema: A Case Study of the Navi Language. Three year degree thesis, University of Padua, pp. 1–64. URL: https://thesis.unipd.it/handle/20.500.12608/60158

Vainer, J., & Dušek, O. (2020). SpeedySpeech: Efficient Neural Speech Synthesis. Interspeech 2020, 3575–3579. https://doi.org/10.21437/Interspeech.2020-2867

van Niekerk, B., Carbonneau, M.-A., & Kamper, H. (2023). Rhythm Modeling for Voice Conversion.arXiv preprint. https://doi.org/10.48550/arXiv.2307.06040

Yilmazyildiz, S., Latacz, L., Mattheyses, W., & Verhelst, W. (2010). Expressive Gibberish Speech Synthesis for Affective Human-Computer Interaction. Lecture Notes in Computer Science, 6231, 584–590. https://doi.org/10.1007/978-3-642-15760-8_74

Yilmazyildiz, S., Read, R., Belpeame, T., & Verhelst, W. (2016). Review of Semantic Free Utterances in Social Human-Robot Interaction. International Journal of Human-Computer Interaction, 32(1), 63–85. https://doi.org/10.1080/10447318.2015.1093856

Yin, Z. (2018). An Overview of Speech Synthesis Technology. 2018 Eighth International Conference on Instrumentation & Measurement, Computer, Communication and Control (IMCCC), pp. 522–526. https://doi.org/10.1109/IMCCC.2018.00116

Zaïdi, J., Seuté, H., van Niekerk, B., & Carbonneau, M.-A. (2022). Daft-Exprt: Cross-Speaker Prosody Transfer on Any Text for Expressive Speech Synthesis. Interspeech 2022, 4591–4595. https://doi.org/10.21437/Interspeech.2022-10761

Метод генерування штучної мови на основі комбінації наявних

Анотація

Завантаження

Біографії авторів

Посилання

Статті цього автора (авторів), які найбільше читають