Метод генерування штучної мови на основі комбінації наявних
Анотація
Проаналізовано підходи до створення штучних мов (ручні, ШІ-орієнтовані та алгоритмічні) і встановлено, що наявні рішення або потребують значних витрат часу та експертної участі, або демонструють недостатню відтворюваність результатів, або зберігають впізнаваність мови-оригіналу. Розроблено метод генерування тарабарщини на основі комбінації наявних мов із використанням фонетичних даних у форматі IPA. Для побудови методу застосовано багатомовні словники "ipa-dict" (близько 25 мов), очищення транскрипцій від невалідних і просодичних символів, поділ фонемних послідовностей на склади за набором фонотактичних правил та формування частотної бази складів за їх довжиною і позицією у слові (початок, середина, кінець). Наведено механізм детермінованого відображення вхідного складу на згенерований склад із використанням хешування MD5 для ініціалізації псевдовипадкового вибору, що забезпечує відтворюваність перетворення за однакових вхідних даних. Для зниження шуму в частотній моделі відкинуто рідкісні складові шаблони з низькою частотою появи, а генерування цільових складів реалізовано шляхом зваженого вибору з відповідних частотних груп. Проведено експериментальне оцінювання властивостей висловлювань, згенерованих запропонованим методом, за участі 32 респондентів у чотирьох етапах: розпізнавання мови, розпізнавання емоцій у тарабарщині, відмінність штучної мови від справжньої та ідентифікація базової мови. Встановлено, що точність розпізнавання шести базових емоцій у згенерованому мовленні перевищує 80 %, а частка правильного визначення штучної мови в парі з малознайомою природною мовою становить 59,4 %, що свідчить про складність надійного розрізнення штучного й природного мовлення в запропонованій постановці. З'ясовано, що за використання однієї базової мови її фонетичний вплив часто виявляється під час сприйняття, тоді як комбінація багатьох мов істотно ускладнює ідентифікацію мовного джерела. Досліджено швидкодію підсистеми: тривалість генерування тарабарщини приблизно лінійно залежить від тривалості вхідного аудіо та становить близько 0,1 с на 1 с запису (тобто опрацьовує дані швидше, ніж у реальному часі). Запропоновано структуру наскрізної системи перетворення мовлення на штучне зі збереженням емоцій і голосу мовця; у межах цієї роботи реалізовано блоки розпізнавання фонем у мовленні та їх перетворення на тарабарщину, а також експериментально оцінено результати генерування тарабарщини, а інтеграцію TTS і перенесення просодичних характеристик визначено як напрям подальших досліджень.
Завантаження
Посилання
Akyazı, K. G., & Baştemur, Ş. (2024). Interactive Robots: Therapy Robots. Psikiyatride Güncel Yaklaşımlar – Current Approaches in Psychiatry, 16(1), 16–30. https://doi.org/10.18863/pgy.1242958
Alper, M., Yanuka, M., Giryes, R., & Begus, G. (2025). ConlangCrafter: Constructing Languages with a Multi-Hop LLM Pipeline.arXiv preprint. https://doi.org/10.48550/arXiv.2508.06094
Beinhoff, B. (2023). Design intentions and actual perception of fictional languages: Quenya, Sindarin and Navi. In: I. Noletto, J. Norledge, & P. Stockwell (Eds.), Reading Fictional Languages (pp. 76–92). Edinburgh University Press. https://doi.org/10.1515/9781399529167
Bracchi, L. (2023). Invented languages and their reflections on the world of video games. Thesis for: Languages, Literatures and Intercultural Studies, pp. 1–34 https://doi.org/10.13140/RG.2.2.14042.31687
Breazeal, C. L. (2000). Sociable machines: Expressive social exchange between humans and robots. PhD thesis, Massachusetts Institute of Technology, Cambridge, United States. order number AAI0801833. URL: https://dl.acm.org/doi/10.5555/932790
Diamond, J. (2023). "Genlangs" and Zipfs Law: Do languages generated by ChatGPT statistically look human? arXiv preprint. https://doi.org/10.48550/arXiv.2304.12191
Dutta, S., & Ganapathy, S. (2024). Zero Shot Audio To Audio Emotion Transfer With Speaker Disentanglement. ICASSP 2024 – 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 10371–10375. https://doi.org/10.1109/ICASSP48485.2024.10445962
Gonzalez, A. G. C., Lo, W., & Mizuuchi, I. (2022). Talk to Kotaro: a web crowdsourcing study on the impact of phone and prosody choice for synthesized speech on human impression. 2022 31st IEEE International Conference on Robot and Human Interactive Communication (RO-MAN), pp. 244–251. https://doi.org/10.1109/RO-MAN53752.2022.9900685
Gonzalez, A. G. C., Lo, W.-S., & Mizuuchi, I. (2023). The Impression of Phones and Prosody Choice in the Gibberish Speech of the Virtual Embodied Conversational Agent Kotaro. Applied Sciences, 13(18), article ID 10143. https://doi.org/10.3390/app131810143
González, C. (2025). Inventing Languages: An Introduction to Constructed Languages. Cambridge: Cambridge University Press, 402 p. https://doi.org/10.1017/9781108864015
Gonzalez, S. (2024). A Network Analysis Approach to Conlang Research Literature.arXiv preprint. URL: https://arxiv.org/abs/2407.15370
Heyer, F. (2021). Generating Immersive Conlangs. Thesis for B. Sc. Computer Science, Kiel University, Kiel, Germany, pp. 1–26. https://doi.org/10.13140/RG.2.2.22160.28168
Liu, R., Şişman, B., & Li, H. (2021). Reinforcement Learning for Emotional Text-to-Speech Synthesis with Improved Emotion Discriminability. Interspeech 2021, 4648–4652. https://doi.org/10.21437/Interspeech.2021-1236
Mehta, S., Székely, É., Beskow, J., & Henter, G. E. (2022). Neural HMMs Are All You Need (For High-Quality Attention-Free TTS). ICASSP 2022 – 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 7457–7461. https://doi.org/10.1109/ICASSP43922.2022.9746686
Mooshammer, C., Bobeck, D., Hornecker, H., Meinhardt, K., Olina, O., Walch, M. C., & Xia, Q. (2024). Does Orkish Sound Evil? Perception of Fantasy Languages and Their Phonetic and Phonological Characteristics. Language and Speech, 67(4), 961–1000. https://doi.org/10.1177/00238309231202944
Oudeyer, P.-Y. (2003). The production and recognition of emotions in speech: Features and algorithms. International Journal of Human-Computer Studies, 59(1–2), 157–183. https://doi.org/10.1016/S1071-5819(02)00141-6
Peterson, J. (2025). How to Create a Language: The Conlang Guide. Cambridge: Cambridge University Press, 420 p. https://doi.org/10.1017/9781108991827
Ping, W., Peng, K., Gibiansky, A., Arik, S. O., Kannan, A., Narang, S., Raiman, J., & Miller, J. J. (2017). Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning. 6th International Conference on Learning Representations (ICLR 2018), pp. 1–16. https://doi.org/10.48550/arXiv.1710.07654
Saldien, J., Goris, K., Yilmazyildiz, S., Verhelst, W., & Lefeber, D. (2008). On the Design of the Huggable Robot Probo. Journal of Physical Agents, 2(2), 3–11. https://doi.org/10.14198/JoPha.2008.2.2.02
Schreyer, C. (2021). Constructed Languages. Annual Review of Anthropology, 50, 327–344. https://doi.org/10.1146/annurev-anthro-101819-110152
Suprycheva, I. (2022). Linguistic Creativity in Cinema: A Case Study of the Navi Language. Three year degree thesis, University of Padua, pp. 1–64. URL: https://thesis.unipd.it/handle/20.500.12608/60158
Vainer, J., & Dušek, O. (2020). SpeedySpeech: Efficient Neural Speech Synthesis. Interspeech 2020, 3575–3579. https://doi.org/10.21437/Interspeech.2020-2867
van Niekerk, B., Carbonneau, M.-A., & Kamper, H. (2023). Rhythm Modeling for Voice Conversion.arXiv preprint. https://doi.org/10.48550/arXiv.2307.06040
Yilmazyildiz, S., Latacz, L., Mattheyses, W., & Verhelst, W. (2010). Expressive Gibberish Speech Synthesis for Affective Human-Computer Interaction. Lecture Notes in Computer Science, 6231, 584–590. https://doi.org/10.1007/978-3-642-15760-8_74
Yilmazyildiz, S., Read, R., Belpeame, T., & Verhelst, W. (2016). Review of Semantic Free Utterances in Social Human-Robot Interaction. International Journal of Human-Computer Interaction, 32(1), 63–85. https://doi.org/10.1080/10447318.2015.1093856
Yin, Z. (2018). An Overview of Speech Synthesis Technology. 2018 Eighth International Conference on Instrumentation & Measurement, Computer, Communication and Control (IMCCC), pp. 522–526. https://doi.org/10.1109/IMCCC.2018.00116
Zaïdi, J., Seuté, H., van Niekerk, B., & Carbonneau, M.-A. (2022). Daft-Exprt: Cross-Speaker Prosody Transfer on Any Text for Expressive Speech Synthesis. Interspeech 2022, 4591–4595. https://doi.org/10.21437/Interspeech.2022-10761



