Статистичні моделі та програмні засоби розмежування авторських стилів англійської прози

  • І. Ю. Хомицька Національний університет "Львівська політехніка", м. Львів https://orcid.org/0000-0003-3470-7197
  • В. М. Теслюк Національний університет "Львівська політехніка", м. Львів https://orcid.org/0000-0002-5974-9310
  • І. Б. Базилевич Львівський національний університет ім. Івана Франка, м. Львів
  • В. В. Береговський Івано-Франківський національний технічний університет нафти і газу, м. Івано-Франківськ
Ключові слова: модель авторського стилю; фоностатистична структура; метод гіпотез; метод ранжування; стилерозрізняльна здатність групи фонем

Анотація

Проаналізовано наявні дослідження щодо встановлення авторства тексту, внаслідок чого з'ясовано, що підвищення достовірності авторської атрибуції тексту є актуальним завданням у контексті тенденції до збільшення загального обсягу текстової інформації в мережі Інтернет. Розроблено модель системи фоностатистичних структур стилів. Достовірність авторської атрибуції підвищено на основі побудованої моделі системи фоностатистичних структур досліджуваних стилів (художнього, розмовного, газетного, публіцистичного, наукового) англійської мови. Складовими компонентами моделі системи фоностатистичних структур досліджуваних стилів є вдосконалені статистичні моделі: модель стильової, підстильової й авторської диференціації текстів за методом гіпотез і ранжування та модель визначення стилерозрізняльної здатності груп приголосних фонем досліджуваних стилів. Перша статистична модель ґрунтується на визначенні ступеня встановлених істотних відмінностей за відношенням кількості груп приголосних фонем, за якими встановлено істотні відмінності між попарно зіставленими стилями до загальної кількості груп приголосних фонем. Істотні розходження визначено за кількістю груп приголосних фонем, за якими встановлено істотні відмінності за різницею значень середніх частот груп приголосних фонем та за різницею значень рангових показників середніх частот груп приголосних фонем. Друга статистична модель ґрунтується на визначенні авторорозрізняльної здатності групи приголосних фонем за відношенням кількості зіставлень, у яких встановлено істотні відмінності між текстами різних авторів до загальної кількості всіх зіставлень. Побудована модель системи фоностатистичних структур досліджуваних стилів англійської мови дала змогу встановити статистичні параметри авторського стилю Е. Бронте на матеріалі твору "Буремний перевал", а також статистичні параметри розмовного, газетного, публіцистичного і наукового стилів. Спрощено процес авторської та стильової атрибуції тексту шляхом зменшення кількості груп приголосних фонем до двох (група передньоязикових і група губних), що забезпечує вищий рівень автоматизації. Вдосконалені статистичні моделі реалізовано на мові програмування Java, що забезпечує платформонезалежність програмного продукту. Структура програми ґрунтується на модульному принципі, що дає змогу швидко модифікувати та вдосконалювати програму.

Біографії авторів

І. Ю. Хомицька, Національний університет "Львівська політехніка", м. Львів

асистент, кафедра прикладної лінгвістики

В. М. Теслюк, Національний університет "Львівська політехніка", м. Львів

д-р техн. наук, професор, завідувач кафедри автоматизованих систем управління

І. Б. Базилевич, Львівський національний університет ім. Івана Франка, м. Львів

канд. фіз.-мат. наук, доцент, кафедра теоретичної та прикладної статистики

В. В. Береговський, Івано-Франківський національний технічний університет нафти і газу, м. Івано-Франківськ

канд. техн. наук, доцент, кафедра комп'ютерних систем та мереж

Посилання

Davydov, M., & Lozynska, O. (2016). Linguistic Models of Assistive Computer Technologies for Cognition and Communication. Proceedings of the XIth Scientific and Technical Conference, (CSIT'2016), Lviv, Ukraine, 171–174.

Hnedenko, B. V. (2010). Kurs teorii ymovirnostei. Kyiv: Kyivskyi universytet, 464 p. [In Ukrainian].

Jones, M. C. (2002). Students simplest distribution. Journal of the Royal Statistical Society. Series D, 51, 41–49.

Khomytska, I., Teslyuk, V., Holovatyy, A., & Morushko, O. (2018). Development of Methods, Models and Means for the Author Attribution of a Text. Eastern-European Journal of Enterprise Technologies, 3/2(93), 41–46. https://doi.org/10.15587/1729-4061.2018.132052

Khomytska, I., Teslyuk, V., Kryvinska, N., & Bazylevych, I. (2020, July). Software-Based Approach Towards Automated Authorship Acknowledgement – Chi-Square Test on One Consonant Group. Electronics, 4(7), 1138. https://doi.org/10.3390/electronics9071138

Kolmogorov, A. N. (1950). Foundations of the Theory of Probability. Chelsea Publishing, 340 p.

Koppel, M., Schler, J., & Argamon, Sh. (2011). Authorship attribution in the wild. Language Resources and Evaluation, 45(1), 46–52. https://doi.org/10.1007/s10579-009-9111-2

Madigan, D., Genkin, A., Lewis, D. D, Argamon, Sh., Fradkin, D.,& Li, Ye. (2005). Author Identification on the Large Scale. AIP Conference Proceedings 803, 509–5013. https://doi.org/10.1063/1.2149832

Perebyinis, V. S. (1967). Statystychni parametry styliv. Kyiv: Scientific thought, 240 p. [In Ukrainian].

Perebyinis, V. S. (2013). Statystychni metody dlia linhvistiv. Vinnytsia: Nova Knyha, 170 p. [In Ukrainian].

Seno, P. S. (2004). Teoriia ymovirnostei ta matematychnoi statystyky: pidruchnyk. Kyiv: Tsentr navchalnoi literatury, 448 p. [In Ukrainian].

Shestakevych, T., Vysotska, V., Chyrun, L., & Chyrun, L. (2014). Modelling of semantics of natural language sentences using generative grammars. Computer Science and Information Technologies: Proceedings of the IX-th Int. Conference, (CSIT'2014), 18–22 November, 2014, Lviv, Ukraine, 19–22.

Snedecor, G. W., & Cochran, W. G. (1989). Statistical Methods. Iowa; Iowa State Press. USA, 438 p.

Stamatatos, E. (2017). Authorship attribution using text distortion. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics, (Vol. 1), pp. 1138–1149.

Stamatatos, E., Daelemans, W., Verhoeven, B., Juola, P., Lopez Lopez, A., Potthast, M., & Stein, B. (2015). Overview of the Author Identification Task at PAN 2015. In Working Notes Papers of the CLEF 2015 Evaluation Labs, CEUR Workshop Proceedings. CLEF and CEUR-WS.org.

Steinskog, D. J. (2007). A cautionary note on the use of the Kolmogorov-Smirnov test for normality. American Meteor Soc., 135, 1151–7.

Turchyn, V. M. (2014). Teoriia ymovirnostei i matematychna statystyka. Dnipropetrovsk: IMA-pres, 294 p. [In Ukrainian].

Опубліковано
2020-11-03
Як цитувати
Хомицька, І. Ю., Теслюк, В. М., Базилевич, І. Б., & Береговський, В. В. (2020). Статистичні моделі та програмні засоби розмежування авторських стилів англійської прози. Науковий вісник НЛТУ України, 30(5), 135-139. https://doi.org/10.36930/40300522
Розділ
Інформаційні технології