Інформаційна технологія автоматизованого реферування наукових текстів засобами великих мовних моделей

Ключові слова: автоматизоване реферування, великі мовні моделі, екстрактивне скорочення тексту, абстрактивне узагальнення тексту, багатомовні наукові тексти

Анотація

Наведено комплексну інформаційну технологію автоматизованого реферування наукових текстів проблемної галузі "штучний інтелект", що інтегрує екстрактивні методи виділення змістових фрагментів, абстрактивні моделі узагальнення на основі сучасних трансформерних архітектур та механізми автоматизованого оцінювання якості отриманих результатів. Технологія реалізована як цілісний багаторівневий цикл інтелектуального оброблення тексту, який охоплює попередню структурну його сегментацію й очищення документа, формування компактних змістових подань, багатоступеневе генеративне узагальнення та верифікацію підсумків за формальними і семантичними метриками. Проведено три експериментальні спостереження із застосуванням моделей GPT-5, Grok-4 та Gemini 2.5 на англомовному, німецькомовному та україномовному наукових текстах. Отримані результати продемонстрували високу якість збереження логічної структури наукових праць, міждисциплінарних концептуальних зв'язків і термінологічної коректності, а також підтвердили багатомовність і доменну адаптивність розробленої інформаційної технології. Модель GPT-5 забезпечила найбільшу глибину концептуального узагальнення та інтеграцію наукових ідей у цілісні когнітивні структури, водночас як модель Grok-4 продемонструвала чутливість до філософсько-аналітичного стилю німецьких наукових текстів і складних теоретичних аргументацій, а модель Gemini 2.5 виявила високу точність і стилістичну узгодженість під час роботи з українською технічною мовою та спеціалізованою науковою термінологією. Запропонована інформаційна технологія забезпечує формування зв'язних, інформативних і фактологічно коректних рефератів для різних мов і наукових дисциплін, підтримує адаптацію до різних предметних галузей та створює підґрунтя для її практичного застосування в системах інтелектуального аналізу знань, наукових репозиторіях, освітніх платформах, цифрових бібліотеках та сервісах автоматизованого огляду наукової літератури, спрямованих на підтримку дослідницької діяльності, міждисциплінарної інтеграції та пришвидшення наукової комунікації.

Завантаження

Дані завантаження ще не доступні.

Біографії авторів

В. В. Пасічник, Національний університет "Львівська політехніка", м. Львів

 д-р техн. наук, професор, кафедра інформаційних систем та мереж

М. В. Яромич, Національний університет "Львівська політехніка", м. Львів

аспірант, кафедра прикладної лінгвістики

Посилання

Barrios, F., López, F., Argerich, L., & Wachenchauzer, R. (2016). Variations of the similarity function of TextRank for automated summarization. arXiv preprint. https://doi.org/10.48550/arXiv.1602.03606

Beltagy, I., Peters, M., & Cohan, A. (2020). Longformer: The long-document transformer. arXiv preprint. https://doi.org/10.48550/arXiv.2004.05150

Cao, Y., Dong, D., & Wei, F. (2024). Multilingual summarization with transformer models: A survey. ACM Computing Surveys, 56(10), article ID 248. https://doi.org/10.1145/3673030

Dhaini, M., Erdogan, E., Bakshi, S., & Kasneci, G. (2024). Explainability meets text summarization: A survey. In Proceedings of the 17th International Conference on Natural Language Generation (pp. 631–645). https://doi.org/10.18653/v1/2024.inlg-main.49

Dong, Y., Shen, Y., & Zhang, M. (2024). Scientific document summarization: A survey. Information Fusion, 104, article ID 102145. https://doi.org/10.1016/j.inffus.2023.102145

Dyak, T. P., & Hrytsiuk, Y. I. (2024). Application of corpus tools to identify keywords of Ukrainian rebel songs as a genre of the folklore discourse. Scientific Bulletin of UNFU, 34(7), 60-71. https://doi.org/10.36930/40340708

Erkan, G., & Radev, D. R. (2004). LexRank: Graph-based lexical centrality AS salience in text summarization. Journal of Artificial Intelligence Research, 22, 457–479. https://doi.org/10.1613/jair.10396

Hrytsai, S. R., & Dyak, T. P. (2025). Using digital corpus tools to study gendered aspects of political speeches. Scientific Bulletin of UNFU, 35(5), 108-115. https://doi.org/10.36930/40350512

Koto, F., & Lau, J. H. Y. (2024). Large language models for meta-evaluation of summaries. In Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics (pp. 1–15). https://doi.org/10.18653/v1/2024.naacl-long.1

Kryściński, W., McCann, B., Xiong, C., & Socher, R. (2020). Evaluating the factual consistency of abstractive text summarization. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (pp. 9332–9346). https://doi.org/10.18653/v1/2020.emnlp-main.750

Kunanets, N., & Yaromych, M. (2025). Extracting concepts from literary texts using large language models. Bulletin of Science and Education, 32(2), 343–357. https://doi.org/10.52058/2786-6165-2025-2(32)-343-357

Laban, P., Hsu, C., Kottur, S., & Choi, Y. (2022). SummaC: Re-visiting NLI-based models for inconsistency detection in summarization. Transactions of the Association for Computational Linguistics, 10, 163–177. https://aclanthology.org/2022.tacl-1.10/

Lewis, M., Liu, Y., Goyal, N., Ghazvininejad, M., Mohamed, A., Levy, O., Stoyanov, V., & Zettlemoyer, L. (2020). BART: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 7871–7880). https://doi.org/10.18653/v1/2020.acl-main.703

Lewis, M., Perez, E., Liu, Y., Ghazvininejad, M., & Zettlemoyer, L. (2024). Pretrained multilingual models for cross-lingual summarization. Transactions of the Association for Computational Linguistics, 12, 1–20. https://doi.org/10.1162/tacl_a_00612

Liu, J., He, M., & Zhang, L. (2023). An improved TextRank method based on K-means for document summarization. SSRN Electronic Journal. https://doi.org/10.2139/ssrn.4399141

Liu, Y., Iter, D., Xu, Y., Wang, S., Xu, R., & Zhu, C. (2023). G-Eval: NLG evaluation using GPT-4 with better human alignment. arXiv. https://doi.org/10.48550/arXiv.2303.16634

Maynez, J., Narayan, S., Bohnet, B., & McDonald, R. (2020). On faithfulness and factuality in abstractive summarization. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 1906–1919). https://doi.org/10.18653/v1/2020.acl-main.173

Mihalcea, R., & Tarau, P. (2004). TextRank: Bringing order into texts. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing (pp. 404–411). https://doi.org/10.3115/W04-3252

Nenkova, A., & McKeown, K. (2011). Automatic summarization. Foundations and Trends in Information Retrieval, 5(2–3), 103–233. https://doi.org/10.1561/1500000015

Pasichnyk, V., & Yaromych, M. (2025). Automated generation of technical documentation in IT using large language models. Studia Methodologica, 59, 250–273. https://doi.org/10.32782/2307-1222.2025-59-22

Pasichnyk, V., & Yaromych, M. (2025). Comparative analysis of large language models in solving linguistic tasks. Current Issues of the Humanities. Linguistics. Literary Studies, 89(1), 288–305. https://doi.org/10.24919/2308-4863/89-1-41

Pasichnyk, V., & Yaromych, M. (2025). Features of genre classification of literature using large language models. Folium, 6, 132–143. https://doi.org/10.32782/folium/2025.6.19

Pasichnyk, V., & Yaromych, M. (2025). Large language models and ontologies in philological research: An analytical review of sources. Current Issues of the Humanities. Linguistics. Literary Studies, 83(3), 236–250. https://doi.org/10.24919/2308-4863/83-3-35

Pasichnyk, V., & Yaromych, M. (2025). Methods and tools of large language models for conceptualizing the subject area "artificial intelligence". In Science in the Modern World: Innovations and Challenges: Proceedings of the IX International Scientific and Practical Conference (pp. 353–358). URL: https://sci-conf.com.ua/wp-content/uploads/2025/05/science-in-the-modern-world-innovations-and-challenges-15-17.05.2025.pdf

Pasichnyk, V., Yaromych, M., Pavliv, I., & Kunanets, N. (2025). Information technology for self-analysis of large language model parameters. Scientific Bulletin of UNFU, 35(5), 130–144. https://doi.org/10.36930/40350515

Peters, U., & Chin-Yee, B. (2025). Generalization bias in LLM summaries of scientific text. Royal Society Open Science, 12(4), article ID 241776. https://doi.org/10.1098/rsos.241776

Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21(140), 1–67. https://doi.org/10.48550/arXiv.1910.10683

Scialom, T., Dray, P.-A., Lamprier, S., Piwowarski, B., Staiano, J., Wang, A., & Gallinari, P. (2021). QuestEval: Summarization evaluation using question generation and answering. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (pp. 6594–6604). https://doi.org/10.18653/v1/2021.emnlp-main.529

See, A., Liu, P. J., & Manning, C. (2017). Get to the point: Summarization with pointer-generator networks. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (pp. 1073–1083). https://doi.org/10.18653/v1/P17-1099

Shen, Y., Li, M., et al. (2023). Hybrid extractive-abstractive summarization for scientific documents. Advances in Neural Information Processing Systems, 36, 12345–12360. https://doi.org/10.1016/j.aej.2026.01.051

Wang, T., Sun, T., & Li, T. (2023). Graph-based methods for document summarization: A review. Information Processing & Management, 60(4), article ID 103312. https://doi.org/10.1016/j.ipm.2023.103312

Zhang, J., & Zhao, W. (2025). Abstractive summarization with LLMs: Challenges and advances. Neural Computation, 37(1), 45–67. https://doi.org/10.1162/neco_a_00345

Zhang, J., Zhao, Y., Saleh, M., & Liu, P. (2020). PEGASUS: Pre-training with extracted gap-sentences for abstractive summarization. In Proceedings of the 37th International Conference on Machine Learning (pp. 11328–11339). https://doi.org/10.5555/3524938.3525989

Zhang, H., Yu, P., & Zhang, J. (2025). From statistical methods to large language models: A review of summarization paradigm shifts. ACM Transactions on Intelligent Systems and Technology, 16(2), article ID 43. https://doi.org/10.1145/3731445

Опубліковано
2026-02-26
Як цитувати
Пасічник, В. В., & Яромич, М. В. (2026). Інформаційна технологія автоматизованого реферування наукових текстів засобами великих мовних моделей. Scientific Bulletin of UNFU, 36(1), 105–117. https://doi.org/10.36930/40360112
Розділ
Інформаційні технології