Інформаційна технологія автоматизованого реферування наукових текстів засобами великих мовних моделей
Анотація
Наведено комплексну інформаційну технологію автоматизованого реферування наукових текстів проблемної галузі "штучний інтелект", що інтегрує екстрактивні методи виділення змістових фрагментів, абстрактивні моделі узагальнення на основі сучасних трансформерних архітектур та механізми автоматизованого оцінювання якості отриманих результатів. Технологія реалізована як цілісний багаторівневий цикл інтелектуального оброблення тексту, який охоплює попередню структурну його сегментацію й очищення документа, формування компактних змістових подань, багатоступеневе генеративне узагальнення та верифікацію підсумків за формальними і семантичними метриками. Проведено три експериментальні спостереження із застосуванням моделей GPT-5, Grok-4 та Gemini 2.5 на англомовному, німецькомовному та україномовному наукових текстах. Отримані результати продемонстрували високу якість збереження логічної структури наукових праць, міждисциплінарних концептуальних зв'язків і термінологічної коректності, а також підтвердили багатомовність і доменну адаптивність розробленої інформаційної технології. Модель GPT-5 забезпечила найбільшу глибину концептуального узагальнення та інтеграцію наукових ідей у цілісні когнітивні структури, водночас як модель Grok-4 продемонструвала чутливість до філософсько-аналітичного стилю німецьких наукових текстів і складних теоретичних аргументацій, а модель Gemini 2.5 виявила високу точність і стилістичну узгодженість під час роботи з українською технічною мовою та спеціалізованою науковою термінологією. Запропонована інформаційна технологія забезпечує формування зв'язних, інформативних і фактологічно коректних рефератів для різних мов і наукових дисциплін, підтримує адаптацію до різних предметних галузей та створює підґрунтя для її практичного застосування в системах інтелектуального аналізу знань, наукових репозиторіях, освітніх платформах, цифрових бібліотеках та сервісах автоматизованого огляду наукової літератури, спрямованих на підтримку дослідницької діяльності, міждисциплінарної інтеграції та пришвидшення наукової комунікації.
Завантаження
Посилання
Barrios, F., López, F., Argerich, L., & Wachenchauzer, R. (2016). Variations of the similarity function of TextRank for automated summarization. arXiv preprint. https://doi.org/10.48550/arXiv.1602.03606
Beltagy, I., Peters, M., & Cohan, A. (2020). Longformer: The long-document transformer. arXiv preprint. https://doi.org/10.48550/arXiv.2004.05150
Cao, Y., Dong, D., & Wei, F. (2024). Multilingual summarization with transformer models: A survey. ACM Computing Surveys, 56(10), article ID 248. https://doi.org/10.1145/3673030
Dhaini, M., Erdogan, E., Bakshi, S., & Kasneci, G. (2024). Explainability meets text summarization: A survey. In Proceedings of the 17th International Conference on Natural Language Generation (pp. 631–645). https://doi.org/10.18653/v1/2024.inlg-main.49
Dong, Y., Shen, Y., & Zhang, M. (2024). Scientific document summarization: A survey. Information Fusion, 104, article ID 102145. https://doi.org/10.1016/j.inffus.2023.102145
Dyak, T. P., & Hrytsiuk, Y. I. (2024). Application of corpus tools to identify keywords of Ukrainian rebel songs as a genre of the folklore discourse. Scientific Bulletin of UNFU, 34(7), 60-71. https://doi.org/10.36930/40340708
Erkan, G., & Radev, D. R. (2004). LexRank: Graph-based lexical centrality AS salience in text summarization. Journal of Artificial Intelligence Research, 22, 457–479. https://doi.org/10.1613/jair.10396
Hrytsai, S. R., & Dyak, T. P. (2025). Using digital corpus tools to study gendered aspects of political speeches. Scientific Bulletin of UNFU, 35(5), 108-115. https://doi.org/10.36930/40350512
Koto, F., & Lau, J. H. Y. (2024). Large language models for meta-evaluation of summaries. In Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics (pp. 1–15). https://doi.org/10.18653/v1/2024.naacl-long.1
Kryściński, W., McCann, B., Xiong, C., & Socher, R. (2020). Evaluating the factual consistency of abstractive text summarization. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (pp. 9332–9346). https://doi.org/10.18653/v1/2020.emnlp-main.750
Kunanets, N., & Yaromych, M. (2025). Extracting concepts from literary texts using large language models. Bulletin of Science and Education, 32(2), 343–357. https://doi.org/10.52058/2786-6165-2025-2(32)-343-357
Laban, P., Hsu, C., Kottur, S., & Choi, Y. (2022). SummaC: Re-visiting NLI-based models for inconsistency detection in summarization. Transactions of the Association for Computational Linguistics, 10, 163–177. https://aclanthology.org/2022.tacl-1.10/
Lewis, M., Liu, Y., Goyal, N., Ghazvininejad, M., Mohamed, A., Levy, O., Stoyanov, V., & Zettlemoyer, L. (2020). BART: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 7871–7880). https://doi.org/10.18653/v1/2020.acl-main.703
Lewis, M., Perez, E., Liu, Y., Ghazvininejad, M., & Zettlemoyer, L. (2024). Pretrained multilingual models for cross-lingual summarization. Transactions of the Association for Computational Linguistics, 12, 1–20. https://doi.org/10.1162/tacl_a_00612
Liu, J., He, M., & Zhang, L. (2023). An improved TextRank method based on K-means for document summarization. SSRN Electronic Journal. https://doi.org/10.2139/ssrn.4399141
Liu, Y., Iter, D., Xu, Y., Wang, S., Xu, R., & Zhu, C. (2023). G-Eval: NLG evaluation using GPT-4 with better human alignment. arXiv. https://doi.org/10.48550/arXiv.2303.16634
Maynez, J., Narayan, S., Bohnet, B., & McDonald, R. (2020). On faithfulness and factuality in abstractive summarization. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 1906–1919). https://doi.org/10.18653/v1/2020.acl-main.173
Mihalcea, R., & Tarau, P. (2004). TextRank: Bringing order into texts. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing (pp. 404–411). https://doi.org/10.3115/W04-3252
Nenkova, A., & McKeown, K. (2011). Automatic summarization. Foundations and Trends in Information Retrieval, 5(2–3), 103–233. https://doi.org/10.1561/1500000015
Pasichnyk, V., & Yaromych, M. (2025). Automated generation of technical documentation in IT using large language models. Studia Methodologica, 59, 250–273. https://doi.org/10.32782/2307-1222.2025-59-22
Pasichnyk, V., & Yaromych, M. (2025). Comparative analysis of large language models in solving linguistic tasks. Current Issues of the Humanities. Linguistics. Literary Studies, 89(1), 288–305. https://doi.org/10.24919/2308-4863/89-1-41
Pasichnyk, V., & Yaromych, M. (2025). Features of genre classification of literature using large language models. Folium, 6, 132–143. https://doi.org/10.32782/folium/2025.6.19
Pasichnyk, V., & Yaromych, M. (2025). Large language models and ontologies in philological research: An analytical review of sources. Current Issues of the Humanities. Linguistics. Literary Studies, 83(3), 236–250. https://doi.org/10.24919/2308-4863/83-3-35
Pasichnyk, V., & Yaromych, M. (2025). Methods and tools of large language models for conceptualizing the subject area "artificial intelligence". In Science in the Modern World: Innovations and Challenges: Proceedings of the IX International Scientific and Practical Conference (pp. 353–358). URL: https://sci-conf.com.ua/wp-content/uploads/2025/05/science-in-the-modern-world-innovations-and-challenges-15-17.05.2025.pdf
Pasichnyk, V., Yaromych, M., Pavliv, I., & Kunanets, N. (2025). Information technology for self-analysis of large language model parameters. Scientific Bulletin of UNFU, 35(5), 130–144. https://doi.org/10.36930/40350515
Peters, U., & Chin-Yee, B. (2025). Generalization bias in LLM summaries of scientific text. Royal Society Open Science, 12(4), article ID 241776. https://doi.org/10.1098/rsos.241776
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21(140), 1–67. https://doi.org/10.48550/arXiv.1910.10683
Scialom, T., Dray, P.-A., Lamprier, S., Piwowarski, B., Staiano, J., Wang, A., & Gallinari, P. (2021). QuestEval: Summarization evaluation using question generation and answering. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (pp. 6594–6604). https://doi.org/10.18653/v1/2021.emnlp-main.529
See, A., Liu, P. J., & Manning, C. (2017). Get to the point: Summarization with pointer-generator networks. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (pp. 1073–1083). https://doi.org/10.18653/v1/P17-1099
Shen, Y., Li, M., et al. (2023). Hybrid extractive-abstractive summarization for scientific documents. Advances in Neural Information Processing Systems, 36, 12345–12360. https://doi.org/10.1016/j.aej.2026.01.051
Wang, T., Sun, T., & Li, T. (2023). Graph-based methods for document summarization: A review. Information Processing & Management, 60(4), article ID 103312. https://doi.org/10.1016/j.ipm.2023.103312
Zhang, J., & Zhao, W. (2025). Abstractive summarization with LLMs: Challenges and advances. Neural Computation, 37(1), 45–67. https://doi.org/10.1162/neco_a_00345
Zhang, J., Zhao, Y., Saleh, M., & Liu, P. (2020). PEGASUS: Pre-training with extracted gap-sentences for abstractive summarization. In Proceedings of the 37th International Conference on Machine Learning (pp. 11328–11339). https://doi.org/10.5555/3524938.3525989
Zhang, H., Yu, P., & Zhang, J. (2025). From statistical methods to large language models: A review of summarization paradigm shifts. ACM Transactions on Intelligent Systems and Technology, 16(2), article ID 43. https://doi.org/10.1145/3731445

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.



