Модель та засоби збирання та оброблення даних з використанням машинного навчання

Ключові слова: оброблення даних, алгоритми, наївний класифікатор Байєса, класифікатор випадкового лісу, наївний байєсів класифікатор Гауса, класифікація, аналіз даних, метрики оцінки моделей, зважування даних

Анотація

Досліджено вплив ітеративного методу зважування даних респондентів на підставі певних факторів на точність навчання моделі машинного навчання для вирішення завдань класифікації. Збір та оброблення даних є критичним етапом в процесі розроблення та використання моделей машинного навчання, оскільки якість та наочність даних безпосередньо впливають на точність та ефективність моделей. Проаналізовано математичне забезпечення алгоритмів моделей класифікації. Здійснено огляд літературних джерел, пов'язаних із тематикою статті. Проаналізовано набори даних, доступні у мережі для вирішення завдань класифікації. Розроблено програмне забезпечення для роботи із моделями машинного навчання. Проведено попередню підготовку вхідних даних для навчання та тестування вибраних моделей. Використано такі моделі класифікації, як наївний класифікатор Байєса, класифікатор випадкового лісу, наївний байєсів класифікатор Гауса, а також ітеративний метод зважування даних. Ці моделі інтегровано у програмне забезпечення, розроблене для оброблення, підготовки, зберігання даних. Досліджено обрані моделі із використанням попередньо підготовлених даних за допомогою програмного забезпечення відповідно до визначених сценаріїв. Згідно з результатами дослідження виявлено позитивний тренд на якість навчання моделей за коректної підготовки даних і вибору відповідних змінних для зважування даних респондентів. Показники ефективності, точності навчання алгоритму показують позитивну динаміку порівняно з результатами тестування моделей без використання зважування даних. Результатами дослідження підтверджується значущий вплив ітеративного методу зважування даних на результати навчання, тренування та тестування моделей машинного навчання, а саме мультиплікативного класифікатора Байєса.

Завантаження

Дані завантаження ще не доступні.

Біографії авторів

В. В. Петрина, Національний університет "Львівська політехніка", м. Львів

аспірант, кафедра автоматизованих систем управління

A. В. Дорошенко, Національний університет "Львівська політехніка", м. Львів

канд. техн. наук, доцент, кафедра автоматизованих систем управління

Р. В. Сидоренко, Національний університет "Львівська політехніка", м. Львів

асистент, кафедра автоматизованих систем управління

В. М. Теслюк, Національний університет "Львівська політехніка", м. Львів

д-р техн. наук, професор, завідувач кафедри автоматизованих систем управління

Посилання

Angular. (2023). Retrieved from: https://angular.io/

Aridas, C. K., Karlos, S., Kanas, V. G., Fazakis, N., & Kotsiantis, S. B. (2020). Uncertainty Based Under-Sampling for Learning Naive Bayes Classifiers Under Imbalanced Data Sets. IEEE Access, 8, 2122–2133. https://doi.org/10.1109/ACCESS.2019.2961784

Bishop, C. (2006). Pattern recognition and machine learning. Dialektika-Williams, 124.

Docker. (2023). Retrieved from: https://www.docker.com/

Harrington, P. (2012). Machine learning in action. Manning Publications, 78.

Jia, L., Wang, Z., Lv, S., & Xu, Z. (2022). PE_DIM: An Efficient Probabilistic Ensemble Classification Algorithm for Diabetes Handling Class Imbalance Missing Values. IEEE Access, 10, 107459–107476. https://doi.org/10.1109/ACCESS.2022.3212067

Kaggle. (2023). Retrieved from: https://kaggle.com/datasets/rouseguy/bankbalanced.

Kim, S., Han, K., Rim, H., & Myaeng, S. H. (2006). Some Effective Techniques for Naive Bayes Text Classification. Transactions on Knowledge and Data Engineering, 18(11), 1457–1466. https://doi.org/10.1109/TKDE.2006.180

Li, J. P., Haq, A. U., Din, S. U., Khan, J., Khan, A., & Saboor, A. (2020). Heart Disease Identification Method Using Machine Learning Classification in E-Healthcare. IEEE Access, 8, 107562–107582. https://doi.org/10.1109/ACCESS.2020.3001149

Luengo, D., Subbotin, S. (Eds.), & Doroshenko, A. (2019). Application of global optimization methods to increase the accuracy of classification in the data mining tasks. Computer Modeling and Intelligent Systems. Proc. 2-nd Int. Conf. CMIS-2019, Vol. 2353: Main Conference Zaporizhzhia, Ukraine, 98–109. CEUR-WS.org. Retrieved from: http://ceur-ws.org/Vol-2353/

Postgresql. (2023). Retrieved from: https://www.postgresql.org/

Python. Retrieved from: https://www.python.org/

Savchuk, D., & Doroshenko, A. (2021). "Investigation of machine learning classification methods effectiveness." In: 2021 IEEE 16th International Conference on Computer Sciences and Information Technologies (CSIT), LVIV, Ukraine, 33–37, https://doi.org/10.1109/CSIT52700.2021.9648582

Scikit-learn. (2023). Retrieved from: https://scikit-learn.org/stable/

Teslyuk, V., Doroshenko, A., & Savchuk, D. (2023). Intelligent Methods and Models for Assessing Level of Student Adaptation to Online Learning. CEUR Workshop Proceedings, Vol. 3387, Proceedings of the 7th International Conference on Computational Linguistics and Intelligent Systems. Vol. I: Machine Learning Workshop, Kharkiv, Ukraine, 331–343.

Theobald, O. (2017). Machine Learning for absolute beginners. Scatterplot Press, 168.

Tiangolo. (2023). Retrieved from: https://fastapi.tiangolo.com/lo/

Wang, S., Ren, J., & Bai, R. (2020). A Regularized Attribute Weighting Framework for Naive Bayes. IEEE Access, 8, 225639–225649. https://doi.org/10.1109/ACCESS.2020.3044946

Yu, L., Gan, S., Chen, Y., & He, M. (2020). Correlation-Based Weight Adjusted Naive Bayes. IEEE Access, 8, 51377–51387. https://doi.org/10.1109/ACCESS.2020.2973331

Опубліковано
2023-05-25
Як цитувати
Петрина, В. В., ДорошенкоA. В., Сидоренко, Р. В., & Теслюк, В. М. (2023). Модель та засоби збирання та оброблення даних з використанням машинного навчання. Scientific Bulletin of UNFU, 33(3), 102-109. https://doi.org/10.36930/40330315
Розділ
Інформаційні технології

Статті цього автора (авторів), які найбільше читають

1 2 > >>