Модель та засоби збирання та оброблення даних з використанням машинного навчання
Анотація
Досліджено вплив ітеративного методу зважування даних респондентів на підставі певних факторів на точність навчання моделі машинного навчання для вирішення завдань класифікації. Збір та оброблення даних є критичним етапом в процесі розроблення та використання моделей машинного навчання, оскільки якість та наочність даних безпосередньо впливають на точність та ефективність моделей. Проаналізовано математичне забезпечення алгоритмів моделей класифікації. Здійснено огляд літературних джерел, пов'язаних із тематикою статті. Проаналізовано набори даних, доступні у мережі для вирішення завдань класифікації. Розроблено програмне забезпечення для роботи із моделями машинного навчання. Проведено попередню підготовку вхідних даних для навчання та тестування вибраних моделей. Використано такі моделі класифікації, як наївний класифікатор Байєса, класифікатор випадкового лісу, наївний байєсів класифікатор Гауса, а також ітеративний метод зважування даних. Ці моделі інтегровано у програмне забезпечення, розроблене для оброблення, підготовки, зберігання даних. Досліджено обрані моделі із використанням попередньо підготовлених даних за допомогою програмного забезпечення відповідно до визначених сценаріїв. Згідно з результатами дослідження виявлено позитивний тренд на якість навчання моделей за коректної підготовки даних і вибору відповідних змінних для зважування даних респондентів. Показники ефективності, точності навчання алгоритму показують позитивну динаміку порівняно з результатами тестування моделей без використання зважування даних. Результатами дослідження підтверджується значущий вплив ітеративного методу зважування даних на результати навчання, тренування та тестування моделей машинного навчання, а саме мультиплікативного класифікатора Байєса.
Завантаження
Посилання
Angular. (2023). Retrieved from: https://angular.io/
Aridas, C. K., Karlos, S., Kanas, V. G., Fazakis, N., & Kotsiantis, S. B. (2020). Uncertainty Based Under-Sampling for Learning Naive Bayes Classifiers Under Imbalanced Data Sets. IEEE Access, 8, 2122–2133. https://doi.org/10.1109/ACCESS.2019.2961784
Bishop, C. (2006). Pattern recognition and machine learning. Dialektika-Williams, 124.
Docker. (2023). Retrieved from: https://www.docker.com/
Harrington, P. (2012). Machine learning in action. Manning Publications, 78.
Jia, L., Wang, Z., Lv, S., & Xu, Z. (2022). PE_DIM: An Efficient Probabilistic Ensemble Classification Algorithm for Diabetes Handling Class Imbalance Missing Values. IEEE Access, 10, 107459–107476. https://doi.org/10.1109/ACCESS.2022.3212067
Kaggle. (2023). Retrieved from: https://kaggle.com/datasets/rouseguy/bankbalanced.
Kim, S., Han, K., Rim, H., & Myaeng, S. H. (2006). Some Effective Techniques for Naive Bayes Text Classification. Transactions on Knowledge and Data Engineering, 18(11), 1457–1466. https://doi.org/10.1109/TKDE.2006.180
Li, J. P., Haq, A. U., Din, S. U., Khan, J., Khan, A., & Saboor, A. (2020). Heart Disease Identification Method Using Machine Learning Classification in E-Healthcare. IEEE Access, 8, 107562–107582. https://doi.org/10.1109/ACCESS.2020.3001149
Luengo, D., Subbotin, S. (Eds.), & Doroshenko, A. (2019). Application of global optimization methods to increase the accuracy of classification in the data mining tasks. Computer Modeling and Intelligent Systems. Proc. 2-nd Int. Conf. CMIS-2019, Vol. 2353: Main Conference Zaporizhzhia, Ukraine, 98–109. CEUR-WS.org. Retrieved from: http://ceur-ws.org/Vol-2353/
Postgresql. (2023). Retrieved from: https://www.postgresql.org/
Python. Retrieved from: https://www.python.org/
Savchuk, D., & Doroshenko, A. (2021). "Investigation of machine learning classification methods effectiveness." In: 2021 IEEE 16th International Conference on Computer Sciences and Information Technologies (CSIT), LVIV, Ukraine, 33–37, https://doi.org/10.1109/CSIT52700.2021.9648582
Scikit-learn. (2023). Retrieved from: https://scikit-learn.org/stable/
Teslyuk, V., Doroshenko, A., & Savchuk, D. (2023). Intelligent Methods and Models for Assessing Level of Student Adaptation to Online Learning. CEUR Workshop Proceedings, Vol. 3387, Proceedings of the 7th International Conference on Computational Linguistics and Intelligent Systems. Vol. I: Machine Learning Workshop, Kharkiv, Ukraine, 331–343.
Theobald, O. (2017). Machine Learning for absolute beginners. Scatterplot Press, 168.
Tiangolo. (2023). Retrieved from: https://fastapi.tiangolo.com/lo/
Wang, S., Ren, J., & Bai, R. (2020). A Regularized Attribute Weighting Framework for Naive Bayes. IEEE Access, 8, 225639–225649. https://doi.org/10.1109/ACCESS.2020.3044946
Yu, L., Gan, S., Chen, Y., & He, M. (2020). Correlation-Based Weight Adjusted Naive Bayes. IEEE Access, 8, 51377–51387. https://doi.org/10.1109/ACCESS.2020.2973331

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.



