Спеціалізоване структурне спрощення базових моделей для систем технічного зору роботів у приміщеннях

Ключові слова: оброблення зображень, оброблення даних, сегментація зображень, тренування моделей, сегментаційні моделі загального призначення

Анотація

Розглянуто проблему впровадження масштабних базових моделей комп'ютерного зору в робото-технічні системи реального часу, що наразі істотно обмежено значними обчислювальними витратами та затримками під час інференсу. Проаналізовано обмеження методів спрощення структури сегментаційних моделей загального призначення, які часто не забезпечують збереження семантичної точності та деталізації масок під час перенесення моделей у спеціалізовані середовища, такі як внутрішня навігація автономних роботів. Представлено фреймворк доменно-специфічної структурної оптимізації внутрішньої структури сегментаційної моделі, який розроблений для трансформації важковагової архітектури моделі сегментації зображень у високоточний інструмент, адаптований для виконання спеціалізованих завдань візуального сприйняття. Досліджено значення багатоетапного конвеєра структурного спрощення моделі сегментації зображень, починаючи із критичної фази адаптації сегментаційної моделі, під час якої повномасштабна модель-вчитель спеціалізується на формуванні стійких апріорних знань про цільові текстури об'єктів та геометрію приміщень, що створює доменно-орієнтований базовий рівень для передачі знань. Реалізовано алгоритм почергового спрощення структури моделі сегментації зображень, який здійснює декомпозицію енкодера на незалежні внутрішні вимірності, що дає змогу здійснювати послідовне структурне спрощення архітектури сегментаційної моделі зі збереженням архітектурної цілісності цієї моделі для узгодження ознак на проміжних рівнях. Інтегровано надійний конвеєр аугментації даних на етапах дистиляції та відновлення сегментаційної моделі, впроваджуючи складні геометричні та фотометричні трансформації зображень для стабілізації процесу навчання сегментаційної моделі та мінімізації ризику її перенавчання за умов дефіциту розмічених даних. Показано, що такий комплексний підхід до спрощення внутрішньої структури сегментаційної моделі забезпечує скорочення загальної кількості навчальних параметрів на 73,3 % та зменшення кількості операцій множення з накопиченням (MACs) на 74,3 %, що фактично дає можливість подвоїти швидкість інференсу – від 7 до 15 кадрів за секунду (FPS). Визначено, що оптимізована модель-учень демонструє тільки незначне зниження точності (приблизно на 1 %) порівняно зі спеціалізованою моделлю-вчителем, стабільно перевершуючи показники стандартного алгоритму SlimSAM як за деталізацією семантичних масок, так і за загальною стійкістю до факторів зовнішнього середовища. Встановлено, що розроблена модель сегментації зображень виявляє значно вищу резистентність до варіацій освітлення та впливу тіней, успішно вирішуючи критичну проблему базових архітектур сегментації зображень, таких як FastSAM, які часто спотворюють маски сегментації за умов висококонтрастного внутрішнього освітлення. З'ясовано, що інтеграція доменно-специфічного спрощення та дистиляції з аугментацією даних забезпечує дещо ефективніший та стабільніший шлях для впровадження складних систем інтелектуального зору реального часу на автономних платформах з обмеженими обчислювальними ресурсами.

Завантаження

Дані завантаження ще не доступні.

Біографії авторів

Б. П. Борківський, Національний університет "Львівська політехніка", м. Львів

магістр, аспірант, кафедра автоматизовані системи управління

В. М. Теслюк, Національний університет "Львівська політехніка", м. Львів

д-р техн. наук, професор, завідувач кафедри автоматизовані системи управління

Посилання

Borkivskyi, B. P., & Teslyuk, V. M. (2026). Improving obstacle recognition in indoor environments for robotic systems. Herald of Khmelnytskyi National University. Technical sciences, 1-2026 (pp. 135–140). https://doi.org/10.31891/2307-5732-2025-359-17

Che, Q., Le, D., Pham, B., Lam, D., & Nguyen, V. (2025). Enhanced Generative Data Augmentation for Semantic Segmentation via Stronger Guidance. In Proceedings of the 14th International Conference on Pattern Recognition Applications and Methods ICPRAM, vol. 1 (pp. 251–2). https://doi.org/10.5220/0013175900003905

Chen, K., Wei, T., Yeh, L., Kao, E., Tseng, Y., & Chen, J. (2024). Resolving Positional Ambiguity in Dialogues by Vision-Language Models for Robot Navigation. arXiv:2410.12802v1. https://doi.org/10.48550/arXiv.2410.12802

Chen, Z., Fang, G., Ma, X., & Wang, X. (2024). SlimSAM: 0.1 % Data Makes Segment Anything Slim. arXiv:2312.05284v4. https://doi.org/10.48550/arXiv.2312.05284

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. arXiv:2010.11929v2. https://doi.org/10.48550/arXiv.2010.11929

Fang, G., Ma, X., Song, M., Mi, M. B., & Wang, X. (2023). DepGraph: Towards Any Structural Pruning. arXiv:2301.12900v2. https://doi.org/10.48550/arXiv.2301.12900

Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the Knowledge in a Neural Network. arXiv:1503.02531v1. https://doi.org/10.48550/arXiv.1503.02531

Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., Xiao, T., Whitehead, S., Berg, A. C., Lo, W., Dollár, P., & Girshick, R. (2023). Segment Anything. arXiv:2304.02643v1. https://doi.org/10.48550/arXiv.2304.02643

Marchetti, M., Traini, D., Ursino, D., & Virgili, L. (2025). Efficient token pruning in Vision Transformers using an attention-based Multilayer Network. Expert Systems with Applications, 279, article ID 127449. https://doi.org/10.1016/j.eswa.2025.127449

Molchanov, P., Mallya, A., Tyree, S., Frosio, I., & Kautz, J. (2019). Importance Estimation for Neural Network Pruning. arXiv:1906.10771v1. https://doi.org/10.48550/arXiv.1906.10771

Morì, P., Vemparala, M.R., Fasfous, N., Mitra, S., Sarkar, S., Frickenstein, A., Frickenstein, L., Helms, D., Nagaraja, N., Stechele, W., & Passerone, C. (2022). Accelerating and pruning CNNs for semantic segmentation on FPGA. In Proceedings of the 59th ACM/IEEE Design Automation Conference (pp. 145–150). Association for Computing Machinery. https://doi.org/10.1145/3489517.3530424

Ravi, N., Gabeur, V., Hu, Y., Hu, R., Ryali, C., Ma, T., Khedr, H., Rädle, R., Rolland, C., Gustafson, L., Mintun, E., Pan, J., Alwala, K. V., Carion, N., Wu, C., Girshick, R., Dollár, P., & Feichtenhofer, C. (2024). SAM 2: Segment Anything in Images and Videos. arXiv:2408.00714v2. https://doi.org/10.48550/arXiv.2408.00714

Silberman, N., Hoiem, D., Kohli, P., & Fergus, R. (2012). Indoor Segmentation and Support Inference from RGBD Images. In Computer Vision – ECCV 2012 (pp. 746–760). Springer Berlin Heidelberg. https://doi.org/10.1007/978-3-642-33715-4_54

Tsmots, I. G., Teslyuk, V. M., Opotiak, Yu. V., & Oliinyk, O. O. (2023). Development of the scheme and improvement of the motion control method of a group of mobile robotic platforms. Ukrainian Journal of Information Technology, 5(2), 97–104. https://doi.org/10.23939/ujit2023.02.097

Torskyi, O. I., & Hrytsiuk, Y. I. (2025). Application of machine learning to enhance the efficiency of automated software testing. Scientific Bulletin of UNFU, 35(4), 142–149. https://doi.org/10.36930/40350416

Wang, X., Yang, J., & Darrell, T. (2024). Segment Anything without Supervision. arXiv:2406.20081v1. https://doi.org/10.48550/arXiv.2406.20081

Yang, H., Yin, H., Shen, M., Molchanov, P., Li, H., & Kautz, J. (2023). Global Vision Transformer Pruning with Hessian-Aware Saliency. arXiv:2110.04869v2. https://doi.org/10.48550/arXiv.2110.04869

Zhang, C., Han, D., Qiao, Y., Kim, J. U., Bae, S., Lee, S., & Hong, C. S. (2023). Faster Segment Anything: Towards Lightweight SAM for Mobile Applications. arXiv:2306.14289v2. https://doi.org/10.48550/arXiv.2306.14289

Zhang, C., Han, D., Zheng, S., Choi, J., Kim, T., & Hong, C. S. (2023). MobileSAMv2: Faster Segment Anything to Everything. arXiv:2312.09579v1. https://doi.org/10.48550/arXiv.2312.09579

Zhang, Y., Konz, N., Kramer, K., & Mazurowski, M. A. (2025). Quantifying the Limits of Segmentation Foundation Models: Modeling Challenges in Segmenting Tree-Like and Low-Contrast Objects. arXiv:2412.04243v3. https://doi.org/10.48550/arXiv.2412.04243

Zhao, X., Ding, W., An, Y., Du, Y., Yu, T., Li, M., Tang, M., & Wang, J. (2023). Fast Segment Anything. arXiv:2306.12156v1. https://doi.org/10.48550/arXiv.2306.12156

Опубліковано
2026-02-26
Як цитувати
Борківський, Б. П., & Теслюк, В. М. (2026). Спеціалізоване структурне спрощення базових моделей для систем технічного зору роботів у приміщеннях. Scientific Bulletin of UNFU, 36(1), 156–161. https://doi.org/10.36930/40360117
Розділ
Інформаційні технології

Статті цього автора (авторів), які найбільше читають

1 2 > >>