Спеціалізоване структурне спрощення базових моделей для систем технічного зору роботів у приміщеннях
Анотація
Розглянуто проблему впровадження масштабних базових моделей комп'ютерного зору в робото-технічні системи реального часу, що наразі істотно обмежено значними обчислювальними витратами та затримками під час інференсу. Проаналізовано обмеження методів спрощення структури сегментаційних моделей загального призначення, які часто не забезпечують збереження семантичної точності та деталізації масок під час перенесення моделей у спеціалізовані середовища, такі як внутрішня навігація автономних роботів. Представлено фреймворк доменно-специфічної структурної оптимізації внутрішньої структури сегментаційної моделі, який розроблений для трансформації важковагової архітектури моделі сегментації зображень у високоточний інструмент, адаптований для виконання спеціалізованих завдань візуального сприйняття. Досліджено значення багатоетапного конвеєра структурного спрощення моделі сегментації зображень, починаючи із критичної фази адаптації сегментаційної моделі, під час якої повномасштабна модель-вчитель спеціалізується на формуванні стійких апріорних знань про цільові текстури об'єктів та геометрію приміщень, що створює доменно-орієнтований базовий рівень для передачі знань. Реалізовано алгоритм почергового спрощення структури моделі сегментації зображень, який здійснює декомпозицію енкодера на незалежні внутрішні вимірності, що дає змогу здійснювати послідовне структурне спрощення архітектури сегментаційної моделі зі збереженням архітектурної цілісності цієї моделі для узгодження ознак на проміжних рівнях. Інтегровано надійний конвеєр аугментації даних на етапах дистиляції та відновлення сегментаційної моделі, впроваджуючи складні геометричні та фотометричні трансформації зображень для стабілізації процесу навчання сегментаційної моделі та мінімізації ризику її перенавчання за умов дефіциту розмічених даних. Показано, що такий комплексний підхід до спрощення внутрішньої структури сегментаційної моделі забезпечує скорочення загальної кількості навчальних параметрів на 73,3 % та зменшення кількості операцій множення з накопиченням (MACs) на 74,3 %, що фактично дає можливість подвоїти швидкість інференсу – від 7 до 15 кадрів за секунду (FPS). Визначено, що оптимізована модель-учень демонструє тільки незначне зниження точності (приблизно на 1 %) порівняно зі спеціалізованою моделлю-вчителем, стабільно перевершуючи показники стандартного алгоритму SlimSAM як за деталізацією семантичних масок, так і за загальною стійкістю до факторів зовнішнього середовища. Встановлено, що розроблена модель сегментації зображень виявляє значно вищу резистентність до варіацій освітлення та впливу тіней, успішно вирішуючи критичну проблему базових архітектур сегментації зображень, таких як FastSAM, які часто спотворюють маски сегментації за умов висококонтрастного внутрішнього освітлення. З'ясовано, що інтеграція доменно-специфічного спрощення та дистиляції з аугментацією даних забезпечує дещо ефективніший та стабільніший шлях для впровадження складних систем інтелектуального зору реального часу на автономних платформах з обмеженими обчислювальними ресурсами.
Завантаження
Посилання
Borkivskyi, B. P., & Teslyuk, V. M. (2026). Improving obstacle recognition in indoor environments for robotic systems. Herald of Khmelnytskyi National University. Technical sciences, 1-2026 (pp. 135–140). https://doi.org/10.31891/2307-5732-2025-359-17
Che, Q., Le, D., Pham, B., Lam, D., & Nguyen, V. (2025). Enhanced Generative Data Augmentation for Semantic Segmentation via Stronger Guidance. In Proceedings of the 14th International Conference on Pattern Recognition Applications and Methods ICPRAM, vol. 1 (pp. 251–2). https://doi.org/10.5220/0013175900003905
Chen, K., Wei, T., Yeh, L., Kao, E., Tseng, Y., & Chen, J. (2024). Resolving Positional Ambiguity in Dialogues by Vision-Language Models for Robot Navigation. arXiv:2410.12802v1. https://doi.org/10.48550/arXiv.2410.12802
Chen, Z., Fang, G., Ma, X., & Wang, X. (2024). SlimSAM: 0.1 % Data Makes Segment Anything Slim. arXiv:2312.05284v4. https://doi.org/10.48550/arXiv.2312.05284
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. arXiv:2010.11929v2. https://doi.org/10.48550/arXiv.2010.11929
Fang, G., Ma, X., Song, M., Mi, M. B., & Wang, X. (2023). DepGraph: Towards Any Structural Pruning. arXiv:2301.12900v2. https://doi.org/10.48550/arXiv.2301.12900
Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the Knowledge in a Neural Network. arXiv:1503.02531v1. https://doi.org/10.48550/arXiv.1503.02531
Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., Xiao, T., Whitehead, S., Berg, A. C., Lo, W., Dollár, P., & Girshick, R. (2023). Segment Anything. arXiv:2304.02643v1. https://doi.org/10.48550/arXiv.2304.02643
Marchetti, M., Traini, D., Ursino, D., & Virgili, L. (2025). Efficient token pruning in Vision Transformers using an attention-based Multilayer Network. Expert Systems with Applications, 279, article ID 127449. https://doi.org/10.1016/j.eswa.2025.127449
Molchanov, P., Mallya, A., Tyree, S., Frosio, I., & Kautz, J. (2019). Importance Estimation for Neural Network Pruning. arXiv:1906.10771v1. https://doi.org/10.48550/arXiv.1906.10771
Morì, P., Vemparala, M.R., Fasfous, N., Mitra, S., Sarkar, S., Frickenstein, A., Frickenstein, L., Helms, D., Nagaraja, N., Stechele, W., & Passerone, C. (2022). Accelerating and pruning CNNs for semantic segmentation on FPGA. In Proceedings of the 59th ACM/IEEE Design Automation Conference (pp. 145–150). Association for Computing Machinery. https://doi.org/10.1145/3489517.3530424
Ravi, N., Gabeur, V., Hu, Y., Hu, R., Ryali, C., Ma, T., Khedr, H., Rädle, R., Rolland, C., Gustafson, L., Mintun, E., Pan, J., Alwala, K. V., Carion, N., Wu, C., Girshick, R., Dollár, P., & Feichtenhofer, C. (2024). SAM 2: Segment Anything in Images and Videos. arXiv:2408.00714v2. https://doi.org/10.48550/arXiv.2408.00714
Silberman, N., Hoiem, D., Kohli, P., & Fergus, R. (2012). Indoor Segmentation and Support Inference from RGBD Images. In Computer Vision – ECCV 2012 (pp. 746–760). Springer Berlin Heidelberg. https://doi.org/10.1007/978-3-642-33715-4_54
Tsmots, I. G., Teslyuk, V. M., Opotiak, Yu. V., & Oliinyk, O. O. (2023). Development of the scheme and improvement of the motion control method of a group of mobile robotic platforms. Ukrainian Journal of Information Technology, 5(2), 97–104. https://doi.org/10.23939/ujit2023.02.097
Torskyi, O. I., & Hrytsiuk, Y. I. (2025). Application of machine learning to enhance the efficiency of automated software testing. Scientific Bulletin of UNFU, 35(4), 142–149. https://doi.org/10.36930/40350416
Wang, X., Yang, J., & Darrell, T. (2024). Segment Anything without Supervision. arXiv:2406.20081v1. https://doi.org/10.48550/arXiv.2406.20081
Yang, H., Yin, H., Shen, M., Molchanov, P., Li, H., & Kautz, J. (2023). Global Vision Transformer Pruning with Hessian-Aware Saliency. arXiv:2110.04869v2. https://doi.org/10.48550/arXiv.2110.04869
Zhang, C., Han, D., Qiao, Y., Kim, J. U., Bae, S., Lee, S., & Hong, C. S. (2023). Faster Segment Anything: Towards Lightweight SAM for Mobile Applications. arXiv:2306.14289v2. https://doi.org/10.48550/arXiv.2306.14289
Zhang, C., Han, D., Zheng, S., Choi, J., Kim, T., & Hong, C. S. (2023). MobileSAMv2: Faster Segment Anything to Everything. arXiv:2312.09579v1. https://doi.org/10.48550/arXiv.2312.09579
Zhang, Y., Konz, N., Kramer, K., & Mazurowski, M. A. (2025). Quantifying the Limits of Segmentation Foundation Models: Modeling Challenges in Segmenting Tree-Like and Low-Contrast Objects. arXiv:2412.04243v3. https://doi.org/10.48550/arXiv.2412.04243
Zhao, X., Ding, W., An, Y., Du, Y., Yu, T., Li, M., Tang, M., & Wang, J. (2023). Fast Segment Anything. arXiv:2306.12156v1. https://doi.org/10.48550/arXiv.2306.12156

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.



