Синтез нейрокомп'ютерних систем з узгоджено-паралельним обробленням інтенсивних потоків даних у реальному часі

Ключові слова: нейромережа, синтез, нейрокомп'ютерна система, узгоджено-паралельне оброблення даних, потоковий граф, нейроелемент, конвеєризація

Анотація

Розглянуто особливості синтезу нейрокомп'ютерних систем з узгоджено-паралельним обробленням інтенсивних потоків даних у реальному часі, що дало змогу отримати модульну та регулярну структуру, орієнтовану на реалізацію на сучасній елементній базі з високою ефективністю використання обладнання. Визначено, що початковою інформацією для синтезу нейрокомп'ютерних систем з узгоджено-паралельним обробленням даних у реальному часі є: структура нейромережі; графове відображення нейромережі; алгоритми навчання та функціонування нейромережі; кількість вхідних даних; інтенсивність надходження вхідних даних і вагових коефіцієнтів; вимоги до інтерфейсу; розрядність вхідних даних, вагових коефіцієнтів і точність обчислень; техніко-експлуатаційні вимоги та обмеження. Розроблено метод синтезу нейрокомп'ютерних систем реального часу з узгоджено-паралельним обробленням даних, визначено, що основними етапами такого методу є: оцінювання обчислювальних і структурних характеристик нейромережі та вибір складності функціональних операторів для відображення її структури; просторово-часове відображення структури нейромережі у вигляді конкретизованого узгодженого потокового графу; визначення базових компонент для синтезу нейрокомп'ютерних систем реального часу з узгоджено-паралельним обробленням даних; визначення основних характеристик базових компонент; розроблення базових компонент; розроблення зовнішнього інтерфейсу та інтерфейсу систем обміну між шарами нейромережі; розроблення алгоритмів і засобів управління обчислювальним процесом; перехід від конкретизованого узгодженого потокового графу нейромережі до його апаратної реалізації. Розглянуто реалізацію кожного із етапів синтезу нейрокомп'ютерних систем реального часу. Розроблено дві структури нейроелементів паралельно-потокового типу: з обчисленням макрочасткового добутку для k розрядів і отриманням макрочасткового добутку шляхом зчитування з таблиці. Вибрано для обміну між шарами нейромережі багатоканальний пристрій обміну даними на базі багатопортової пом'яті. Запропоновано для узгодження тривалості введення даних з тривалістю конвеєрного такту використовувати послідовно-паралельні перетворювачі. Використано для переходу від конкретизованого потокового графу до апаратної реалізації метод адекватного апаратного його відображення. Показано, що узгодження інтенсивності надходження даних з інтенсивністю опрацювання та використання проблемно-орієнтованого підходу забезпечує реалізацію нейрокомп'ютерних систем реального часу з високою ефективністю використання обладнання та високими техніко-експлуатаційними характеристиками.

Завантаження

Дані завантаження ще не доступні.

Біографії авторів

І. Г. Цмоць, Національний університет "Львівська політехніка", м. Львів

д-р техн. наук, професор, кафедра автоматизованих систем управління

Б. В. Штогрінець, Національний університет "Львівська політехніка", м. Львів

аспірант, кафедра автоматизованих систем управління

М. В. Терлецький, Львівський національний університет ім. Івана Франка, м. Львів

аспірант, кафедра інформаційних систем

Посилання

Ajay, A., Critch, A., & Agrawal, P. (2023). Dexterous Manipulation from Images: Autonomous Real-World RL via Substep Guidance. Science Robotics, 4(32), article ID eaaw1960. https://doi.org/10.1109/ICRA48891.2023.10161493

Chen, M., et al. (2020). Adaptive platforms for automated synthesis of neural systems. IEEE Transactions on Computers, 69(11), 1623–1634. https://doi.org/10.1109/TC.2020.2996531

Chen, Y.-H., et al. (2019). Eyeriss v2: A flexible accelerator for emerging deep neural networks on mobile devices. IEEE Journal of Solid-State Circuits, 54(1), 294–305. https://doi.org/10.48550/arXiv.1807.07928

Chen, Y.-H., Krishna, T., Emer, J. S., & Sze, V. (2016). Eyeriss: An Energy-Efficient Reconfigurable Accelerator for Deep Convolutional Neural Networks. IEEE Journal of Solid-State Circuits, 70(5), 710–721. https://doi.org/10.1109/ISSCC.2016.7418007

Choi, J., et al. (2020). Edge AI: On-demand accelerated AI with adaptive private inference. In: Proceedings of the 25th International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS), 589–602. https://doi.org/10.1145/3373376.3378508

Deng, L., & Li, X. (2021). Harnessing the power of dynamic reconfiguration in hardware acceleration for deep learning. IEEE Transactions on Neural Networks and Learning Systems, 32(5), 2048–2059. https://doi.org/10.54254/2755-2721/47/20241256

Han, S., et al. (2018). ESE: Efficient speech recognition engine with sparse LSTM on FPGA. In: Proceedings of the 2018 ACM/SIGDA International Symposium on Field-Programmable Gate Arrays (FPGA), 75–84. https://doi.org/10.1145/3174243.3174252

Jouppi, N. P., et al. (2021). A domain-specific supercomputer for training deep neural networks. Communications of the ACM, 64(5), 67–78. https://doi.org/10.1145/3360307

Kim, D., et al. (2020). FPGA-accelerated synthesis of real-time neural networks. IEEE Transactions on Very Large Scale Integration (VLSI) Systems, 28(3), 746–759. https://doi.org/10.1109/TVLSI.2020.2965943

Kozhemiako, V. P., Martynyuk, T. B., Kozhemiako, A. V., Vasylykiva, O. S., & Kitaychyk, O. V. (2015). Hardware implementation of the perceptron as a basic neural network node. Optical-Electronic Information-Energy Technologies, 28(2), 48–55. URL: https://oeipt.vntu.edu.ua/index.php/oeipt/article/view/432

Lee, J., et al. (2022). Automated hardware design for neural networks: Efficiency and scalability. ACM Transactions on Design Automation of Electronic Systems, 27(4), 1–22. https://doi.org/10.1145/3503181

Li, H., et al. (2020). Understanding the synchronization performance of distributed deep learning frameworks on GPU clusters. In: Proceedings of the 2020 IEEE International Symposium on High Performance Computer Architecture (HPCA), 166–179. https://doi.org/10.1109/HPCA47549.2020.00024

Li, Y., et al. (2018). Efficient and scalable graph neural networks via historical embedding. In: Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 705–713. https://doi.org/10.1145/3219819.3219953

Lin, S., Cheng, H.-T., Lu, L., Yang, M.-H., & Wu, B. (2020). Real-Time High-Resolution Background Matting. ACM Transactions on Graphics (TOG), 37(4), 1–10. https://doi.org/10.48550/arXiv.2012.07810

Liu, Z., et al. (2021). Enabling efficient processing of graph neural networks with reconfigurable hardware. In: Proceedings of the 2021 ACM/SIGDA International Symposium on Field-Programmable Gate Arrays (FPGA), 23–33. https://doi.org/10.1145/3431920.3431950

Markevych, K. (2021). Smart infrastructure in sustainable urban development: world experience and prospects of Ukraine. Razumkova Center, Zapovit Publishing House, Kyiv, Ukraine, 400. URL: https://razumkov.org.ua/uploads/other/2021-SMART-%D0%A1YTI-SITE.pdf

Markidis, S., et al. (2018). NVIDIA Tensor Core programmability, performance & precision. In: Proceedings of the 2018 IEEE/ACM Performance Modeling, Benchmarking and Simulation of High Performance Computer Systems (PMBS), 1–9. https://doi.org/10.1109/PMBS.2018.8658703

Meitus, V. Yu., Morozova, H. I., Taran, L. Yu., Kozlova, V. P., & Maidanyuk, N. V. (2019). Cyber-physical systems as a basis for the intellectualization of "Smart" enterprises. Control Systems and Machines, 4, 14–26. https://doi.org/10.15407/csc.2019.04.014

Nurvitadhi, E., Venkatesh, G., Sim, J., Marr, D., Huang, R., Ong Gee Hock, J., Liew, Y. T., Srivatsan, K., Moss, D., & Subhaschandra, S. (2017). Can FPGAs beat GPUs in accelerating next-generation deep neural networks? In: Proceedings of the 2017 ACM/SIGDA International Symposium on Field-Programmable Gate Arrays, 5–14. Monterey, CA, USA: ACM. https://doi.org/10.1145/3020078.3021740

Rabyk, V., Kryvinska, N., Yatsymirskyy, M., & Teslyuk, V. (2022). Design of the processors for fast cosine and sine Fourier transforms. Circuits, Systems, and Signal Processing, 41(9), 4928–4951. https://doi.org/10.1007/s00034-022-02012-8

Shi, L., et al. (2019). Fast sparse ConvNets. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 39(10), 2128–2139. https://doi.org/10.48550/arXiv.1911.09723

Subbotin, S. O. (2020). Neural networks: Theory and practice: Textbook. Zhytomyr: O. O. Yevenok Publishing House, 184. URL: https://eir.zp.edu.ua/server/api/core/bitstreams/2abb401b-9ee6-4afc-a92a-2de5c332d12f/content

Sun, X., et al. (2023). Cloud-based automation of neural network synthesis: Methods and applications. IEEE Transactions on Cloud Computing, 11(2), 341–353. https://doi.org/10.1109/TCC.2022.3148675

Sze, V., Chen, Y.-H., Yang, T.-J., & Emer, J. (2017). Efficient processing of deep neural networks: A tutorial and survey. Proceedings of the IEEE, 106(11), 1990–2023. https://doi.org/10.48550/arXiv.1703.09039

Tsmots, I. G., Tkachenko, R. O., Tesliuk, V. M., Riznyk, O. Y., & Kazymyra, I. Y. (2023). Smart systems: Technologies, architectures, processing, data protection, and encoding. Lviv: SPOLUM Publishing, 220 p. URL: https://www.irbis-nbuv.gov.ua/publ/REF-0000817068

Tsmots, I. H., Opotyak, Y. V., Shtohrinets, B. V., Mamchur, T. B., & Holubets, V. M. (2024). Model, structure, and synthesis method of a matrix-type neural element. Scientific Bulletin of UNFU, 34(4), 68–77. https://doi.org/10.36930/40340409

Tsmots, I., Teslyuk, V., Kryvinska, N., Skorokhoda, O., & Kazymyra, I. (2023). Development of a generalized model for parallel-streaming neural element and structures for scalar product calculation devices. Journal of Supercomputing, 79(5), 4820–4846. https://doi.org/10.1007/s11227-022-04838-0

Опубліковано
2024-09-05
Як цитувати
Цмоць, І. Г., Штогрінець, Б. В., & Терлецький, М. В. (2024). Синтез нейрокомп’ютерних систем з узгоджено-паралельним обробленням інтенсивних потоків даних у реальному часі. Scientific Bulletin of UNFU, 34(6), 76-86. https://doi.org/10.36930/40340611
Розділ
Інформаційні технології

Статті цього автора (авторів), які найбільше читають

1 2 > >>