Синтез нейрокомп'ютерних систем з узгоджено-паралельним обробленням інтенсивних потоків даних у реальному часі
Анотація
Розглянуто особливості синтезу нейрокомп'ютерних систем з узгоджено-паралельним обробленням інтенсивних потоків даних у реальному часі, що дало змогу отримати модульну та регулярну структуру, орієнтовану на реалізацію на сучасній елементній базі з високою ефективністю використання обладнання. Визначено, що початковою інформацією для синтезу нейрокомп'ютерних систем з узгоджено-паралельним обробленням даних у реальному часі є: структура нейромережі; графове відображення нейромережі; алгоритми навчання та функціонування нейромережі; кількість вхідних даних; інтенсивність надходження вхідних даних і вагових коефіцієнтів; вимоги до інтерфейсу; розрядність вхідних даних, вагових коефіцієнтів і точність обчислень; техніко-експлуатаційні вимоги та обмеження. Розроблено метод синтезу нейрокомп'ютерних систем реального часу з узгоджено-паралельним обробленням даних, визначено, що основними етапами такого методу є: оцінювання обчислювальних і структурних характеристик нейромережі та вибір складності функціональних операторів для відображення її структури; просторово-часове відображення структури нейромережі у вигляді конкретизованого узгодженого потокового графу; визначення базових компонент для синтезу нейрокомп'ютерних систем реального часу з узгоджено-паралельним обробленням даних; визначення основних характеристик базових компонент; розроблення базових компонент; розроблення зовнішнього інтерфейсу та інтерфейсу систем обміну між шарами нейромережі; розроблення алгоритмів і засобів управління обчислювальним процесом; перехід від конкретизованого узгодженого потокового графу нейромережі до його апаратної реалізації. Розглянуто реалізацію кожного із етапів синтезу нейрокомп'ютерних систем реального часу. Розроблено дві структури нейроелементів паралельно-потокового типу: з обчисленням макрочасткового добутку для k розрядів і отриманням макрочасткового добутку шляхом зчитування з таблиці. Вибрано для обміну між шарами нейромережі багатоканальний пристрій обміну даними на базі багатопортової пом'яті. Запропоновано для узгодження тривалості введення даних з тривалістю конвеєрного такту використовувати послідовно-паралельні перетворювачі. Використано для переходу від конкретизованого потокового графу до апаратної реалізації метод адекватного апаратного його відображення. Показано, що узгодження інтенсивності надходження даних з інтенсивністю опрацювання та використання проблемно-орієнтованого підходу забезпечує реалізацію нейрокомп'ютерних систем реального часу з високою ефективністю використання обладнання та високими техніко-експлуатаційними характеристиками.
Завантаження
Посилання
Ajay, A., Critch, A., & Agrawal, P. (2023). Dexterous Manipulation from Images: Autonomous Real-World RL via Substep Guidance. Science Robotics, 4(32), article ID eaaw1960. https://doi.org/10.1109/ICRA48891.2023.10161493
Chen, M., et al. (2020). Adaptive platforms for automated synthesis of neural systems. IEEE Transactions on Computers, 69(11), 1623–1634. https://doi.org/10.1109/TC.2020.2996531
Chen, Y.-H., et al. (2019). Eyeriss v2: A flexible accelerator for emerging deep neural networks on mobile devices. IEEE Journal of Solid-State Circuits, 54(1), 294–305. https://doi.org/10.48550/arXiv.1807.07928
Chen, Y.-H., Krishna, T., Emer, J. S., & Sze, V. (2016). Eyeriss: An Energy-Efficient Reconfigurable Accelerator for Deep Convolutional Neural Networks. IEEE Journal of Solid-State Circuits, 70(5), 710–721. https://doi.org/10.1109/ISSCC.2016.7418007
Choi, J., et al. (2020). Edge AI: On-demand accelerated AI with adaptive private inference. In: Proceedings of the 25th International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS), 589–602. https://doi.org/10.1145/3373376.3378508
Deng, L., & Li, X. (2021). Harnessing the power of dynamic reconfiguration in hardware acceleration for deep learning. IEEE Transactions on Neural Networks and Learning Systems, 32(5), 2048–2059. https://doi.org/10.54254/2755-2721/47/20241256
Han, S., et al. (2018). ESE: Efficient speech recognition engine with sparse LSTM on FPGA. In: Proceedings of the 2018 ACM/SIGDA International Symposium on Field-Programmable Gate Arrays (FPGA), 75–84. https://doi.org/10.1145/3174243.3174252
Jouppi, N. P., et al. (2021). A domain-specific supercomputer for training deep neural networks. Communications of the ACM, 64(5), 67–78. https://doi.org/10.1145/3360307
Kim, D., et al. (2020). FPGA-accelerated synthesis of real-time neural networks. IEEE Transactions on Very Large Scale Integration (VLSI) Systems, 28(3), 746–759. https://doi.org/10.1109/TVLSI.2020.2965943
Kozhemiako, V. P., Martynyuk, T. B., Kozhemiako, A. V., Vasylykiva, O. S., & Kitaychyk, O. V. (2015). Hardware implementation of the perceptron as a basic neural network node. Optical-Electronic Information-Energy Technologies, 28(2), 48–55. URL: https://oeipt.vntu.edu.ua/index.php/oeipt/article/view/432
Lee, J., et al. (2022). Automated hardware design for neural networks: Efficiency and scalability. ACM Transactions on Design Automation of Electronic Systems, 27(4), 1–22. https://doi.org/10.1145/3503181
Li, H., et al. (2020). Understanding the synchronization performance of distributed deep learning frameworks on GPU clusters. In: Proceedings of the 2020 IEEE International Symposium on High Performance Computer Architecture (HPCA), 166–179. https://doi.org/10.1109/HPCA47549.2020.00024
Li, Y., et al. (2018). Efficient and scalable graph neural networks via historical embedding. In: Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 705–713. https://doi.org/10.1145/3219819.3219953
Lin, S., Cheng, H.-T., Lu, L., Yang, M.-H., & Wu, B. (2020). Real-Time High-Resolution Background Matting. ACM Transactions on Graphics (TOG), 37(4), 1–10. https://doi.org/10.48550/arXiv.2012.07810
Liu, Z., et al. (2021). Enabling efficient processing of graph neural networks with reconfigurable hardware. In: Proceedings of the 2021 ACM/SIGDA International Symposium on Field-Programmable Gate Arrays (FPGA), 23–33. https://doi.org/10.1145/3431920.3431950
Markevych, K. (2021). Smart infrastructure in sustainable urban development: world experience and prospects of Ukraine. Razumkova Center, Zapovit Publishing House, Kyiv, Ukraine, 400. URL: https://razumkov.org.ua/uploads/other/2021-SMART-%D0%A1YTI-SITE.pdf
Markidis, S., et al. (2018). NVIDIA Tensor Core programmability, performance & precision. In: Proceedings of the 2018 IEEE/ACM Performance Modeling, Benchmarking and Simulation of High Performance Computer Systems (PMBS), 1–9. https://doi.org/10.1109/PMBS.2018.8658703
Meitus, V. Yu., Morozova, H. I., Taran, L. Yu., Kozlova, V. P., & Maidanyuk, N. V. (2019). Cyber-physical systems as a basis for the intellectualization of "Smart" enterprises. Control Systems and Machines, 4, 14–26. https://doi.org/10.15407/csc.2019.04.014
Nurvitadhi, E., Venkatesh, G., Sim, J., Marr, D., Huang, R., Ong Gee Hock, J., Liew, Y. T., Srivatsan, K., Moss, D., & Subhaschandra, S. (2017). Can FPGAs beat GPUs in accelerating next-generation deep neural networks? In: Proceedings of the 2017 ACM/SIGDA International Symposium on Field-Programmable Gate Arrays, 5–14. Monterey, CA, USA: ACM. https://doi.org/10.1145/3020078.3021740
Rabyk, V., Kryvinska, N., Yatsymirskyy, M., & Teslyuk, V. (2022). Design of the processors for fast cosine and sine Fourier transforms. Circuits, Systems, and Signal Processing, 41(9), 4928–4951. https://doi.org/10.1007/s00034-022-02012-8
Shi, L., et al. (2019). Fast sparse ConvNets. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 39(10), 2128–2139. https://doi.org/10.48550/arXiv.1911.09723
Subbotin, S. O. (2020). Neural networks: Theory and practice: Textbook. Zhytomyr: O. O. Yevenok Publishing House, 184. URL: https://eir.zp.edu.ua/server/api/core/bitstreams/2abb401b-9ee6-4afc-a92a-2de5c332d12f/content
Sun, X., et al. (2023). Cloud-based automation of neural network synthesis: Methods and applications. IEEE Transactions on Cloud Computing, 11(2), 341–353. https://doi.org/10.1109/TCC.2022.3148675
Sze, V., Chen, Y.-H., Yang, T.-J., & Emer, J. (2017). Efficient processing of deep neural networks: A tutorial and survey. Proceedings of the IEEE, 106(11), 1990–2023. https://doi.org/10.48550/arXiv.1703.09039
Tsmots, I. G., Tkachenko, R. O., Tesliuk, V. M., Riznyk, O. Y., & Kazymyra, I. Y. (2023). Smart systems: Technologies, architectures, processing, data protection, and encoding. Lviv: SPOLUM Publishing, 220 p. URL: https://www.irbis-nbuv.gov.ua/publ/REF-0000817068
Tsmots, I. H., Opotyak, Y. V., Shtohrinets, B. V., Mamchur, T. B., & Holubets, V. M. (2024). Model, structure, and synthesis method of a matrix-type neural element. Scientific Bulletin of UNFU, 34(4), 68–77. https://doi.org/10.36930/40340409
Tsmots, I., Teslyuk, V., Kryvinska, N., Skorokhoda, O., & Kazymyra, I. (2023). Development of a generalized model for parallel-streaming neural element and structures for scalar product calculation devices. Journal of Supercomputing, 79(5), 4820–4846. https://doi.org/10.1007/s11227-022-04838-0



