Система ідентифікації оригіналу відео за його фрагментом з використанням згорткових нейронних мереж

Ключові слова: глибинне навчання, згорткова нейронна мережа, ключові кадри, вектор ознак, дескриптор зображення, коефіцієнт подібності

Анотація

Розглянуто основні сучасні та популярні підходи до вирішення задач розпізнавання ознак зображень і відео. Встановлено переваги та недоліки актуальних методів оброблення візуальної інформації, а також сучасні невирішені проблеми, пов'язані із цим сегментом робіт. Спираючись на сучасний стан досліджень з цієї предметної області, запропоновано нову систему, призначення якої "навчитись" ідентифікувати відео за його фрагментом, враховуючи характеристики зображеного у відеоряді. Першим етапом аналізу відео є його розбиття на окремі кадри, враховуючи зміну ентропії, колірної схеми та структурні відмінності сцени. Спираючись на сучасні методи, реалізовано алгоритм перетворення відео в набір кадрів. Виявлено, що компактне представлення відео у вигляді набору ключових кадрів дає змогу виділити основні контекстні характеристики. Враховуючи сучасні методи визначення характеристик зображень та ефективність машинного навчання, вирішено застосувати згорткові нейронні мережі для визначення векторних представлень. Під час вибору коректної архітектури та моделі нейронної мережі здійснено порівняльний аналіз ефективності їх роботи з використанням бази ImageNet. В наступних етапах, роботу із відео буде представлено у вигляді маніпуляції із векторами характеристик кожного кадру. Запропоновано спосіб пошуку збігу фрагментів, враховуючи оцінку кута між векторами представлень кадрів. Для покращення оптимізації пошуку розглянуто способи застосування методів індексації векторного простору кадрів. Варто застосувати цей підхід оптимізації, щоб уникнути різкої деградації ефективності пошуку із збільшенням бази. Унаслідок виконаної роботи реалізовано програмну систему у вигляді вебаплікації, яка демонструє пошук відео за його фрагментом. Проте це тільки прототип для візуалізації процесу. Під час проведення експериментів оцінено вплив та залежність довжини відео, його роздільної здатності та обсягу тестової бази від ефективності процесу пошуку. Передусім ця робота є актуальною через цінність досліджень в напрямку розвитку методів оброблення та аналізу відеоконтенту. Виявлено, що ця система має подальший розвиток та право на існування, якщо врахувати майбутні оптимізації пошуку та покращення вилучення дескрипторів.

Біографії авторів

О. С. Мельник, Національний університет "Львівська політехніка", м. Львів

магістрант, кафедра програмного забезпечення

Р. П. Базилевич, Національний університет "Львівська політехніка", м. Львів

д-р техн. наук, професор, кафедра програмного забезпечення

Посилання

Cai, Y., Yang, L., Ping, W., Wang, F., Mei, T., Hua, X. S., & Li, S. (2011). Million-scale near-duplicate video retrieval system. In Proceedings of the 19th ACM international conference on Multimedia, 837–838. https://doi.org/10.1145/2072298.2072484

Gharbi, H., Bahroun, S., & Zagrouba, E. (2019). Key frame extraction for video summarization using local description and repeatability graph clustering. Signal, Image and Video Processing, 13(3), 507–515. https://doi.org/10.1007/s11760-018-1376-8

Gitte, M., Bawaskar, H., Sethi, S., & Shinde, A. (2014). Content based video retrieval system. International Journal of Research in Engineering and Technology, 3(06), 123–129.

Hanjalic, A., & Zhang, H. (1999). An integrated scheme for automated video abstraction based on unsupervised cluster-validity analysis. IEEE Transactions on circuits and systems for video technology, 9(8), 1280–1289. https://doi.org/10.1109/76.809162

Hanjalic, A., Lagendijk, R. L., & Biemond, J. (2001). Recent advances in video content analysis: from visual features to semantic video segments. International Journal of Image and Graphics, 1(01), 63–81. https://doi.org/10.1142/S0219467801000062

He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, 770–778. https://doi.org/10.1109/CVPR.2016.90

Kavitha, K., & Rao, B. T. (2019). Evaluation of distance measures for feature based image registration using alexnet. arXiv preprint arXiv:1907.12921.

Kushilevitz, E., Ostrovsky, R., & Rabani, Y. (2000). Efficient search for approximate nearest neighbor in high dimensional spaces. SIAM Journal on Computing, 30(2), 457–474.

Liu, R., Wei, S., Zhao, Y., & Yang, Y. (2018). Indexing of the CNN features for the large scale image search. Multimedia Tools and Applications, 77(24), 32107–32131. https://doi.org/10.1007/s11042-018-6210-3

Rasheed, Z., & Shah, M. (2005). Detection and representation of scenes in videos. IEEE transactions on Multimedia, 7(6), 1097–1105. https://doi.org/10.1109/TMM.2005.858392

Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., & Fei-Fei, L. (2015). Imagenet large scale visual recognition challenge. International journal of computer vision, 115(3), 211–252.

Shanmugamani, R. (2018). Deep Learning for Computer Vision: Expert techniques to train advanced neural networks using TensorFlow and Keras. Packt Publishing Ltd.

Shechtman, E., & Irani, M. (2007). Matching local self-similarities across images and videos. In 2007 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 1–8.

Shi, Y., Yang, H., Gong, M., Liu, X., & Xia, Y. (2017). A fast and robust key frame extraction method for video copyright protection. Journal of Electrical and Computer Engineering, 20. https://doi.org/10.1155/2017/1231794

Tran, D., Bourdev, L., Fergus, R., Torresani, L., & Paluri, M. (2015). Learning spatiotemporal features with 3 d convolutional networks. In Proceedings of the IEEE international conference on computer vision, 4489–4497.

Tymchyshyn, R. M., Volkov, O. Ye., Hospodarchuk, O. Yu., & Bohachuk, Yu. P. (2018). Suchasni pidkhody do rozviazannia zadach kompiuternoho zoru. Upravliaiuchi systemy ta mashyny. [In Ukrainian].

Tzelepi, M., & Tefas, A. (2018). Deep convolutional learning for content based image retrieval. Neurocomputing, 275, 2467–2478. https://doi.org/10.1016/j.neucom.2017.11.022

Zhou, Z., Wu, Q. J., Wan, S., Sun, W., & Sun, X. (2020). Integrating SIFT and CNN feature matching for partial-duplicate image detection. IEEE Transactions on Emerging Topics in Computational Intelligence, 4(5), 593–604.

Опубліковано
2021-04-29
Як цитувати
Мельник, О. С., & Базилевич, Р. П. (2021). Система ідентифікації оригіналу відео за його фрагментом з використанням згорткових нейронних мереж. Науковий вісник НЛТУ України, 31(3), 94-100. https://doi.org/10.36930/40310315
Розділ
Інформаційні технології