Автоматизація процесу класифікації текстових новин з інтернет-сайтів методами нейронної мережі

  • Н. С. Феній Національний університет "Львівська політехніка", м. Львів
  • Ю. І. Грицюк Національний університет "Львівська політехніка", м. Львів https://orcid.org/0000-0001-8183-3466
Ключові слова: text-minig; класифікація текстової інформації; нейронна мережа; навчання

Анотація

Спроектовано веб-додаток, який дасть змогу здійснювати класифікацію політематичних текстових новин з інтернет-сайтів у режимі онлайн, їх зберігати і редагувати, а отримані результати ставити в чергу для подальшого оброблення та використання. Проаналізовано наявні методи класифікації політематичної текстової інформації з можливістю вибору потрібного з них чи їх комбінації, які найбільш ефективно можуть задовольняти встановлені вимоги замовників до неї за різними критеріями. Визначено метод для класифікації політематичних текстових новин, робота якого розрахована на онлайн режим їх надходження з послідовним аналізом на вході множини текстових даних. Спроектовано архітектуру веб-додатку для послідовної класифікації текстових даних у режимі онлайн та обґрунтовано його перелік необхідних функцій, які забезпечуватимуть зберігання, оброблення та перегляд текстової інформації, отриманої внаслідок аналізу інтернет-сайтів, або даних, необхідних для його роботи. Розроблено структуру організації баз даних для реалізації веб-додатку, які забезпечать надійне зберігання класифікованої інформації за різними критеріями, а також даних для авторизації та автоматизації дій користувача. Реалізовано веб-додаток з використанням середовища розробника, обраної мови програмування, засобів реалізації та спроектованої клієнт-серверної його архітектури, функціонал якого обробляє відповідну інформацію, використовує базу даних для її зберігання та виконання подальших дій. Для ефективної роботи веб-додатку під час класифікації текстових новин передбачено різних користувачів, потреби яких доступні за оплату, яку можна здійснити відразу на ресурсі. Користувачам доступний такий функціонал веб-додатку: оброблення, зберігання, редагування текстових новин та результатів їх класифікації, авторизації та оплати додаткових функцій.

Біографії авторів

Н. С. Феній, Національний університет "Львівська політехніка", м. Львів

студент, кафедра програмного забезпечення

Ю. І. Грицюк, Національний університет "Львівська політехніка", м. Львів

д-р техн. наук, професор, кафедра програмного забезпечення

Посилання

Abdessalem, W. K. B., & Amdouni, S. (2011). E-recruiting support system based on Text Mining methods. International Journal of Knowledge and Learning, 7(3), 220–232. https://doi.org/10.1504/IJKL.2011.044542

Aggarwal, C. C., & Zhai, C. (2012). A survey of text classification algorithms. In Aggarwal, C. C., Zhai, C. (Eds.). Mining text data, (pp. 163–222). New York, NY: Springer. https://doi.org/10.1007/978-1-4614-3223-4_6

Ananiadou, S., Rea, B., Okazaki, N., Procter, R., & Thomas, J. (2009). Supporting systematic reviews using Text Mining. Social Science Computer Review, 27(4), 509–523. https://doi.org/10.1177/0894439309332293

Biehl, M., Ghosh, A., & Hammer, B. (2006). Learning vector quantization: The dynamics of winner-takes-all algorithm. Neurocomputing, 69, 660–670.

Brooks, C. (2014). Enterprise NoSQL For Dummies. Hoboken: John Wiley & Sons, Inc., 75 p. (John Wiley & Sons, Inc.).

Bsoul, Q., Salim, J., & Zakaria, L. Q. (2013). An intelligent document clustering approach to detect crime patterns. Procedia Technology, 11, 1181–1187. https://doi.org/10.1016/j.protcy.2013.12.311

Buyukkokten, O., Garcia-Molina, H., & Paepcke, A. (2001). Seeing the whole in parts: Text summarization for web browsing on handheld devices. In Proceedings of the 10th International Conference on World Wide Web, (pp. 652–662). New York, NY: ACM. https://doi.org/10.1145/371920.372178

Cao, J., Xia, T., Li, J., Zhang, Y., & Tang, S. (2009). A density-based method for adaptive LDA model selection. Journal of Neurocomputing, 72(7-9), 1775–1781. https://doi.org/10.1016/j.neucom.2008.06.011

Chen, J., Huang, H., Tian, S., & Qu, Y. (2009). Feature selection for text classification with naïve Bayes. Expert Systems with Applications, 36(3, pt. 1), 5432–5435. https://doi.org/10.1016/j.eswa.2008.06.054

Ciarelli, P. M., & Oliveira, E. (2009). An enhanced probobalistic neural network approach applied to text classification. Lecture Notes on Computer Science, 5856, 661–668. Berlin-Heidelberg: Springer-Verlag.

Cohen Priva, U., & Austerweil, J. L. (2015). Analyzing the history of cognition using topic models. Cognition, 135, 4–9. https://doi.org/10.1016/j.cognition.2014.11.006

Conrad, J. G., Al-Kofahi, K., Zhao, Y., & Karypis, G. (2005). Effective document clustering for large heterogeneous law firm collections. In Proceedings of the 10th International Conference on Artificial Intelligence and Law, (pp. 177–187). New York, NY: ACM. https://doi.org/10.1145/1165485.1165513

Dave, K., Lawrence, S., & Pennock, D. M. (2003). Mining the peanut gallery: Opinion extraction and semantic classification of product reviews. In Proceedings of the 12th International Conference on World Wide Web, (pp. 519–528). New York, NY: ACM. https://doi.org/10.1145/775152.775226

Derpanis, K. G. (2006). K-means clustering. Retrieved from: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.217.5155

Dias, G., Guillore, S., Bassano, J.-C., & Pereira, J. G. (2000). Lopes Combining linguistics with statistics for multiword term extraction: A fruitful association? Proc. of Recherche dInformations Assistee par Ordinateur 2000 (RIAO2000). Retrieved from: www.di.ubi.pt/~ddg/publications/riao2000.pdf (Valid state of: 10.12.2014).

Dierdorff, E. C., & Morgeson, F. P. (2009). Effects of descriptor specificity and observability on incumbent work analysis ratings. Personnel Psychology, 62(3), 601–628. https://doi.org/10.1111/j.1744-6570.2009.01151.x

Dittenbach, M., Rauber, A., & Merkl, D. (2002). Uncovering hierarchical structure in data using the growing hierarchical self-organizing map. Neurocomputing, 48, 199–216.

El-Hamdouchi, A., & Willett, P. (1989). Comparison of hierarchic agglomerative clustering methods for document retrieval. Computer Journal, 32(3), 220–227. https://doi.org/10.1093/comjnl/32.3.220

Faguo, Z., Fan, Z., Bingru, Y., & Xingang, Y. (2010). Research on short text classification algorithm based on statistics and rules. In 2010 Third International Symposium on Electronic Commerce and Security (ISECS), (pp. 3–7). New York, NY: IEEE. https://doi.org/10.1109/ISECS.2010.9

Gavrilova, T. A., & Khoroshevsky, V. F. (2001). Knowledge bases of an intelligent system. St. Petersburg: Piter, 384 p. [In Russian].

Ghani, R., Probst, K., Liu, Y., Krema, M., & Fano, A. (2006). Text Mining for product attribute extraction. SIGKDD Explorations Newsletter, 8(1), 41–48. https://doi.org/10.1145/1147234.1147241

Guo, Y., Li, Y., & Shao, Z. (2015). An ant colony-based text clustering system with cognitive situation dimensions. International Journal of Computational Intelligence Systems, 8(1), 138–157. https://doi.org/10.1080/18756891.2014.963986

Hammer, B., & Villmann, T. (2002). Generalized relevance learning vector quantization. Neural Networks, 15, 1059– 1068.

Holton, C. (2009). Identifying disgruntled employee systems fraud risk through Text Mining: A simple solution for a multi-billion dollar problem. Decision Support Systems, 46(4), 853–864. https://doi.org/10.1016/j.dss.2008.11.013

Hu, J., Sun, X., Lo, D., & Li, B. (2015). Modeling the evolution of development topics using dynamic topic models. In 2015 IEEE 22nd International Conference on Software Analysis, Evolution and Reengineering (SANER), (pp. 3–12). New York, NY: IEEE. https://doi.org/10.1109/SANER.2015.7081810

Jang, H., Song, S. K., & Myaeng, S. H. (2006). Text Mining for medical documents using a hidden Markov model. In Proceedings of the Third Asia Conference on Information Retrieval Technology, (pp. 553–559). Berlin, Germany: Springer-Verlag. https://doi.org/10.1007/11880592_45

Jolliffe, I. (2005). Principal component analysis. New York, NY: Wiley. Retrieved from: https://doi.org/10.1002/0470013192.bsa501

Jonsson, H., Nugues, P., Bach, C., & Gunnarsson, J. (2010). Text Mining of personal communication. In 2010 14th International Conference on Intelligence in Next Generation Networks (ICIN), (pp. 1–5). New York, NY: IEEE. https://doi.org/10.1109/ICIN.2010.5640938

Kirkpatrick, S. A., Wofford, J. C., & Baum, J. R. (2002). Measuring motive imagery contained in the vision statement. Leadership Quarterly, 13(2), 139–150. https://doi.org/10.1016/S1048-9843(02)00096-6

Kohonen, T. (1990). Improved version of learning vector quantization. Proceedings of the 4th Int. Joint Conf. on Neural Networks. San Diego: CA, 545–550.

Kohonen, T. (1995). Self-Organizing Maps. Berlin: Springer-Verlag, 362 p.

Korkontzelos, I., Mu, T., Restificar, A., & Ananiadou, S. (2011). Text Mining for efficient search and assisted creation of clinical trials. In Proceedings of the ACM Fifth International Workshop on Data and Text Mining in Biomedical Informatics, (pp. 43–50). New York, NY: ACM. https://doi.org/10.1145/2064696.2064706

Lan, M., Tan, C. L., Su, J., & Lu, Y. (2009). Supervised and traditional term weighting methods for automatic text categorization. IEEE Transactions on Pattern Analysis and Machine Intelligence, 31(4), 721–735. https://doi.org/10.1109/TPAMI.2008.110

Landauer, T. K., Foltz, P. W., & Laham, D. (1998). An introduction to latent semantic analysis. Discourse Processes, 25(2-3), 259–284. https://doi.org/10.1080/01638539809545028

Lee, S., Baker, J., Song, J., Wetherbe, J. C. (2010). An empirical comparison of four Text Mining methods. In 43rd Hawaii International Conference on System Sciences (HICSS), (pp. 1–10). https://doi.org/10.1109/HICSS.2010.48

Lewis, D. D. (1992). Feature selection and feature extraction for text categorization. In Proceedings of the Workshop on Speech and Natural Language, (pp. 212–217). Stroudsburg, PA: Association for Computational Linguistics. https://doi.org/10.3115/1075527.1075574

Loughran, Tim, & Bill McDonald. (2011). When Is a Liability Not a Liability? Textual Analysis, Dictionaries, and 10-Ks. The Journal of Finance 66(1). Blackwell Publishing Inc: 35–65. https://doi.org/10.1111/j.1540-6261.2010.01625.x

Lughofer, E. (2011). Evolving Fuzzy Systems – Methodologies and Applications. Studies in Fuzziness and Soft Computing. Springer-Berlin, 456 p.

McKenny, A. F., Short, J. C., & Payne, G. T. (2013). Using computer-aided text analysis to elevate constructs: An illustration using psychological capital. Organizational Research Methods, 16(1), 152–184. https://doi.org/10.1177/1094428112459910

Moyotl-Hernandez, E., & Jimenez-Salazar, H. (2004). Some Tests in Text Categorization using Term Selection by DTP. Proceedings of the Fifth Mexican International Conference on Computer Science ENC04. Colima, 161–167.

Moyotl-Hernandez, E., Jimenez-Salazar, H. (2004). An Analysis on Frequency of Terms for Text Categorization. Procesamiento del lenguaje natural, 33, 141–146.

Osinski, S., & Weiss, D. (2005). A concept-driven algorithm for clustering search results. IEEE Intelligent Systems, 20(3), 48–54. https://doi.org/10.1109/MIS.2005.38

Pang, B., & Lee, L. (2008). Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval, 2(1-2), 1–135. https://doi.org/10.1561/1500000011

Phan, X.-H., Nguyen, L.-M., & Horiguchi, S. (2008). Learning to classify short and sparse text & web with hidden topics from large-scale data collections. In Proceedings of the 17th International Conference on World Wide Web, (pp. 91–100). New York, NY: ACM. https://doi.org/10.1145/1367497.1367510

Popescu, A.-M., & Etzioni, O. (2007). Extracting product features and opinions from reviews. In Kao, A., Poteet, S. R. (Eds.). Natural language processing and text mining, (pp. 9–28). London, UK: Springer. https://doi.org/10.1007/978-1-84628-754-1_2

Rosenblatt, F. (1962). Principles of Neurodynamics. New York: Spartan Books, 237 p.

Sanches, J. S., & Marques, A. I. (2006). An LVQ-based adaptive algorithm for learning from very small codebooks. Neurocomputing, 69, 922–927.

Short, J. C., Broberg, J. C., Cogliser, C. C., & Brigham, K. H. (2010). Construct validation using computer-aided text analysis (CATA): An illustration using entrepreneurial orientation. Organizational Research Methods, 13(2), 320–347. https://doi.org/10.1177/1094428109335949

Silge, Julia, & David Robinson. (2016). tidytext: Text Mining and Analysis Using Tidy Data Principles in R. JOSS 1(3). The Open Journal. https://doi.org/10.21105/joss.00037

Singh, N., Hu, C., & Roehl, W. S. (2007). Text Mining a decade of progress in hospitality human resource management research: Identifying emerging thematic development. International Journal of Hospitality Management, 26(1), 131–147. https://doi.org/10.1016/j.ijhm.2005.10.002

Sodhi, M. S., & Son, B.-G. (2010). Content analysis of OR job advertisements to infer required skills. Journal of the Operational Research Society, 61(9), 1315–1327. https://doi.org/10.1057/jors.2009.80

Solka, J. L. (2008). Text data mining: Theory and methods. Statistics Surveys, 2, 94–112. https://doi.org/10.1214/07-SS016

Song, F., Liu, S., & Yang, J. (2005). A comparative study on text representation schemes in text categorization. Pattern Analysis and Applications, 8(1-2), 199–209. https://doi.org/10.1007/s10044-005-0256-3

Subhash, C. Ya. (2009). An Introduction to Client Server Computing. New Delhi: New Age International (P) Ltd., Publishers, 213 p. (New Age International (P) Ltd., Publishers).

Vladimer B. Kobayashi, Stefan T. Mol, Hannah A. Berkers, Gábor Kismihók, Deanne N. Den Hartog. (2017). Text Mining in Organizational Research. Organizational Research Methods, 21(3), 733–765. https://doi.org/10.1177/1094428117722619

Vo, D.-T., & Ock, C.-Y. (2015). Learning to classify short text from scientific documents using topic models with various types of knowledge. Expert Systems with Applications, 42(3), 1684–1698. https://doi.org/10.1016/j.eswa.2014.09.031

Wickham, Hadley. (2014). Tidy Data. Journal of Statistical Software, 59(1), 1–23. https://doi.org/10.18637/jss.v059.i10

Yang, Y., & Pedersen, J. O. (1997). A Comparative Study on Feature Selection in Text Categorization. The Fourteenth International Conference on Machine Learning: Proceedings of ICML97. San Francisco, 412–420.

Yarkoni, T. (2010). Personality in 100,000 words: A large-scale analysis of personality and word use among bloggers. Journal of Research in Personality, 44(3), 363–373. https://doi.org/10.1016/j.jrp.2010.04.001

Zhang, W., Yoshida, T., & Tang, X. (2008). Text classification based on multi-word with support vector machine. Knowledge-Based Systems, 21(8), 879–886. https://doi.org/10.1016/j.knosys.2008.03.044

Zhang, Y., Chen, M., & Liu, L. (2015). A review on Text Mining. In 2015 6th IEEE International Conference on Software Engineering and Service Science (ICSESS), (pp. 681–685). New York, NY: IEEE. https://doi.org/10.1109/ICSESS.2015.7339149

Опубліковано
2020-09-17
Як цитувати
Феній, Н. С., & Грицюк, Ю. І. (2020). Автоматизація процесу класифікації текстових новин з інтернет-сайтів методами нейронної мережі. Науковий вісник НЛТУ України, 30(4), 123-133. https://doi.org/10.36930/40300421
Розділ
Інформаційні технології