Автоматизація процесу класифікації текстових новин з інтернет-сайтів методами нейронної мережі
Анотація
Спроектовано веб-додаток, який дасть змогу здійснювати класифікацію політематичних текстових новин з інтернет-сайтів у режимі онлайн, їх зберігати і редагувати, а отримані результати ставити в чергу для подальшого оброблення та використання. Проаналізовано наявні методи класифікації політематичної текстової інформації з можливістю вибору потрібного з них чи їх комбінації, які найбільш ефективно можуть задовольняти встановлені вимоги замовників до неї за різними критеріями. Визначено метод для класифікації політематичних текстових новин, робота якого розрахована на онлайн режим їх надходження з послідовним аналізом на вході множини текстових даних. Спроектовано архітектуру веб-додатку для послідовної класифікації текстових даних у режимі онлайн та обґрунтовано його перелік необхідних функцій, які забезпечуватимуть зберігання, оброблення та перегляд текстової інформації, отриманої внаслідок аналізу інтернет-сайтів, або даних, необхідних для його роботи. Розроблено структуру організації баз даних для реалізації веб-додатку, які забезпечать надійне зберігання класифікованої інформації за різними критеріями, а також даних для авторизації та автоматизації дій користувача. Реалізовано веб-додаток з використанням середовища розробника, обраної мови програмування, засобів реалізації та спроектованої клієнт-серверної його архітектури, функціонал якого обробляє відповідну інформацію, використовує базу даних для її зберігання та виконання подальших дій. Для ефективної роботи веб-додатку під час класифікації текстових новин передбачено різних користувачів, потреби яких доступні за оплату, яку можна здійснити відразу на ресурсі. Користувачам доступний такий функціонал веб-додатку: оброблення, зберігання, редагування текстових новин та результатів їх класифікації, авторизації та оплати додаткових функцій.
Посилання
Abdessalem, W. K. B., & Amdouni, S. (2011). E-recruiting support system based on Text Mining methods. International Journal of Knowledge and Learning, 7(3), 220–232. https://doi.org/10.1504/IJKL.2011.044542
Aggarwal, C. C., & Zhai, C. (2012). A survey of text classification algorithms. In Aggarwal, C. C., Zhai, C. (Eds.). Mining text data, (pp. 163–222). New York, NY: Springer. https://doi.org/10.1007/978-1-4614-3223-4_6
Ananiadou, S., Rea, B., Okazaki, N., Procter, R., & Thomas, J. (2009). Supporting systematic reviews using Text Mining. Social Science Computer Review, 27(4), 509–523. https://doi.org/10.1177/0894439309332293
Biehl, M., Ghosh, A., & Hammer, B. (2006). Learning vector quantization: The dynamics of winner-takes-all algorithm. Neurocomputing, 69, 660–670.
Brooks, C. (2014). Enterprise NoSQL For Dummies. Hoboken: John Wiley & Sons, Inc., 75 p. (John Wiley & Sons, Inc.).
Bsoul, Q., Salim, J., & Zakaria, L. Q. (2013). An intelligent document clustering approach to detect crime patterns. Procedia Technology, 11, 1181–1187. https://doi.org/10.1016/j.protcy.2013.12.311
Buyukkokten, O., Garcia-Molina, H., & Paepcke, A. (2001). Seeing the whole in parts: Text summarization for web browsing on handheld devices. In Proceedings of the 10th International Conference on World Wide Web, (pp. 652–662). New York, NY: ACM. https://doi.org/10.1145/371920.372178
Cao, J., Xia, T., Li, J., Zhang, Y., & Tang, S. (2009). A density-based method for adaptive LDA model selection. Journal of Neurocomputing, 72(7-9), 1775–1781. https://doi.org/10.1016/j.neucom.2008.06.011
Chen, J., Huang, H., Tian, S., & Qu, Y. (2009). Feature selection for text classification with naïve Bayes. Expert Systems with Applications, 36(3, pt. 1), 5432–5435. https://doi.org/10.1016/j.eswa.2008.06.054
Ciarelli, P. M., & Oliveira, E. (2009). An enhanced probobalistic neural network approach applied to text classification. Lecture Notes on Computer Science, 5856, 661–668. Berlin-Heidelberg: Springer-Verlag.
Cohen Priva, U., & Austerweil, J. L. (2015). Analyzing the history of cognition using topic models. Cognition, 135, 4–9. https://doi.org/10.1016/j.cognition.2014.11.006
Conrad, J. G., Al-Kofahi, K., Zhao, Y., & Karypis, G. (2005). Effective document clustering for large heterogeneous law firm collections. In Proceedings of the 10th International Conference on Artificial Intelligence and Law, (pp. 177–187). New York, NY: ACM. https://doi.org/10.1145/1165485.1165513
Dave, K., Lawrence, S., & Pennock, D. M. (2003). Mining the peanut gallery: Opinion extraction and semantic classification of product reviews. In Proceedings of the 12th International Conference on World Wide Web, (pp. 519–528). New York, NY: ACM. https://doi.org/10.1145/775152.775226
Derpanis, K. G. (2006). K-means clustering. Retrieved from: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.217.5155
Dias, G., Guillore, S., Bassano, J.-C., & Pereira, J. G. (2000). Lopes Combining linguistics with statistics for multiword term extraction: A fruitful association? Proc. of Recherche dInformations Assistee par Ordinateur 2000 (RIAO2000). Retrieved from: www.di.ubi.pt/~ddg/publications/riao2000.pdf (Valid state of: 10.12.2014).
Dierdorff, E. C., & Morgeson, F. P. (2009). Effects of descriptor specificity and observability on incumbent work analysis ratings. Personnel Psychology, 62(3), 601–628. https://doi.org/10.1111/j.1744-6570.2009.01151.x
Dittenbach, M., Rauber, A., & Merkl, D. (2002). Uncovering hierarchical structure in data using the growing hierarchical self-organizing map. Neurocomputing, 48, 199–216.
El-Hamdouchi, A., & Willett, P. (1989). Comparison of hierarchic agglomerative clustering methods for document retrieval. Computer Journal, 32(3), 220–227. https://doi.org/10.1093/comjnl/32.3.220
Faguo, Z., Fan, Z., Bingru, Y., & Xingang, Y. (2010). Research on short text classification algorithm based on statistics and rules. In 2010 Third International Symposium on Electronic Commerce and Security (ISECS), (pp. 3–7). New York, NY: IEEE. https://doi.org/10.1109/ISECS.2010.9
Gavrilova, T. A., & Khoroshevsky, V. F. (2001). Knowledge bases of an intelligent system. St. Petersburg: Piter, 384 p. [In Russian].
Ghani, R., Probst, K., Liu, Y., Krema, M., & Fano, A. (2006). Text Mining for product attribute extraction. SIGKDD Explorations Newsletter, 8(1), 41–48. https://doi.org/10.1145/1147234.1147241
Guo, Y., Li, Y., & Shao, Z. (2015). An ant colony-based text clustering system with cognitive situation dimensions. International Journal of Computational Intelligence Systems, 8(1), 138–157. https://doi.org/10.1080/18756891.2014.963986
Hammer, B., & Villmann, T. (2002). Generalized relevance learning vector quantization. Neural Networks, 15, 1059– 1068.
Holton, C. (2009). Identifying disgruntled employee systems fraud risk through Text Mining: A simple solution for a multi-billion dollar problem. Decision Support Systems, 46(4), 853–864. https://doi.org/10.1016/j.dss.2008.11.013
Hu, J., Sun, X., Lo, D., & Li, B. (2015). Modeling the evolution of development topics using dynamic topic models. In 2015 IEEE 22nd International Conference on Software Analysis, Evolution and Reengineering (SANER), (pp. 3–12). New York, NY: IEEE. https://doi.org/10.1109/SANER.2015.7081810
Jang, H., Song, S. K., & Myaeng, S. H. (2006). Text Mining for medical documents using a hidden Markov model. In Proceedings of the Third Asia Conference on Information Retrieval Technology, (pp. 553–559). Berlin, Germany: Springer-Verlag. https://doi.org/10.1007/11880592_45
Jolliffe, I. (2005). Principal component analysis. New York, NY: Wiley. Retrieved from: https://doi.org/10.1002/0470013192.bsa501
Jonsson, H., Nugues, P., Bach, C., & Gunnarsson, J. (2010). Text Mining of personal communication. In 2010 14th International Conference on Intelligence in Next Generation Networks (ICIN), (pp. 1–5). New York, NY: IEEE. https://doi.org/10.1109/ICIN.2010.5640938
Kirkpatrick, S. A., Wofford, J. C., & Baum, J. R. (2002). Measuring motive imagery contained in the vision statement. Leadership Quarterly, 13(2), 139–150. https://doi.org/10.1016/S1048-9843(02)00096-6
Kohonen, T. (1990). Improved version of learning vector quantization. Proceedings of the 4th Int. Joint Conf. on Neural Networks. San Diego: CA, 545–550.
Kohonen, T. (1995). Self-Organizing Maps. Berlin: Springer-Verlag, 362 p.
Korkontzelos, I., Mu, T., Restificar, A., & Ananiadou, S. (2011). Text Mining for efficient search and assisted creation of clinical trials. In Proceedings of the ACM Fifth International Workshop on Data and Text Mining in Biomedical Informatics, (pp. 43–50). New York, NY: ACM. https://doi.org/10.1145/2064696.2064706
Lan, M., Tan, C. L., Su, J., & Lu, Y. (2009). Supervised and traditional term weighting methods for automatic text categorization. IEEE Transactions on Pattern Analysis and Machine Intelligence, 31(4), 721–735. https://doi.org/10.1109/TPAMI.2008.110
Landauer, T. K., Foltz, P. W., & Laham, D. (1998). An introduction to latent semantic analysis. Discourse Processes, 25(2-3), 259–284. https://doi.org/10.1080/01638539809545028
Lee, S., Baker, J., Song, J., Wetherbe, J. C. (2010). An empirical comparison of four Text Mining methods. In 43rd Hawaii International Conference on System Sciences (HICSS), (pp. 1–10). https://doi.org/10.1109/HICSS.2010.48
Lewis, D. D. (1992). Feature selection and feature extraction for text categorization. In Proceedings of the Workshop on Speech and Natural Language, (pp. 212–217). Stroudsburg, PA: Association for Computational Linguistics. https://doi.org/10.3115/1075527.1075574
Loughran, Tim, & Bill McDonald. (2011). When Is a Liability Not a Liability? Textual Analysis, Dictionaries, and 10-Ks. The Journal of Finance 66(1). Blackwell Publishing Inc: 35–65. https://doi.org/10.1111/j.1540-6261.2010.01625.x
Lughofer, E. (2011). Evolving Fuzzy Systems – Methodologies and Applications. Studies in Fuzziness and Soft Computing. Springer-Berlin, 456 p.
McKenny, A. F., Short, J. C., & Payne, G. T. (2013). Using computer-aided text analysis to elevate constructs: An illustration using psychological capital. Organizational Research Methods, 16(1), 152–184. https://doi.org/10.1177/1094428112459910
Moyotl-Hernandez, E., & Jimenez-Salazar, H. (2004). Some Tests in Text Categorization using Term Selection by DTP. Proceedings of the Fifth Mexican International Conference on Computer Science ENC04. Colima, 161–167.
Moyotl-Hernandez, E., Jimenez-Salazar, H. (2004). An Analysis on Frequency of Terms for Text Categorization. Procesamiento del lenguaje natural, 33, 141–146.
Osinski, S., & Weiss, D. (2005). A concept-driven algorithm for clustering search results. IEEE Intelligent Systems, 20(3), 48–54. https://doi.org/10.1109/MIS.2005.38
Pang, B., & Lee, L. (2008). Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval, 2(1-2), 1–135. https://doi.org/10.1561/1500000011
Phan, X.-H., Nguyen, L.-M., & Horiguchi, S. (2008). Learning to classify short and sparse text & web with hidden topics from large-scale data collections. In Proceedings of the 17th International Conference on World Wide Web, (pp. 91–100). New York, NY: ACM. https://doi.org/10.1145/1367497.1367510
Popescu, A.-M., & Etzioni, O. (2007). Extracting product features and opinions from reviews. In Kao, A., Poteet, S. R. (Eds.). Natural language processing and text mining, (pp. 9–28). London, UK: Springer. https://doi.org/10.1007/978-1-84628-754-1_2
Rosenblatt, F. (1962). Principles of Neurodynamics. New York: Spartan Books, 237 p.
Sanches, J. S., & Marques, A. I. (2006). An LVQ-based adaptive algorithm for learning from very small codebooks. Neurocomputing, 69, 922–927.
Short, J. C., Broberg, J. C., Cogliser, C. C., & Brigham, K. H. (2010). Construct validation using computer-aided text analysis (CATA): An illustration using entrepreneurial orientation. Organizational Research Methods, 13(2), 320–347. https://doi.org/10.1177/1094428109335949
Silge, Julia, & David Robinson. (2016). tidytext: Text Mining and Analysis Using Tidy Data Principles in R. JOSS 1(3). The Open Journal. https://doi.org/10.21105/joss.00037
Singh, N., Hu, C., & Roehl, W. S. (2007). Text Mining a decade of progress in hospitality human resource management research: Identifying emerging thematic development. International Journal of Hospitality Management, 26(1), 131–147. https://doi.org/10.1016/j.ijhm.2005.10.002
Sodhi, M. S., & Son, B.-G. (2010). Content analysis of OR job advertisements to infer required skills. Journal of the Operational Research Society, 61(9), 1315–1327. https://doi.org/10.1057/jors.2009.80
Solka, J. L. (2008). Text data mining: Theory and methods. Statistics Surveys, 2, 94–112. https://doi.org/10.1214/07-SS016
Song, F., Liu, S., & Yang, J. (2005). A comparative study on text representation schemes in text categorization. Pattern Analysis and Applications, 8(1-2), 199–209. https://doi.org/10.1007/s10044-005-0256-3
Subhash, C. Ya. (2009). An Introduction to Client Server Computing. New Delhi: New Age International (P) Ltd., Publishers, 213 p. (New Age International (P) Ltd., Publishers).
Vladimer B. Kobayashi, Stefan T. Mol, Hannah A. Berkers, Gábor Kismihók, Deanne N. Den Hartog. (2017). Text Mining in Organizational Research. Organizational Research Methods, 21(3), 733–765. https://doi.org/10.1177/1094428117722619
Vo, D.-T., & Ock, C.-Y. (2015). Learning to classify short text from scientific documents using topic models with various types of knowledge. Expert Systems with Applications, 42(3), 1684–1698. https://doi.org/10.1016/j.eswa.2014.09.031
Wickham, Hadley. (2014). Tidy Data. Journal of Statistical Software, 59(1), 1–23. https://doi.org/10.18637/jss.v059.i10
Yang, Y., & Pedersen, J. O. (1997). A Comparative Study on Feature Selection in Text Categorization. The Fourteenth International Conference on Machine Learning: Proceedings of ICML97. San Francisco, 412–420.
Yarkoni, T. (2010). Personality in 100,000 words: A large-scale analysis of personality and word use among bloggers. Journal of Research in Personality, 44(3), 363–373. https://doi.org/10.1016/j.jrp.2010.04.001
Zhang, W., Yoshida, T., & Tang, X. (2008). Text classification based on multi-word with support vector machine. Knowledge-Based Systems, 21(8), 879–886. https://doi.org/10.1016/j.knosys.2008.03.044
Zhang, Y., Chen, M., & Liu, L. (2015). A review on Text Mining. In 2015 6th IEEE International Conference on Software Engineering and Service Science (ICSESS), (pp. 681–685). New York, NY: IEEE. https://doi.org/10.1109/ICSESS.2015.7339149
Авторське право (c) 2018 http://creativecommons.org/licenses/by/4.0

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.