СИСТЕМА АНАЛІЗУ ТЕКСТОВИХ ПОТОКІВ ДАНИХ

Юрій Олександрович Олійник

Анотація


Дослідження присвячене розробці системи аналізу текстових потоків даних. В постановці завдання наведено проблему обробки потоків текстової інформації та відзначається відсутність програмних засобів одночасної обробки потоків текстових даних українською та російською мовами.

Проведено аналіз останніх досліджень та встановлено, що для обробки потоків даних необхідно застосовувати спеціалізоване програмне забезпечення обробки потокових даних. Виявлено, що існує вкрай мало засобів для обробки україномовних текстів, а також те, що не існує засобів для одночасної підтримки україномовних та російськомовних текстів. 

Метою даного дослідження є розробка архітектури та реалізація програмного забезпечення системи аналізу текстових потоків даних. Наведено опис математичної моделі потоку текстових даних на основі ковзного вікна. Наведено завдання для обробки потоків текстових даних від базових перетворень тексту та попередньої обробки до інтелектуального аналізу текстових потоків даних. Сформульовано математичну постановку завдання визначення емоційного забарвлення потоків текстових даних на основі моделі ковзного вікна.

В процесі дослідження виділено 4 підсистеми: підсистему збору та транспортування повідомлень потоків даних, підсистему аналізу текстових потоків, підсистему зберігання результатів аналізу потоків даних та підсистему візуалізації.

Особливістю системи є підтримка обробки україномовних текстів, для чого було спеціально розроблено програмну бібліотеку UANLP. Дана бібліотека дозволяє також оброблювати російськомовні тексти.  Обробка потоків текстових даних виконується на основі компоненту Spark Streaming, що підтримує роботу з вікнами. Бібліотека Spark MLib та ML дозволяють використовувати засоби машинного навчання для аналітичної обробки потоків текстових даних, на основі яких виконується сентимент аналіз, виявлення аномалій, елементів пропаганди, дезінформації тощо.

Обґрунтовано використання програмних компонент -  сервісу повідомлень Kafka, технології розподіленої обробки даних Apache Spark, бази даних Elasticsearch та сервісу візуалізації Kibana. Описано процес обробки даних від генерації потоків даних до візуалізації результатів аналізу.

Ключові слова


потоки текстових даних; онлайн обробка; text mining; Apache Spark

Повний текст:

PDF

Посилання


Олійник Ю. О., Афанасьєва О. Є., Аршакян Г. Д. Підхід до виявлення аномалій в потоках текстових даних. Системні технології. 2020. № 2(127). C. 126139. DOI: https://doi.org/10.34185/1562-9945-2-127-2020-10

Tomashevskii V. M., Oliynik Y. O., Yaskov V. V., Romanchuk V. M. Realtime Text Stream Anomalies Analysis System. Вісник Херсонського національного технічного університету. 2018. № 3 (1). Р. 361365.

Oram A. Streaming Data. USA, Newton: O'Reilly Media, Inc., 2019. 28 p.

Степанюк Є. Ю., Олійник Ю. О. Дослідження методів аналізу тональності тексту. Інформаційні системи та технології управління – ІСТУ-2019: матеріали Всеукраїнської науково-практичної конференції молодих вчених та студентів. (м. Київ, 26 листопада 2019 р.), Київ: НТУУ «КПІ ім. Ігоря Сікорського», 2019. С. 32–39.

Гавриленко О. В., Олійник Ю. О., Ханько Г. В. Огляд та аналіз алгоритмів TEXT MINING. Управління проектами, системний аналіз і логістика. 2017. № 19. С. 15–23

Apache Spark Streaming. URL: http://spark.apache.org/docs/latest/streaming-programming-guide.html

Набір даних URL: https://github.com/dmytro-verner/sentiment-analysis-ukrainian-tweets

Ukrainian NLP Library for Apache Spark. URL: https://github.com/oliyura/UANLP/ [Назва з екрана].

Морфологійчний аналізатор pymorphy2. URL: https://pymorphy2.readthedocs.io/ [Назва з екрана].

Kibana. Your window into the Elastic Stack. URL: https://www.elastic.co/kibana [Назва з екрана].

Establishing Modern Master-level Studies in Information Systems URL: https://mastis.pro/[Назва з екрана]

Oliinyk, Yu. O., Afanasieva, O. Ye., & Arshakian, H. D. (2020). Pidkhid do vyiavlennia anomalii v potokakh tekstovykh danykh. Systemni tekhnolohii. 2(127). C. 126139. DOI: https://doi.org/10.34185/1562-9945-2-127-2020-10

Tomashevskii, V. M., Oliynik, Yu. O., Yaskov, V. V., & Romanchuk, V. M. (2018). Realtime Text Stream Anomalies Analysis System. Visnyk Khersonskoho natsionalnoho tekhnichnoho universytetu. 3, Part 1, 361-365.

Oram A. Streaming Data. (2019). USA, Newton: O'Reilly Media, Inc.

Stepaniuk Ye. Yu., Oliinyk Yu. O. (2019). Doslidzhennia metodiv analizu tonalnosti tekstu. Informatsiini systemy ta tekhnolohii upravlinnia – ISTU-2019: materialy Vseukrainskoi naukovo-praktychnoi konferentsii molodykh vchenykh ta studentiv. (Kyiv, November 26, 2019 r), Kyiv: NTUU «KPI im. Ihoria Sikorskoho», pp. 32–39.

Havrylenko, O. V., Oliiny,k Yu. O., & Khanko, H. V. (2017). Ohliad ta analiz alhorytmiv TEXT MINING. Upravlinnia proektamy, systemnyi analiz i lohistyka. 19, 15–23.

Apache Spark Streaming. URL: http://spark.apache.org/docs/latest/streaming-programming-guide.html

Nabir danykh Retrieved from: https://github.com/dmytro-verner/sentiment-analysis-ukrainian-tweets

Ukrainian NLP Library for Apache Spark. Retrieved from: https://github.com/oliyura/UANLP/ [Title from the screen].

Morfolohiichnyi analizator pymorphy2. Retrieved from: https://pymorphy2.readthedocs.io/ [Title from the screen].

Kibana. Your window into the Elastic Stack. Retrieved from: https://www.elastic.co/kibana [Title from the screen].

Establishing Modern Master-level Studies in Information Systems Retrieved from: https://mastis.pro/ [Title from the screen].




DOI: https://doi.org/10.32782/2618-0340/2020.1-3.15

Посилання

  • Поки немає зовнішніх посилань.


 
Google Scholar, Index Copernicus International Journals Master List, CrossRef, National Library of Ukraine (Vernadsky), Бібліометрика української науки.
 
Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License