Розробка програмних компонентів інформаційної системи екстракції фактографічних даних з веб-ресурсів

Анна Юріївна Дорошенко, Наталія Валеріївна Шаронова, Богдан Олександрович Єна, Ольга Василівна Янголенко

Анотація


Завданням даної роботи є аналіз та розробка моделей та програмних компонентів для екстракції даних, які надають інформацію щодо певного факту (події або об’єкту) з веб ресурсів певного типу. У якості прикладу будемо розглядати процес збору даних з веб-сторінок, які містять опис пропозицій мобільних телефонів. Така інформація розташована на сторінках торгівельних платформ, має однакову семантичну складову, але представлена різними структурами. Для успішного виконання поставленої задачі програмне рішення повинно отримувати вхідні дані для екстрактора у вигляді HTML сторінок. Додаток повинен проаналізувати та обробити ці дані для найбільш точного визначення важливості різних блоків. Далі необхідно провести екстракцію даних на основі методу обробки DOM-дерева та повернути результат, який відповідає висунутим вимогам щодо формальної моделі представлення фактографічної інформації.

Ключові слова


Веб ресурс; екстракція; HTML

Повний текст:

PDF

Посилання


R. V. Guha, Dan Brickley, and Steve Macbeth. Schema.org: Evolution of structured data on the web. Commun. ACM, 59(2):44–51, January 2008.

Sriram Raghavan and Hector Garcia-Molina. Crawling the hidden web. In Proceedings of the 27th International Conference on Very Large Data Bases, VLDB ’01, pages 129–138, San Francisco, CA, USA, 2001. Morgan Kaufmann Publishers Inc.

Memex (Domain-Specific Search) // URL: www.darpa.mil/program/memex, 02.11.2017.

W3C XML Query (XQuery) // URL: https://www.w3.org/XML/Query/, 04.11.2017.

XSL Transformations (XSLT) Version 3.0 // URL: https://www.w3.org/TR/xslt, .11.2017.

Apache Nutch™ // URL: http://nutch.apache.org/, 18.11.2017.

Warren Shen, AnHai Doan, Jeffrey F. Naughton, and Raghu Ramakrishnan. Declarative information extraction using datalog with embedded extraction predicates. In Proceedings of the 33rd International Conference on Very Large Data Bases, VLDB ’07, pages 1033–1044. VLDB Endowment, 2007.

Scrapy | A Fast and Powerful Scraping and Web Crawling Framework // URL: http://scrapy.org/, 25.11.2017.

Ndapandula Nakashole, Martin Theobald, and Gerhard Weikum. Scalable knowledge harvesting with high precision and high recall. In Proceedings of the Fourth ACM International Conference on Web Search and Data Mining, WSDM ’11, pages 227–236, New York, NY, USA, 2011. ACM.

Xin Luna Dong, Evgeniy Gabrilovich, Geremy Heitz, Wilko Horn, Kevin Murphy, Shaohua Sun, and Wei Zhang. From data fusion to knowledge fusion. Proc. VLDB Endow., 7(10):881–892, June 2014.

Oren Etzioni, Michael Cafarella, Doug Downey, Stanley Kok, Ana-Maria Popescu, Tal Shaked, Stephen Soderland, Daniel S. Weld, and Alexander Yates. Web-scale information extraction in knowitall: (preliminary results). In Proceedings of the 13th International Conference on World Wide Web, WWW ’04, pages 100–110, New York, NY, USA, 2004. ACM.

Andrew Carlson, Justin Betteridge, Bryan Kisiel, Burr Settles, Estevam R. Hruschka Jr., and Tom M. Mitchell. Toward an architecture for neverending language learning. In AAAI. AAAI Press, 2010.

Bing Liu and Kevin Chen-Chuan-Chang. Editorial: special issue on web content mining. Acm Sigkdd explorations newsletter, 6(2):1–4, 2004.

B Anantha Barathi. Structured information extraction system from web pages. MiddleEast Journal of Scientific Research, 19(6):817–820, 2014.

Arvind Arasu and Hector Garcia-Molina. Extracting structured data from web pages. In Proceedings of the 2003 ACM SIGMOD international conference on Management of data, pages 337–348. ACM, 2003.

Chia-Hui Chang and Shao-Chen Lui. Iepad: information extraction based on pattern discovery. In Proceedings of the 10th international conference on World Wide Web, pages 681–688. ACM, 2001.

Postman | API Development Environment // URL: www.getpostman.com, 23.03.2018.




DOI: https://doi.org/10.35546/піт.v0i23.194

Посилання

  • Поки немає зовнішніх посилань.