ДОСЛІДЖЕННЯ МЕТОДІВ ЗМЕНШЕННЯ НАВЧАЛЬНОЇ ВИБІРКИ ДАНИХ

Яків Повод, Володимир Шерстюк

Анотація


Значна кількість методів машинного навчання мають обмеження на об’єм даних з якими вони можуть
працювати. Зазвичай ці обмеження проявляють себе як надмірне споживання розрахункових ресурсів, або пам’яті.
Так, як більшість алгоритмів машинного навчання мають розрахункову складність більшу ніж O(n), при значному
об’єму вхідних даних, ці алгоритми не зможуть знайти рішення за розумний час. Зменшення навчальної вибірки для
цих алгоритмів підвищить швидкість їх роботі пропорційно до розрахункової складності алгоритмів.
У статі проаналізовано методи зменшення навчальної вибірки для деяких алгоритмів машинного навчання.
Виміряно вплив зменшення навчальної вибірки на швидкодію та точність алгоритмів машинного навчання.
Метою даного дослідження є дослідження впливу різних алгоритмів зменшення начальної вибірки на взаємну
точність різних моделей машинного навчання при прогнозуванні сонячної інсоляції.
Основні результати дослідження. Досліджено вплив начальної вибірки при наявності надлишкового об’єму даних
на швидкодію алгоритмів машинного навчання, та на їх точність. Виміряно вплив прокляття розміреності при вико-
ристанні значно зменшеної навчальної вибірки.
Науковою новизною є порівняння методів зменшення навчальної вибірки для передбачення сонячної інсоляції.


Ключові слова


машинне навчання; швидкодія; дані; сонячна інсоляція

Повний текст:

PDF

Посилання


Barbara D. та ін. The new Jersey data Reduction Report [Електронний ресурс]. URL: https://www.aminer.cn/pub/53e9a6aeb7602d9702fe32b6/

the-new-jersey-data-reduction-report (дата звернення: 29.04.2021).

Błaszczak-Bąk W. та ін. Down-sampling of large lidar dataset in the context of off-road objects extraction // Geosciences. 2020. Т. 10. № 6. С. 219.

Cebeci Z., Yildiz F. Efficiency of random sampling based data size reduction on computing time and validity of clustering in data mining // Journal of Agricultural Informatics. 2016. Т. 7. № 1.

Harrell F.E. Regression modeling Strategies // Springer Series in Statistics. 2001.

Ingrassia S., Morlini I. Neural network modeling for small datasets // Technometrics. 2005. Т. 47. № 3. С. 297–311.

Kile H., Uhlen K. Data reduction via clustering and averaging for contingency and reliability analysis // International Journal of Electrical Power & Energy Systems. 2012. Т. 43. № 1. С. 1435–1442.

Patel F.N. Large high dimensional data handling using data reduction // 2016 International Conference on Electrical, Electronics, and Optimization

Techniques (ICEEOT). 2016.

Pestov V. Is thek-nn classifier in high dimensions affected by the curse of dimensionality? // Computers & Mathematics with Applications. 2013.

Т. 65. № 10. С. 1427–1437.

Sculley D. Web-scale k-means clustering // Proceedings of the 19th international conference on World wide web – WWW ‘10. 2010.




DOI: https://doi.org/10.35546/2313-0687.2020.27.98-107

Посилання

  • Поки немає зовнішніх посилань.