Hệ ANFIS cho bài toán dự báo dữ liệu chuỗi thời gian và ứng dụng
TÓM TẮT— Khai thác dữ liệu quá khứ để dự báo dữ liệu tương lai với độ chính xác cao là vấn đề thử thách. Hệ suy luận ANFIS (Adaptive Neuro-Fuzzy Inference System) là một trong các kỹ thuật dùng để dự báo dữ liệu chuỗi thời gian. Vì vậy, bài báo đề xuất mô hình dự báo đa trị dựa trên hệ suy luận ANFIS. Từ đó, chúng tôi xây dựng thuật toán huấn luyện và thuật toán dự báo dựa trên mô hình đã đề xuất. Để minh chứng tính hiệu quả của mô hình đề xuất, chúng tôi xây dựng hai ứng dụng thực nghiệm: (1) Dự báo sản lượng sữa trên cơ sở dữ liệu của công ty Vinamilk; (2) Dự báo giá cổ phiếu trên cơ sở dữ liệu Cophieu68
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Bạn đang xem tài liệu "Hệ ANFIS cho bài toán dự báo dữ liệu chuỗi thời gian và ứng dụng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Hệ ANFIS cho bài toán dự báo dữ liệu chuỗi thời gian và ứng dụng
toàn thỏa mãn hệ ANFIS truyền thống. Đây là một cải tiến làm cho hệ ANFIS có thể cơ động mềm dẻo và hoàn toàn áp dụng được dữ liệu dạng ma trận các số mờ và đồng thời áp dụng được cho các giá trị đơn lẻ, vô hướng. B. Thuật toán 1. Thuật toán huấn luyện hệ ANFIS Đầu vào: Tập ma trận dữ liệu huấn luyện 1{ ,..., }nTraining M M ,Tập véctơ giá trị thực 1Re { ,..., }nal r r Đầu ra: tập ma trận hệ số suy luận 1 2{ , ,..., }nR R R R Phương pháp Bước 1: Khởi tạo Tạo tập ma trận mờ 1 2{ , ,..., }nM fuzzy Mf Mf Mf từ tập ma trận huấn luyện Training ; Tạo tập véctơ trọng số 1 2W {W ,W ,...,W }n từ tập ma trận mờ M fuzzy ; Chuẩn hóa tập véctơ trọng số W ; Khởi tạo ngẫu nhiên ma trận hệ số suy luận mờ R ; Tính sai số Error ban đầu; Bước 2: Huấn luyện (tức là cập nhật ma trận hệ số suy luận R ) Foreach (với mỗi bộ dữ liệu huấn luyện iMf ) do While ( Error AND số lần lặp < 1000) do Tạo mới ma trận hệ số suy luận R dựa trên hàm lỗi; Tính ma trận dự báo F ; Chuẩn hóa ma trận dự báo; Tính kết quả dự báo; Tính sai số Error ; EndWhile Lưu trữ ma trận hệ số iR của bộ dữ liệu huấn luyện iMf ; EndForeach Kết thúc 2. Thuật toán kiểm thử Đầu vào: Ma trận dữ liệu kiểm thử M, tập ma trận hệ số suy luận 1 2{ , ,..., }nR R R R Đầu ra: Véctơ dự báo 1 2{ , ,..., }mF f f f , Véctơ sai số 1 2{ , ,..., }mError e e e vớim là số dòng của ma trận M Phương pháp Bước 1: Khởi tạo Tạo ma trận hệ số mờ T từ ma trận M ; Tính véctơ trọng số W từ ma trận T ; Chuẩn hóa véctơ trọng số W ; Bước 2: Dự báo Tính ma trận suy luận F ; Chuẩn hóa ma trận suy luận F ; Thực hiện tính kết quả dự báo; Tính sai số dự báo; Kết thúc 212 HỆ ANFIS CHO BÀI TOÁN DỰ BÁO DỮ LIỆU CHUỖI THỜI GIAN VÀ ỨNG DỤNG IV. XÂY DỰNG ỨNG DỤNG THỰC NGHIỆM A. Mô hình thực nghiệm Hình 2. Mô hình ứng dụng hệ ANFIS Quá trình dự báo gồm hai pha: (1) pha huấn luyện dữ liệu nhằm tìm ra tập các ma trận hệ số suy luận, chuẩn bị dữ liệu để tạo thành ứng dụng; (2) pha kiểm thử nhằm kiểm chứng lại quá trình huấn luyện hệ ANFIS, sử dụng các dữ liệu đã được chuẩn bị ở pha thứ nhất. Hai pha này thực hiện độc lập với nhau và được mô tả cụ thể như sau: Pha 1: Pha huấn luyện. Đầu tiên, thực hiện chuẩn hóa tập dữ liệu huấn luyện ứng với khung thời gian bất kỳ. Tiến hành mờ hóa tập dữ liệu huấn luyện này bằng phương pháp Gaussian của tập mờ hình chuông dựa trên kỳ vọng và phương sai trên từng cột dữ liệu. Sau đó, thực hiện tính tích trọng số mờ dựa trên phép tích hợp các số mờ. Chuẩn hóa các số mờ trên đoạn [0,1] nhằm đánh giá mức độ trọng số của dữ liệu. Xây dựng ma trận dự báo dựa vào kết quả có được từ phép tính tích trọng số mờ và chuẩn hóa. Trên cơ sở ma trận dự báo thực hiện việc huấn luyện Nguyễn Thị Thu Hiền, Lê Hữu Hà, Trần Thị Vân Anh, Văn Thế Thành, Quản Thành Thơ 213 dữ liệu. Nếu độ lệch giữa giá trị thực tế và giá trị dự báo lớn hơn sai số cho trước thì thực hiện huấn luyện lại cho đến khi giá trị hàm lỗi nhỏ nhất thì dừng lại. Kết quả của quá trình huấn luyện là tập các ma trận hệ số suy luận 1{ ,..., }kR R R phù hợp với khoảng thời gian của dữ liệu dự báo. Pha 2: Pha kiểm thử. Thực hiện chuẩn hóa bộ dữ liệu kiểm thử với khung thời gian đã có trong pha huấn luyện. Tiến hành mờ hóa tập dữ liệu kiểm thử này bằng hàm mờ Gaussian hình chuông. Tính tích trọng số mờ dựa trên phép tích hợp các số mờ và chuẩn hóa các số mờ trên đoạn [0,1]. Với ma trận hệ số suy luận đã có trong pha huấn luyện thực hiện quá trình huấn luyện dựa trên hệ ANFIS và phương pháp suy luận Takagi-Sugeno sẽ thu được một véctơ dự báo. Từ đó, có thể dự báo liên tục nhiều ngày tương lai. B. Kết quả thực nghiệm Ứng dụng thực nghiệm gồm: pha huấn luyện và pha kiểm thử. Pha huấn luyện dữ liệu được thực thi trên Matlab phiên bản 2013 trên hệ điều hành Windows Server 2008 R2 Enterprise, bộ xử lý Intel(R) Xeon(R) CPU X3440 @ 2.53GHz – Ram 8GB. Pha kiểm thử dữ liệu được thực thi trên Matlab phiên bản 2008 trên hệ điều hành Windows 8.1 Professional, bộ xử lý Core i3 – Ram 4GB. Quá trình thực nghiệm được đo đạc trên đơn vị thời là giây theo chuẩn của Matlab. Toàn bộ các hàm bổ trợ của thuật toán đều được cài đặt cụ thể trên Matlab ngoại trừ các hàm cơ bản. Các số liệu được đo đạc và biểu diễn đồ thị được thực hiện trực tiếp trên Matlab. Dựa trên hàm lỗi đã mô tả như trên, bài báo đánh giá sai số trung bình huấn luyện được mô tả như sau: Hình 3. Giá trị trung bình của độ lệch ứng với bộ dữ liệu huấn luyện sản lượng sữa Hình 4. Giá trị trung bình của độ lệch ứng với bộ dữ liệu huấn luyện giá cổ phiếu Tại Hình 3 mô tả sai số huấn luyện của mạng neuro-fuzzy cho dự báo sản lương sữa của từng bộ dữ liệu mẫu được lấy từ các trạm cung cấp sữa của công ty Vinamilk. Theo như thực nghiệm cho thấy giá trị hàm lỗi giảm tương đối nhanh tại các thời điểm ban đầu sau đó tốc độ hội tụ giảm dần. Tương tự tại Hình 4 mô tả sai số huấn luyện của mạng neuro-fuzzy ứng với dữ liệu Cophieu68. Theo đồ thị cho thấy tốc độ hội tụ của mạng neuro-fuzzy tương đối nhanh. Từ đó cho thấy mô hình đã đề xuất phù hợp với bài toán dự báo dữ liệu dạng chuỗi thời gian. Sau khi thực hiện huấn luyện mạng neuro-fuzzy, chúng tôi tiến hành quá trình kiểm thử nhằm dự báo kết quả. Việc kiểm thử này được thực hiện trên bài toán dự báo sản lượng sữa và dự báo giá cổ phiếu nhằm minh chứng tính tổng quát và tính đúng đắn của mô hình đã đề xuất. Tại Hình 5 mô tả giá trị thực và giá trị dự báo về sản lượng sữa và tại Hình 6 mô tả giá trị thực và giá trị dự báo của giá cổ phiếu với bốn trạng thái: Giá mở , Giá cao nhất , Giá thấp nhất và giá đóng . Kết quả của pha kiểm thử được mô tả theo Hình 5 và Hình 6 như sau: 214 HỆ ANFIS CHO BÀI TOÁN DỰ BÁO DỮ LIỆU CHUỖI THỜI GIAN VÀ ỨNG DỤNG Hình 5. Mô tả giá trị dự báo và giá trị thực từ bộ kiểm thử về sản lượng sữa Hình 6. Mô tả giá trị dự báo và giá trị thực từ bộ kiểm thử với 20 mã cổ phiếu Hình 7. Độ lệch trung bình giữa giá trị dự báo và giá trị thực tế sản lượng sữa Hình 8. Độ lệch trung bình giữa giá trị dự báo và giá trị thực tế giá cổ phiếu Thời gian dự báo được đo đạc trực tiếp bằng phần mềm Matlab nhằm đánh giá chi phí về tốc độ dự báo nhằm phục vụ cho quá trình định hướng kinh doanh. Đồ thị mô tả thời gian dự báo như sau: Nguyễn Thị Thu Hiền, Lê Hữu Hà, Trần Thị Vân Anh, Văn Thế Thành, Quản Thành Thơ 215 Hình 9. Đồ thị mô tả thời gian dự báo sản lượng sữa Hình 10. Đồ thị mô tả thời gian dự báo giá cổ phiếu C. So sánh kết quả thực nghiệm với các phương pháp khác Bảng 1. So sánh sai số giữa phương pháp đề xuất và các phương pháp khác trong dự báo sản lượng sữa Phƣơng pháp MSE RMSE MAE MAPE 1 2 TB 1 2 TB 1 2 TB 1 2 TB AR 15.6612 93.5912 54.6262 3.9574 9.6743 6.81585 2.9258 6.81585 3.9663 5.3127 5.7072 5.50995 ARMA 15.6616 93.7654 54.7135 3.9575 9.6833 6.8204 2.9258 5.0073 3.96655 5.3126 5.7072 5.5099 ANFIS 12.3017 79.9558 46.12875 3.5074 8.9418 6.2246 2.6506 4.0399 3.34525 4.7446 4.6049 4.67475 Phương pháp– Đề xuất 17.9444; 25.2930; 24.1698; 20.4683; 31.6572; 103.775; 15.9993; 14.9449; 27.7341; 27.5319 30.95179 4.2361; 5.0292; 4.9162; 4.5242; 5.6264; 10.187; 3.9999; 3.8658; 5.2663; 5.2471 5.28982 2.9977; 3.3611; 3.2162; 2.9462; 3.3458; 3.3050; 2.5376; 2.3742; 3.2905; 3.3907 3.0765 6.4892; 6.8751; 7.1831; 6.6168; 7.5374; 6.7119; 5.5827; 5.3558; 8.0169; 7.0238 6.73927 Bảng 2. So sánh sai số giữa phương pháp đề xuất và các phương pháp khác trong dự báo giá cổ phiếu Loại sai số Phƣơng pháp MSE MAE MAPE T-Norm dựa trên ANFIS 1.8069 1.3372 0.2534 ANFIS truyền thống 2.3729 1.7263 0.4012 ANFIS đề xuất 0.0296; 0.0233; 0.3079; 0.1087 0.1474; 0.1282; 0.5268; 0.3087 0.0088; 0.0073; 0.0306; 0.0178 V. LỜI CẢM ƠN Nhóm tác giả xin chân thành cảm ơn Khoa Khoa học và Kỹ thuật Máy tính, trường Đại học Bách khoa Tp.HCM và Trung tâm Công nghệ Thông tin, trường Đại học Công nghiệp Thực phẩm Tp.HCM là nơi bảo trợ để thực hiện nghiên cứu này. VI. KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Bài báo đã giải quyết được vấn đề dự báo đồng thời nhiều kết quả, giúp cải thiện đáng kể về tốc độ so với các phương pháp khác như: AR, ARMA, ANFIS, NARX, SANN, MLR, T-Norm dựa trên ANFIS. Điều này đã được minh chứng trong phần kết quả thực nghiệm. Hướng phát triển của bài báo là đề xuất hệ ANFIS có khả năng tự nhận biết các trường hợp dị biệt và có khả năng chịu lỗi cao để kết quả dự báo không bị ảnh hưởng bởi các giá trị bất thường. TÀI LIỆU THAM KHẢO [1] 2016. [2] A. Al-Hmouz, et al. (2012). 'Modeling and Simulation of an Adaptive Neuro-Fuzzy Inference System (ANFIS) for Mobile Learning'.IEEE transactions on learning technologies. 5(3), 226-237. [3] A. Arango,J.D. Velásquez (2014). 'Forecasting the Colombian Exchange Market Index (IGBC) using Neural Networks'.IEEE latin america transactions. 12(4), 718-724. [4] R. Lee (2016). Detection of Dengue Epidemic in Dhaka, Bangladesh by a Neuro Fuzzy Approach, M. Arifuzzaman, et al., In: Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing. Springer Switzerland. pp. 165- 174. [5] S. Campisi-Pinto, J. Adamowski,G. Oron (2013). 'Forecasting Urban Water Demand Via Wavelet-Denoising and Neural Network Models. Case Study: City of Syracuse, Italy'.Water Resources Management. 26(12), 3539-3558. 216 HỆ ANFIS CHO BÀI TOÁN DỰ BÁO DỮ LIỆU CHUỖI THỜI GIAN VÀ ỨNG DỤNG [6] R. Cao, X. Liang, Z. Ni (2012). Stock Price Forecasting with Support Vector Machines Based on Web Financial Information Sentiment Analysis. Paper presented at 8th International Conference, ADMA 2012 Nanjing, December 15-18, 2012, China. [7] C. L. P. Chen,Chi-Hsu Wang (2014). 'A New Learning Algorithm for a Fully Connected Neuro-Fuzzy Inference System'.IEEE transactions on neural networks and learning systems. 25(10), 1741-1757. [8] W. Pedrycz,S.-M. Chen (2013). A Best-Match Forecasting Model for High-Order Fuzzy Time Series, Y.-C. Cheng,S.-T. Li, In: Time Series Analysis, Modeling and Applications. Springer Berlin pp. 331-345. [9] A.S. George, P. G. Maria, Z. D. Constantinos (2012). 'Milk Production Forecasting by a Neuro-Fuzzy Model'. Research Topics in Agricultural and Applied Economics. 3, 3-11. [10] C. Mao,T. Yokomori ( 2006). Fuzzy Forecasting with DNA Computing, D. J. -F. Jeng, et al., In: DNA Computing. Springer Berlin. pp. 324-336. [11] L. Jing (2013). 'A neural fuzzy inference system'.Journal of electronics. 30(4), 401-410. [12] K. Deep, et al. (2012). A Computational Method of Forecasting Based on Intuitionistic Fuzzy Sets and Fuzzy Time Series, B.P. Joshi,S. Kumar, In: Advances in Intelligent and Soft Computing. Springer India. pp. 993-1000. [13] S. Kara, S. Dasb,P.K. Ghosh (2014). 'Applications of neuro fuzzy systems: A brief review and future outline'.Applied Soft Computing. 15, 243–259. [14] P. Koprinkova, H. V. Mladenov, N. K. Kasabov. (2015). Artificial Neural Networks. Springer. New York. [15] Y. Liao, et al. (2013). 'Stock Price Forecast Using Tree Augmented Naïve (TAN) Bayes'. Advances in Intelligent Systems and Computing. 212, 1013-1019. [16] O. Maimon, L. Rokach. ( 2005). Data mining and knowledge discovery handbook. Springer. New York. [17] K. N. Das, et al. (2015). Vehicle Classification Using Adaptive Neuro-Fuzzy Inference System (ANFIS), A. K. Maurya, D. K. Patel, In: Proceedings of Fourth International Conference on Soft Computing for Problem Solving Book Subt. Springer India. pp. 137-152. [18] C. G. Helmis, P. T. Nastos (2013). 24-Hours Ahead Forecasting of PM10 Concentrations Using Artificial Neural Networks in the Greater Athens Area, Greece, K. Moustris, et al., In: Advances in Meteorology, Climatology and Atmospheric Physics. Springer Berlin pp. 1121-1126. [19] M. D. Murphy, et al. (2014). 'Comparison of modeling techniques for milk-production forecasting'.American Dairy Science Association. 97, 3352–3363. [20] M. D. Murphy, et al. (2014). 'Comparison of modeling techniques for milk-production forecasting'. J. Dairy Sci. 97, 3352–3363. [21] T. Ravichandra, C. Thingom (2016). 'Stock Price Forecasting Using ANN Method'.Advances in Intelligent Systems and Computing. 435, 599-605. [22] I. E. Shepelev, et al. (2015). 'Comparing Ambient Temperature Account Methods in Neural Network Based City ShortTerm Load Forecasting'.Optical Memory and Neural Networks. 24(3), 220–229. [23] P. Singh (2016). Two-Factors High-Order Neuro-Fuzzy Forecasting Model, P. Singh, In: Applications of Soft Computing in Time Series Forecasting. Springer Switzerland. pp. 83-97. [24] V. Vijay, et al. (2015). Ground-Based Measurement for Solar Power Variability Forecasting Modeling Using Generalized Neural Network, V. P. Singh, et al., In: Systems Thinking Approach for Social Problems. Springer India. pp. 49-61. [25] I. Svalina, et al. (2013). 'An adaptive network-based fuzzy inference system (ANFIS) for the forecasting: The case of close price indices'.Expert Systems with Applications. 40(15), 6055–6063. [26] V. H. Nguyen, A. C. Le,V. N. Huynh (2015). A New Approach toMulti-variable Fuzzy Forecasting Using Picture Fuzzy Clustering and Picture Fuzzy Rule InterpolationMethod, P. H. Thong, L. H. Son, In: Knowledge and Systems Engineering. Springer: New York. pp. 679-690. [27] B. V. Babu, et al. (2014). Fault Diagnosis of Ball Bearings Using Support Vector Machine and Adaptive Neuro Fuzzy Classifier, R. Tiwari, P. K. Kankar,V. K. Gupta, In: Advances in Intelligent Systems and Computing. Springer India. pp. 1477- 1482. [28] L. Y. Wei (2016). 'A hybrid ANFIS model based on empirical mode decomposition for stock time series forecasting'.Applied Soft Computing. 42, 368–376. [29] F. Zhang, Z. Liao (2015). Stock Price Forecasting Based on Multi-Input Hamacher T-Norm and ANFIS. Paper presented at The Ninth International Conference on Management Science and Engineering Management, July 21 to 23, 2015, Karlsruhe Institute of Technology (KIT), Karlsruhe, Germany. THE ANFIS FOR TIME-SERIES FORECASTING AND APPLICATION Nguyen Thi Thu Hien, Le Huu Ha, Tran Thi Van Anh, Van The Thanh, Quan Thanh Tho ABSTRACT— Prediction of data trend in future is one of major data mining tasks, which poses much challenges in order to obtain results of high accuracy. In particular, for the domain of time-series data, the inference system ANFIS (Adaptive Neuro-fuzzy Inference System) promises a powerful technique. Then, this paper proposes a multi-value prediction model based on ANFIS, which is very useful for time-series analysis. On the base of proposed model, we present a training algorithm and a testing algorithm. In order to show the effectiveness of proposed method, we developed two applications including (i) prediction of the milk quantities of Vinamilk products; and (ii) prediction of the stock prices, using data from Cophieu68 company.
File đính kèm:
- he_anfis_cho_bai_toan_du_bao_du_lieu_chuoi_thoi_gian_va_ung.pdf