Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió
Các hệ thống thu thêp dĂ liệu hiện đäi có
khâ nëng sân sinh lþợng lĆn dĂ liệu, trong đa số
trþąng hợp sẽ cho số lþợng lĆn đặc trþng Āng vĆi
mỗi méu dĂ liệu. Trong một số trþąng hợp, các
méu dĂ liệu đþợc thu thêp trong thąi gian dài có
thể dén đến phân bố không ổn đðnh, hay thêm
chí là dĂ liệu không liên quan, ví dý nhþ EEG
(Nguyen Hoang Huy & cs., 2014), hoặc dĂ liệu
vên tốc gió (Lei & cs., 2009). Trong nhĂng
trþąng hợp này, chúng ta có thể phân tích dĂ
liệu trong khoâng thąi gian ngín hĄn, vĆi số
lþợng méu dĂ liệu ít hĄn, để làm phân bố dĂ
liệu ổn đðnh hĄn (Nguyen Hoang Huy & cs.,
2014). Tuy nhiên trong các bài toán hồi quy
thăc tế, vçn đề này sẽ dén đến tình träng là số
lþợng méu dĂ liệu n không đû lĆn so vĆi số
lþợng đặc trþng d (vçn đề dĂ liệu số chiều cao).
Không may, khi n không đû lĆn so vĆi d, vçn đề
hồi quy thống kê trong câ lý thuyết và thăc tế sẽ
khó giâi quyết hĄn (Bai & cs., 2019; Bickel &
Levina, 2008; Cai & Zhang, 2019; Hastie & cs.,
2009; Lei & cs., 2018).
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Tóm tắt nội dung tài liệu: Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió
ợc kết hợp để täo ra kết quâ dă báo cuối cùng trong đò, đþợc xác đðnh bìng cách áp g täi một thąi điểm xác đðnh. Trong phæn này dýng phþĄng pháp bình phþĄng tối thiểu trên chúng tôi đþa ra quy trình áp dýng two-step LR các méu huçn luyện: để dă báo dĂ liệu täi các đða điểm khác nhau, p {xsg R , g = 1,„, q; s = 1,„, n} täi h thąi điểm tiếp theo sā dýng dĂ liệu ć l thąi Trong trþąng hợp p + 2 > n, ma trên nghðch điểm trþĆc đò. Chúng tôi thăc hiện điều đò bìng đâo ć công thĀc (1) đþợc thay thế bći ma trên giâ h bþĆc sau: nghðch đâo Moore-Penrose để xác đðnh βg. Trong BþĆc 1: Dă báo dĂ liệu ć mỗi đða điểm, täi bþĆc hai, hồi quy tuyến tính đþợc áp dýng một thąi điểm t + 1 bìng cách áp dýng two-step LR læn nĂa vĆi điểm kết quâ tính ć bþĆc một: cho khối dĂ liệu täi l thąi điểm, tÿ thąi điểm TT t – l + 1 đến t, ć tçt câ các đða điểm. z fx ,...,fx ,zs fx ,...,fx 1 q s1 sq BþĆc 2: Dă báo dĂ liệu ć mỗi đða điểm, täi vĆi s = 1,„, n để đþợc hàm hồi quy two-step thąi điểm t + 2 bìng cách áp dýng two-step LR f*(x) cuối cùng. Điều đò cò nghïa f*(x) xác đðnh cho khối dĂ liệu bao gồm dĂ liệu thăc täi l – 1 nhþ sau: thąi điểm tÿ t – l + 2 đến t, ć tçt câ các đða điểm, f * x f f x ,...,f x gộp vĆi dĂ liệu đþợc dă báo täi thąi điểm t + 1, 1q đåy là kết quâ tÿ bþĆc 1. trong đò f là hàm hồi quy tuyến tính. Hình BþĆc 3: Dă báo dĂ liệu ć mỗi đða điểm, täi 2 mô tâ lþợc đồ cûa quá trình thăc hiện two- thąi điểm t + 3 bìng cách áp dýng two-step LR step LR. cho khối dĂ liệu bao gồm dĂ liệu thăc täi l – 2 thąi điểm tÿ thąi điểm t – l + 3 đến t, ć tçt 2.3. Dự báo dữ liệu không - thời gian dựa câ các đða điểm, gộp vĆi dĂ liệu dă báo täi 2 trên two-step LR thąi điểm tÿ t + 1 đến t + 2, đåy là kết quâ tÿ TþĄng tă two-step LDA (Nguyen Hoang bþĆc 1, 2. Hình 2. Lược đồ của two-step LR 446 Nguyễn Hoàng Huy, Hoàng Thị Thanh Giang CĀ tiếp týc lặp läi nhþ vêy cho đến bþĆc h thông dýng trong dă báo tốc độ gió (Lei & cs., BþĆc h: Dă đoán dĂ liệu ć mỗi đða điểm, täi 2009). Chúng đþợc xem là các mô hình chuỗi thąi điểm t + h bìng cách áp dýng two-step LR thąi gian đĄn giân nhçt nhþng cò thể vþợt trội cho khối dĂ liệu bao gồm dĂ thăc täi l – h + 1 nhiều mô hình phĀc täp khác trong dă báo tốc thąi điểm tÿ thąi điểm t – l + h đến t, ć tçt câ độ gió ngín hän (Sanandaji & cs., 2015; các träm, gộp vĆi dĂ liệu dă báo täi h – 1 thąi Tascikaraoglu & cs., 2016). Để câi tiến độ chính điểm tÿ t + 1 đến t + h - 1, đåy là kết quâ tÿ các xác dă đoán, nhiều mô hình tþĄng quan không bþĆc 1, 2,„, h – 1. Quá trình dă báo trong h bþĆc gian đþợc đþa ra để khai thác mối quan hệ tốc cho h thąi điểm sau thąi điểm t, sā dýng dĂ liệu độ gió ć nhĂng vð trí khác nhau. Tuy nhiên täi l thąi điểm trþĆc đò đþợc mô tâ nhþ sau: chúng chî gæn nhþ áp dýng các phþĄng pháp học máy nhþ mäng nĄron nhån täo (ANN-based Two StepLD sd ,...,sd ,sdt 1 ,...,sd t i 1 sd t i t l i t ST), phþĄng pháp bình phþĄng tối tiểu (LS- based ST) đối vĆi tçt câ dĂ liệu không - thąi i = 1, 2,„, h gian hoặc vĆi dĂ liệu đã đþợc biến đổi thông qua trong đò h, l là nhĂng tham số cho trþĆc, biến đổi Wavelet (WT-ANN),„ (Lei & cs., 2009; sdt, sdt læn lþợt là khối dĂ liệu thăc và dă đoán Sanandaji & cs., 2015; Tascikaraoglu & täi tçt câ các đða điểm (spatial data) vào thąi Uzunoglu, 2014; Tascikaraoglu & cs., 2016). điểm t. Gæn đåy các thuêt toán học såu nhþ Deep Learning-based Spatio-Temporal Forecasting 3. KẾT QUẢ VÀ THẢO LUẬN (DL-STF) đþợc sā dýng để dă báo tốc độ gió (Ghaderi & cs., 2017; Yu & cs., 2019; Wu & cs., 3.1. Bài toán dự báo tốc độ gió 2019). TþĄng tă nhĂng phþĄng pháp trên, nò Nëng lþợng giò đã đþợc phát triển nhanh khai thác toàn bộ dĂ liệu không - thąi gian nhþ chóng và ngày càng trć thành nëng lþợng tái dĂ liệu đæu vào cho thuêt toán dă đoán, sā dýng täo quan trọng ć nhiều vùng trên thế giĆi, đặc Recurrent Neural Networks (RNN) và Long biệt ć nhĂng nþĆc châu Âu (Lei & cs., 2009). Short Term Memory (LSTM) (Ghaderi & cs., Tích hợp nëng lþợng giò vào lþĆi điện trên diện 2017). PhþĄng pháp này vþợt trội các kết quâ rộng là thiết yếu và nhiều thách thĀc do bân dă báo tốc độ gió gæn đåy. Tuy nhiên, tçt câ các chçt ngéu nhiên cûa gió. Să tích hợp sẽ thuên phþĄng pháp trên đều không dăa vào cçu trúc tiện hĄn nếu dă báo chính xác đþợc nëng lþợng không - thąi gian bên trong cûa dĂ liệu tốc gió trong ngín hän (Ghaderi, 2017). Có nhiều độ giò, nhþ tính khâ tách cûa ma trên hiệp hþĆng tiếp cên để dă đoán nëng lþợng gió, tuy phþĄng sai. nhiên hþĆng tiếp cên dăa vào dă đoán tốc độ gió vén đþợc xem là hþĆng tiếp cên nổi bêt nhçt 3.2. Mô tả dữ liệu (Tascikaraoglu & cs., 2016). 3.2.1. Tập dữ liệu NCHMF Nhiều phþĄng pháp dă báo tốc độ giò đþợc Têp dĂ liệu gió NCHMF tÿ trung tâm dă đþa ra, cò thể chia làm 2 loäi: phþĄng pháp vêt báo khí tþợng thûy vën quốc gia Việt Nam đþợc lý, và phþĄng pháp thống kê (Lei & cs., 2009). đo ć 13 träm thąi tiết Hà Giang, Cao Bìng, PhþĄng pháp vêt lý khai thác nhiều thuộc tính Tuyên Quang, Hña Bình, Nam Đðnh, Hà Đông, vêt lý nhþ đða hình, áp suçt, nhiệt độ, có lợi thế Phú Liễn, Läng SĄn, Bãi Cháy, Tiên Yên, Mòng trong dă báo tốc độ gió dài hän. PhþĄng pháp Cái, Bäch Long Vï, Hội Xuân. NhĂng träm này thống kê thþąng dăa vào giá trð lðch sā, nhþ mô ć miền bíc Việt Nam vĆi kinh độ tÿ 104.044220 hình ARMA, và thþąng cho kết quâ tốt trong dă đến 107.848208, vï độ tÿ 20.020846 đến báo tốc độ gió ngín hän. Bài báo này têp trung 22.401052, nhþ trong hình 3. Tốc độ gió ć träm vào dă báo tốc độ gió ngín hän dăa vào dĂ liệu Bäch Long Vï thay đổi nhanh và không ổn đðnh tốc độ gió lðch sā. nhþ các träm khác khác. DĂ liệu quan sát tÿ Mô hình ARMA và một số trþąng hợp đặc ngày 01/10/2016 đến 01/01/2019. Tốc độ giò đþợc biệt nhþ mô hình AR, mô hình Persistence rçt đo ba gią một læn. 447 Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió Hình 3. Vị trí trạm khí tượng đo tốc độ gió của Trung tâm Dự báo khí tượng thủy văn quốc gia Việt Nam Hình 4. Vị trí trạm đo dữ liệu tốc độ gió METAR 3.2.2. Tập dữ liệu METAR 3.3. Kết quả ứng dụng two-step LR Têp dĂ liệu tốc độ gió hàng gią METAR TþĄng tă two-step LDA (Nguyen Hoang đþợc thu thêp tÿ các báo cáo thąi tiết täi 57 Huy & cs., 2014), two-step LR xác đðnh các câng sân bay ć bą biển phía đông Hoa Kỳ, bao nhòm con đặc trþng gồm tçt câ các đặc trþng täi gồm Massachusetts, Connecticut, New York, mỗi thąi điểm. Chúng tôi cüng không áp dýng New Hampshire. Hình 4 cho thçy vð trí cûa các bçt kỳ kỹ thuêt học máy nào nhþ chînh hòa để câng sân bay này. Dçu đó là sân bay ACK, nìm nâng cao hiệu nëng cûa hồi quy tuyến tính đþợc trên một hñn đâo. Tốc độ gió ć đâo đò thay đổi thăc hiện ć mỗi bþĆc. Do đò không cò să thiết rçt nhanh, tþĄng tă nhþ nhĂng gì ć träm thąi lêp siêu tham số nào khác cûa two-step LR. HĄn tiết Bäch Long Vï cûa Việt Nam, một trong 13 nĂa độ phĀc täp tính toán cûa two-step LR träm thąi tiết ć hình 3. Tốc độ gió tÿ 06/01/2014 giâm đi do chî áp dýng hồi quy tuyến tính trên đến 20/02/2014 đþợc sā dýng để kiểm tra hiệu mỗi nhòm con đặc trþng. nëng cûa các phþĄng pháp học máy đþợc nghiên Bâng 1 so sánh hiệu suçt cûa phþĄng pháp cĀu. Đåy là thąi điểm, tốc độ gió không ổn đðnh đþợc chúng tôi đþa ra vĆi các phþĄng pháp khác hĄn tçt câ các khoâng thąi gian khác. trên têp dĂ liệu METAR. Để so sánh sai số cûa 448 Nguyễn Hoàng Huy, Hoàng Thị Thanh Giang các phþĄng pháp, chúng tôi sā dýng ba độ đo có thể thçy hiệu nëng dă đoán trên ACK hoặc thông dýng là MAE, RMSE và NRMSE. Trong tçt câ các träm cûa two-step LR trội hĄn DL- thā nghiệm này chúng tôi chọn l = 12, h = 6 theo STF, phþĄng pháp tốt nhçt hiện nay. Ghaderi (2017), đåy là tham số cho hiệu nëng Hình 5 biểu diễn dĂ liệu tốc độ gió thăc tế tốt nhçt cûa DL-STF trên têp dĂ liệu METAR. (đþąng màu xanh) và tốc độ gió dă đoán (đþąng Lăa chọn l = 12, h = 6 cò nghïa là two-step LR màu đó) tÿ dĂ liệu kiểm tra trên 16 träm quan và các phþĄng pháp khác sā dýng d = 684 = 57 × sát. Đồ thð đæu tiên trong hình Āng vĆi träm 12 giá trð quan tríc (đặc trþng) tÿ 57 träm và 12 quan sát ć câng sân bay ACK. thąi điểm (gią) trþĆc đò để dă đoán giá trð tốc độ Trong têp dĂ liệu NCHMF, có 3 giá trð tốc gió trong 6 gią tiếp theo. Chúng tôi sā dýng dĂ độ gió bð thiếu và chúng tôi đã thay thế chúng liệu tốc độ gió tÿ 6.012 gią liên tiếp (250,5 ngày), bìng giá trð tốc độ giò đo täi thąi điểm trþĆc đò hình thành 6.000 méu huçn luyện để học mô (3 tiếng trþĆc), ć cùng träm. Bâng 3 biểu diễn hình dă báo và các méu kiểm tra là tốc độ gió hiệu nëng cûa DL-STF và two-step LR khi sā trong giai đoän không ổn đðnh nhçt tÿ dýng tçt câ dĂ liệu tÿ 13 träm thąi tiết vĆi 06/01/2014 đến 20/02/2014 nhþ đã nêu trong bài l = 12, h = 6. Bìng cách này thì DL-STF và two- báo cûa Ghaderi & cs. (2017). Cý thể hĄn về các step LR có thể khai thác tçt câ các thông tin phþĄng pháp khác đþợc trình bày cý thể trong tþĄng tác èn giĂa các träm. Qua bâng 3, chúng các bài báo cûa Sanandaji & cs. (2015) và ta có thể thçy two-step LR có hiệu nëng dă báo Tascikaraoglu & cs. (2016). tốc độ gió tốt hĄn hoặc bìng phþĄng pháp đang Bâng 2 trình bày 3 sai số trung bình cûa tçt cho kết quâ tốt nhçt hiện nay là DL-STF, xem câ các träm trên têp dĂ liệu METAR. Chúng ta bài báo Ghaderi & cs. (2017). Bảng 1. Sai số của các phương pháp khác nhau trên trạm ACK Method MAE (m/s) RMSE (m/s) NRMSE (%) Persistence Forecasting 2,14 2,83 16,86 AR of order 1 2,07 2,76 16,44 AR of order 3 2,07 2,76 16,40 WT-ANN 1,82 2,47 14,68 ANN-based ST 1,80 2,30 13,69 LS-based ST 1,72 2,20 13,08 DL-STF 1,63 2,19 13,08 Two-Step LR 1,40 1,93 11,48 Bảng 2. Sai số trung bình trên tất cả các trạm sử dụng DL-STF, two-step LR Method MAE (m/s) RMSE (m/s) NRMSE (%) DL-STF 1,18 1,62 16,28 Two-Step LR 1,09 1,44 14,32 Bảng 3. Sai số trung bình của DL-STF và Two-Step LR trên trạm Bạch Long Vĩ và cả 13 trạm Method Locations MAE (m/s) RMSE (m/s) NRMSE (%) DL-STF Bach Long Vi 1,70 2,36 13,86 All Stations 0,82 1,16 19,09 Two-Step LR Bach Long Vi 1,67 2,27 13,34 All Stations 0,82 1,07 18,04 449 Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió Hình 5. So sánh giữa tốc độ gió thực tế và dự báo trên dữ liệu kiểm tra Bickel P.J. & Levina E. (2004). Some theory for 4. KẾT LUẬN Fisher’s linear discriminant function, ‘naive Bayes’, and some alternatives when there are many Hiệu suçt cûa hồi quy tuyến tính bð ânh more variables than observations. Bernoulli. hþćng bći số chiều. Để giâi quyết vçn đề này, 10(6): 989-1010. chúng tôi giĆi thiệu phþĄng pháp áp dýng hồi Bickel P.J. & Levina E. (2008). Covariance quy tuyến tính trong hai bþĆc, đþợc gọi là two- regularization by thresholding. The Annals of step LR. HþĆng tiếp cên này đþợc gợi ý tÿ two- Statistics. 36: 2577-2604. step LDA và tính khâ tách cûa ma trên hiệp Cai T. & Liu W. (2011). A direct estimation approach phþĄng sai cûa dĂ liệu tốc độ gió. VĆi dĂ liệu tốc to sparse linear discriminant analysis. Journal độ gió có số chiều cao trung bình, hiệu nëng cûa of the American Statistical Association. cách tiếp cên này tốt hĄn các phþĄng pháp mĆi 106(496): 1566-1577. nhçt. Ngày nay, có nhiều phþĄng pháp điều Cai T. & Zhang L. (2019). High dimensional linear chînh hồi quy tuyến tính cho dĂ liệu có số chiều discriminant analysis: optimality, adaptive cao nhþ là hồi quy Lasso và các câi tiến cûa nó. algorithm and missing data. Journal of the Royal Tuy nhiên, vĆi hiểu biết cûa tôi, các thuêt toán đò Statistical Society: Series B (Statistical Methodology). 81(4): 675-705. chþa đþợc thā nghiệm cho dă báo tốc độ gió. Trong tþĄng lai, hþĆng tiếp cên hai bþĆc sā dýng Genton M.G. (2007). Separable approximation of space-time covariance matrices. Environmetrics. nhĂng thuêt toán này nên đþợc khâo sát tî mî. 18: 681-695. Ghaderi A., Sanandaji B. M. & Ghaderi F. (2017). TÀI LIỆU THAM KHẢO Deep forecast: Deep learning-based spatio- temporal forecasting. 34th ICML Time Series Bali V., Kumar A. & Gangwar S. (2019). Deep Workshop. Sydney, Australia. Learning based Wind Speed Forecasting-A Review. 9th International Conference on Cloud Hastie T., Tibshirani R. & Friedman J. (2009). The Computing, Data Science & Engineering Elements of Statistical Learning: DataMining, (Confluence). India. pp. 426-431. Inference, and Prediction. Springer Series in Bai Z., Li H. & Pan G. (2019). Central limit theorem Statistics, Springer-Verlag. for linear spectral statistics of large dimensional Hastie T., Tibshirani R. & Wainwright M. (2015). separable sample covariance matrices. Bernoulli. Statistical Learning with Sparsity: The Lasso and 25(3): 1838-1869. Generalizations. Chapman & Hall/CRC Press. 450 Nguyễn Hoàng Huy, Hoàng Thị Thanh Giang Huizenga H.M., De Munck J.C., Waldorp L.J. & Sanandaji B.M., Tascikaraoglu A., Poolla K. & Grasman R.P.P.P. (2002). Spatiotemporal Varaiya P. (2015). Low dimensional models in EEG/MEG source analysis based on a parametric spatio-temporal wind speed forecasting. noise covariance model. IEEE Transactions on American Control Conference. Chicago, USA. Biomedical Engineering. 49: 533-539. pp. 4485-4490. Huy N.H., Frenzel S. & Bandt C. (2014). Two-step Tascikaraoglu A. & Uzunoglu M. (2014). A review of linear discriminant analysis for classification of combined approaches for prediction of short-term eeg data. In M. Spiliopoulou, L. Schmidt-Thieme wind speed and power. Renewable and Sustainable and R. Janning, editors, Data Analysis, Machine Energy Reviews. 34: 243-254. Learning and Knowledge Discovery. Springer, Tascikaraoglu A., Sanandaji B. M., Poolla K. & Cham. pp. 41-50. Varaiya P. (2016). Exploiting sparsity of inter- Lei M., Shiyan L., Chuanwen J., Hongling L. & Yan Z. connections in spatio-temporal wind speed (2009). A review on the forecasting of wind speed forecasting using wavelet transform. Applied and generated power. Renewable and Sustainable Energy. 165 (1): 735-747. Energy Reviews. 13: 915-920. Yu R., Gao J., Yu M., Lu W., Xu T., Zhao M., Zhang Lei L., Bickel P.J., Karoui N.E. (2018). Asymptotics for high dimensional regression M-estimates: fixed J., Zhang R. & Zhang Z. (2019). LSTM-EFG for design results. Probability Theory and Related wind power forecasting based on sequential Fields. 172 (3-4): 983-1079. correlation features. Future Generation Computer Systems. 93: 33-42. Leiva R. & Roy A. (2014). Classification of Higher- order Data with Separable Covariance and Wu Y.X., Wu Q. B. & Zhu J.Q. (2019). Data-driven Structured Multiplicative or Additive Mean wind speed forecasting using deep feature Models. Communications in Statistics - Theory extraction and LSTM. IET Renewable Power and Methods. 43(5): 989-1012. Generation. 13(12): 2062-2069. 451
File đính kèm:
- huong_tiep_can_hoi_quy_moi_cho_du_bao_toc_do_gio.pdf