Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió

Các hệ thống thu thêp dĂ liệu hiện đäi có

khâ nëng sân sinh lþợng lĆn dĂ liệu, trong đa số

trþąng hợp sẽ cho số lþợng lĆn đặc trþng Āng vĆi

mỗi méu dĂ liệu. Trong một số trþąng hợp, các

méu dĂ liệu đþợc thu thêp trong thąi gian dài có

thể dén đến phân bố không ổn đðnh, hay thêm

chí là dĂ liệu không liên quan, ví dý nhþ EEG

(Nguyen Hoang Huy & cs., 2014), hoặc dĂ liệu

vên tốc gió (Lei & cs., 2009). Trong nhĂng

trþąng hợp này, chúng ta có thể phân tích dĂ

liệu trong khoâng thąi gian ngín hĄn, vĆi số

lþợng méu dĂ liệu ít hĄn, để làm phân bố dĂ

liệu ổn đðnh hĄn (Nguyen Hoang Huy & cs.,

2014). Tuy nhiên trong các bài toán hồi quy

thăc tế, vçn đề này sẽ dén đến tình träng là số

lþợng méu dĂ liệu n không đû lĆn so vĆi số

lþợng đặc trþng d (vçn đề dĂ liệu số chiều cao).

Không may, khi n không đû lĆn so vĆi d, vçn đề

hồi quy thống kê trong câ lý thuyết và thăc tế sẽ

khó giâi quyết hĄn (Bai & cs., 2019; Bickel &

Levina, 2008; Cai & Zhang, 2019; Hastie & cs.,

2009; Lei & cs., 2018).

Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió trang 1

Trang 1

Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió trang 2

Trang 2

Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió trang 3

Trang 3

Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió trang 4

Trang 4

Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió trang 5

Trang 5

Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió trang 6

Trang 6

Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió trang 7

Trang 7

Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió trang 8

Trang 8

Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió trang 9

Trang 9

pdf 9 trang duykhanh 5100
Bạn đang xem tài liệu "Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió

Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió
ợc kết hợp để täo ra kết quâ dă báo cuối cùng 
 trong đò,  đþợc xác đðnh bìng cách áp 
 g täi một thąi điểm xác đðnh. Trong phæn này 
dýng phþĄng pháp bình phþĄng tối thiểu trên chúng tôi đþa ra quy trình áp dýng two-step LR 
các méu huçn luyện: để dă báo dĂ liệu täi các đða điểm khác nhau, 
 p
 {xsg R , g = 1,„, q; s = 1,„, n} täi h thąi điểm tiếp theo sā dýng dĂ liệu ć l thąi 
 Trong trþąng hợp p + 2 > n, ma trên nghðch điểm trþĆc đò. Chúng tôi thăc hiện điều đò bìng 
đâo ć công thĀc (1) đþợc thay thế bći ma trên giâ h bþĆc sau: 
nghðch đâo Moore-Penrose để xác đðnh βg. Trong BþĆc 1: Dă báo dĂ liệu ć mỗi đða điểm, täi 
bþĆc hai, hồi quy tuyến tính đþợc áp dýng một thąi điểm t + 1 bìng cách áp dýng two-step LR 
læn nĂa vĆi điểm kết quâ tính ć bþĆc một: cho khối dĂ liệu täi l thąi điểm, tÿ thąi điểm 
 TT
 t – l + 1 đến t, ć tçt câ các đða điểm. 
 z fx ,...,fx ,zs fx ,...,fx
 1 q s1 sq 
 BþĆc 2: Dă báo dĂ liệu ć mỗi đða điểm, täi 
 vĆi s = 1,„, n để đþợc hàm hồi quy two-step thąi điểm t + 2 bìng cách áp dýng two-step LR 
f*(x) cuối cùng. Điều đò cò nghïa f*(x) xác đðnh cho khối dĂ liệu bao gồm dĂ liệu thăc täi l – 1 
nhþ sau: thąi điểm tÿ t – l + 2 đến t, ć tçt câ các đða điểm, 
 f * x f f x ,...,f x gộp vĆi dĂ liệu đþợc dă báo täi thąi điểm t + 1, 
 1q 
 đåy là kết quâ tÿ bþĆc 1. 
 trong đò f là hàm hồi quy tuyến tính. Hình BþĆc 3: Dă báo dĂ liệu ć mỗi đða điểm, täi 
2 mô tâ lþợc đồ cûa quá trình thăc hiện two- thąi điểm t + 3 bìng cách áp dýng two-step LR 
step LR. 
 cho khối dĂ liệu bao gồm dĂ liệu thăc täi l – 2 
 thąi điểm tÿ thąi điểm t – l + 3 đến t, ć tçt 
2.3. Dự báo dữ liệu không - thời gian dựa 
 câ các đða điểm, gộp vĆi dĂ liệu dă báo täi 2 
trên two-step LR 
 thąi điểm tÿ t + 1 đến t + 2, đåy là kết quâ tÿ 
 TþĄng tă two-step LDA (Nguyen Hoang bþĆc 1, 2. 
 Hình 2. Lược đồ của two-step LR 
446 
 Nguyễn Hoàng Huy, Hoàng Thị Thanh Giang 
 CĀ tiếp týc lặp läi nhþ vêy cho đến bþĆc h thông dýng trong dă báo tốc độ gió (Lei & cs., 
 BþĆc h: Dă đoán dĂ liệu ć mỗi đða điểm, täi 2009). Chúng đþợc xem là các mô hình chuỗi 
thąi điểm t + h bìng cách áp dýng two-step LR thąi gian đĄn giân nhçt nhþng cò thể vþợt trội 
cho khối dĂ liệu bao gồm dĂ thăc täi l – h + 1 nhiều mô hình phĀc täp khác trong dă báo tốc 
thąi điểm tÿ thąi điểm t – l + h đến t, ć tçt câ độ gió ngín hän (Sanandaji & cs., 2015; 
các träm, gộp vĆi dĂ liệu dă báo täi h – 1 thąi Tascikaraoglu & cs., 2016). Để câi tiến độ chính 
điểm tÿ t + 1 đến t + h - 1, đåy là kết quâ tÿ các xác dă đoán, nhiều mô hình tþĄng quan không 
bþĆc 1, 2,„, h – 1. Quá trình dă báo trong h bþĆc gian đþợc đþa ra để khai thác mối quan hệ tốc 
cho h thąi điểm sau thąi điểm t, sā dýng dĂ liệu độ gió ć nhĂng vð trí khác nhau. Tuy nhiên 
täi l thąi điểm trþĆc đò đþợc mô tâ nhþ sau: chúng chî gæn nhþ áp dýng các phþĄng pháp 
 học máy nhþ mäng nĄron nhån täo (ANN-based 
 Two StepLD
 sd ,...,sd ,sdt 1 ,...,sd t i 1 sd t i
 t l i t ST), phþĄng pháp bình phþĄng tối tiểu (LS-
 based ST) đối vĆi tçt câ dĂ liệu không - thąi 
 i = 1, 2,„, h 
 gian hoặc vĆi dĂ liệu đã đþợc biến đổi thông qua 
 trong đò h, l là nhĂng tham số cho trþĆc, biến đổi Wavelet (WT-ANN),„ (Lei & cs., 2009; 
sdt, sdt læn lþợt là khối dĂ liệu thăc và dă đoán Sanandaji & cs., 2015; Tascikaraoglu & 
täi tçt câ các đða điểm (spatial data) vào thąi Uzunoglu, 2014; Tascikaraoglu & cs., 2016). 
điểm t. Gæn đåy các thuêt toán học såu nhþ Deep 
 Learning-based Spatio-Temporal Forecasting 
3. KẾT QUẢ VÀ THẢO LUẬN (DL-STF) đþợc sā dýng để dă báo tốc độ gió 
 (Ghaderi & cs., 2017; Yu & cs., 2019; Wu & cs., 
3.1. Bài toán dự báo tốc độ gió 2019). TþĄng tă nhĂng phþĄng pháp trên, nò 
 Nëng lþợng giò đã đþợc phát triển nhanh khai thác toàn bộ dĂ liệu không - thąi gian nhþ 
chóng và ngày càng trć thành nëng lþợng tái dĂ liệu đæu vào cho thuêt toán dă đoán, sā dýng 
täo quan trọng ć nhiều vùng trên thế giĆi, đặc Recurrent Neural Networks (RNN) và Long 
biệt ć nhĂng nþĆc châu Âu (Lei & cs., 2009). Short Term Memory (LSTM) (Ghaderi & cs., 
Tích hợp nëng lþợng giò vào lþĆi điện trên diện 2017). PhþĄng pháp này vþợt trội các kết quâ 
rộng là thiết yếu và nhiều thách thĀc do bân dă báo tốc độ gió gæn đåy. Tuy nhiên, tçt câ các 
chçt ngéu nhiên cûa gió. Să tích hợp sẽ thuên phþĄng pháp trên đều không dăa vào cçu trúc 
tiện hĄn nếu dă báo chính xác đþợc nëng lþợng không - thąi gian bên trong cûa dĂ liệu tốc 
gió trong ngín hän (Ghaderi, 2017). Có nhiều độ giò, nhþ tính khâ tách cûa ma trên hiệp 
hþĆng tiếp cên để dă đoán nëng lþợng gió, tuy phþĄng sai. 
nhiên hþĆng tiếp cên dăa vào dă đoán tốc độ gió 
vén đþợc xem là hþĆng tiếp cên nổi bêt nhçt 3.2. Mô tả dữ liệu 
(Tascikaraoglu & cs., 2016). 3.2.1. Tập dữ liệu NCHMF 
 Nhiều phþĄng pháp dă báo tốc độ giò đþợc Têp dĂ liệu gió NCHMF tÿ trung tâm dă 
đþa ra, cò thể chia làm 2 loäi: phþĄng pháp vêt báo khí tþợng thûy vën quốc gia Việt Nam đþợc 
lý, và phþĄng pháp thống kê (Lei & cs., 2009). đo ć 13 träm thąi tiết Hà Giang, Cao Bìng, 
PhþĄng pháp vêt lý khai thác nhiều thuộc tính Tuyên Quang, Hña Bình, Nam Đðnh, Hà Đông, 
vêt lý nhþ đða hình, áp suçt, nhiệt độ, có lợi thế Phú Liễn, Läng SĄn, Bãi Cháy, Tiên Yên, Mòng 
trong dă báo tốc độ gió dài hän. PhþĄng pháp Cái, Bäch Long Vï, Hội Xuân. NhĂng träm này 
thống kê thþąng dăa vào giá trð lðch sā, nhþ mô ć miền bíc Việt Nam vĆi kinh độ tÿ 104.044220 
hình ARMA, và thþąng cho kết quâ tốt trong dă đến 107.848208, vï độ tÿ 20.020846 đến 
báo tốc độ gió ngín hän. Bài báo này têp trung 22.401052, nhþ trong hình 3. Tốc độ gió ć träm 
vào dă báo tốc độ gió ngín hän dăa vào dĂ liệu Bäch Long Vï thay đổi nhanh và không ổn đðnh 
tốc độ gió lðch sā. nhþ các träm khác khác. DĂ liệu quan sát tÿ 
 Mô hình ARMA và một số trþąng hợp đặc ngày 01/10/2016 đến 01/01/2019. Tốc độ giò đþợc 
biệt nhþ mô hình AR, mô hình Persistence rçt đo ba gią một læn. 
 447 
Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió 
 Hình 3. Vị trí trạm khí tượng đo tốc độ gió 
 của Trung tâm Dự báo khí tượng thủy văn quốc gia Việt Nam 
 Hình 4. Vị trí trạm đo dữ liệu tốc độ gió METAR 
3.2.2. Tập dữ liệu METAR 3.3. Kết quả ứng dụng two-step LR 
 Têp dĂ liệu tốc độ gió hàng gią METAR TþĄng tă two-step LDA (Nguyen Hoang 
đþợc thu thêp tÿ các báo cáo thąi tiết täi 57 Huy & cs., 2014), two-step LR xác đðnh các 
câng sân bay ć bą biển phía đông Hoa Kỳ, bao nhòm con đặc trþng gồm tçt câ các đặc trþng täi 
gồm Massachusetts, Connecticut, New York, mỗi thąi điểm. Chúng tôi cüng không áp dýng 
New Hampshire. Hình 4 cho thçy vð trí cûa các bçt kỳ kỹ thuêt học máy nào nhþ chînh hòa để 
câng sân bay này. Dçu đó là sân bay ACK, nìm nâng cao hiệu nëng cûa hồi quy tuyến tính đþợc 
trên một hñn đâo. Tốc độ gió ć đâo đò thay đổi thăc hiện ć mỗi bþĆc. Do đò không cò să thiết 
rçt nhanh, tþĄng tă nhþ nhĂng gì ć träm thąi lêp siêu tham số nào khác cûa two-step LR. HĄn 
tiết Bäch Long Vï cûa Việt Nam, một trong 13 nĂa độ phĀc täp tính toán cûa two-step LR 
träm thąi tiết ć hình 3. Tốc độ gió tÿ 06/01/2014 giâm đi do chî áp dýng hồi quy tuyến tính trên 
đến 20/02/2014 đþợc sā dýng để kiểm tra hiệu mỗi nhòm con đặc trþng. 
nëng cûa các phþĄng pháp học máy đþợc nghiên Bâng 1 so sánh hiệu suçt cûa phþĄng pháp 
cĀu. Đåy là thąi điểm, tốc độ gió không ổn đðnh đþợc chúng tôi đþa ra vĆi các phþĄng pháp khác 
hĄn tçt câ các khoâng thąi gian khác. trên têp dĂ liệu METAR. Để so sánh sai số cûa 
448 
 Nguyễn Hoàng Huy, Hoàng Thị Thanh Giang 
các phþĄng pháp, chúng tôi sā dýng ba độ đo có thể thçy hiệu nëng dă đoán trên ACK hoặc 
thông dýng là MAE, RMSE và NRMSE. Trong tçt câ các träm cûa two-step LR trội hĄn DL-
thā nghiệm này chúng tôi chọn l = 12, h = 6 theo STF, phþĄng pháp tốt nhçt hiện nay. 
Ghaderi (2017), đåy là tham số cho hiệu nëng Hình 5 biểu diễn dĂ liệu tốc độ gió thăc tế 
tốt nhçt cûa DL-STF trên têp dĂ liệu METAR. (đþąng màu xanh) và tốc độ gió dă đoán (đþąng 
Lăa chọn l = 12, h = 6 cò nghïa là two-step LR màu đó) tÿ dĂ liệu kiểm tra trên 16 träm quan 
và các phþĄng pháp khác sā dýng d = 684 = 57 × sát. Đồ thð đæu tiên trong hình Āng vĆi träm 
12 giá trð quan tríc (đặc trþng) tÿ 57 träm và 12 quan sát ć câng sân bay ACK. 
thąi điểm (gią) trþĆc đò để dă đoán giá trð tốc độ Trong têp dĂ liệu NCHMF, có 3 giá trð tốc 
gió trong 6 gią tiếp theo. Chúng tôi sā dýng dĂ độ gió bð thiếu và chúng tôi đã thay thế chúng 
liệu tốc độ gió tÿ 6.012 gią liên tiếp (250,5 ngày), bìng giá trð tốc độ giò đo täi thąi điểm trþĆc đò 
hình thành 6.000 méu huçn luyện để học mô (3 tiếng trþĆc), ć cùng träm. Bâng 3 biểu diễn 
hình dă báo và các méu kiểm tra là tốc độ gió hiệu nëng cûa DL-STF và two-step LR khi sā 
trong giai đoän không ổn đðnh nhçt tÿ dýng tçt câ dĂ liệu tÿ 13 träm thąi tiết vĆi 
06/01/2014 đến 20/02/2014 nhþ đã nêu trong bài l = 12, h = 6. Bìng cách này thì DL-STF và two-
báo cûa Ghaderi & cs. (2017). Cý thể hĄn về các step LR có thể khai thác tçt câ các thông tin 
phþĄng pháp khác đþợc trình bày cý thể trong tþĄng tác èn giĂa các träm. Qua bâng 3, chúng 
các bài báo cûa Sanandaji & cs. (2015) và ta có thể thçy two-step LR có hiệu nëng dă báo 
Tascikaraoglu & cs. (2016). tốc độ gió tốt hĄn hoặc bìng phþĄng pháp đang 
 Bâng 2 trình bày 3 sai số trung bình cûa tçt cho kết quâ tốt nhçt hiện nay là DL-STF, xem 
câ các träm trên têp dĂ liệu METAR. Chúng ta bài báo Ghaderi & cs. (2017). 
 Bảng 1. Sai số của các phương pháp khác nhau trên trạm ACK 
 Method MAE (m/s) RMSE (m/s) NRMSE (%) 
 Persistence Forecasting 2,14 2,83 16,86 
 AR of order 1 2,07 2,76 16,44 
 AR of order 3 2,07 2,76 16,40 
 WT-ANN 1,82 2,47 14,68 
 ANN-based ST 1,80 2,30 13,69 
 LS-based ST 1,72 2,20 13,08 
 DL-STF 1,63 2,19 13,08 
 Two-Step LR 1,40 1,93 11,48 
 Bảng 2. Sai số trung bình trên tất cả các trạm sử dụng DL-STF, two-step LR 
 Method MAE (m/s) RMSE (m/s) NRMSE (%) 
 DL-STF 1,18 1,62 16,28 
 Two-Step LR 1,09 1,44 14,32 
Bảng 3. Sai số trung bình của DL-STF và Two-Step LR trên trạm Bạch Long Vĩ và cả 13 trạm 
 Method Locations MAE (m/s) RMSE (m/s) NRMSE (%) 
 DL-STF Bach Long Vi 1,70 2,36 13,86 
 All Stations 0,82 1,16 19,09 
 Two-Step LR Bach Long Vi 1,67 2,27 13,34 
 All Stations 0,82 1,07 18,04 
 449 
Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió 
 Hình 5. So sánh giữa tốc độ gió thực tế và dự báo trên dữ liệu kiểm tra 
 Bickel P.J. & Levina E. (2004). Some theory for 
4. KẾT LUẬN Fisher’s linear discriminant function, ‘naive 
 Bayes’, and some alternatives when there are many 
 Hiệu suçt cûa hồi quy tuyến tính bð ânh 
 more variables than observations. Bernoulli. 
hþćng bći số chiều. Để giâi quyết vçn đề này, 10(6): 989-1010. 
chúng tôi giĆi thiệu phþĄng pháp áp dýng hồi 
 Bickel P.J. & Levina E. (2008). Covariance 
quy tuyến tính trong hai bþĆc, đþợc gọi là two- regularization by thresholding. The Annals of 
step LR. HþĆng tiếp cên này đþợc gợi ý tÿ two- Statistics. 36: 2577-2604. 
step LDA và tính khâ tách cûa ma trên hiệp Cai T. & Liu W. (2011). A direct estimation approach 
phþĄng sai cûa dĂ liệu tốc độ gió. VĆi dĂ liệu tốc to sparse linear discriminant analysis. Journal 
độ gió có số chiều cao trung bình, hiệu nëng cûa of the American Statistical Association. 
cách tiếp cên này tốt hĄn các phþĄng pháp mĆi 106(496): 1566-1577. 
nhçt. Ngày nay, có nhiều phþĄng pháp điều Cai T. & Zhang L. (2019). High dimensional linear 
chînh hồi quy tuyến tính cho dĂ liệu có số chiều discriminant analysis: optimality, adaptive 
cao nhþ là hồi quy Lasso và các câi tiến cûa nó. algorithm and missing data. Journal of the Royal 
Tuy nhiên, vĆi hiểu biết cûa tôi, các thuêt toán đò Statistical Society: Series B (Statistical 
 Methodology). 81(4): 675-705. 
chþa đþợc thā nghiệm cho dă báo tốc độ gió. 
Trong tþĄng lai, hþĆng tiếp cên hai bþĆc sā dýng Genton M.G. (2007). Separable approximation of 
 space-time covariance matrices. Environmetrics. 
nhĂng thuêt toán này nên đþợc khâo sát tî mî. 
 18: 681-695. 
 Ghaderi A., Sanandaji B. M. & Ghaderi F. (2017). 
 TÀI LIỆU THAM KHẢO Deep forecast: Deep learning-based spatio-
 temporal forecasting. 34th ICML Time Series 
Bali V., Kumar A. & Gangwar S. (2019). Deep 
 Workshop. Sydney, Australia. 
 Learning based Wind Speed Forecasting-A 
 Review. 9th International Conference on Cloud Hastie T., Tibshirani R. & Friedman J. (2009). The 
 Computing, Data Science & Engineering Elements of Statistical Learning: DataMining, 
 (Confluence). India. pp. 426-431. Inference, and Prediction. Springer Series in 
Bai Z., Li H. & Pan G. (2019). Central limit theorem Statistics, Springer-Verlag. 
 for linear spectral statistics of large dimensional Hastie T., Tibshirani R. & Wainwright M. (2015). 
 separable sample covariance matrices. Bernoulli. Statistical Learning with Sparsity: The Lasso and 
 25(3): 1838-1869. Generalizations. Chapman & Hall/CRC Press. 
450 
 Nguyễn Hoàng Huy, Hoàng Thị Thanh Giang 
Huizenga H.M., De Munck J.C., Waldorp L.J. & Sanandaji B.M., Tascikaraoglu A., Poolla K. & 
 Grasman R.P.P.P. (2002). Spatiotemporal Varaiya P. (2015). Low dimensional models in 
 EEG/MEG source analysis based on a parametric spatio-temporal wind speed forecasting. 
 noise covariance model. IEEE Transactions on American Control Conference. Chicago, USA. 
 Biomedical Engineering. 49: 533-539. pp. 4485-4490. 
Huy N.H., Frenzel S. & Bandt C. (2014). Two-step Tascikaraoglu A. & Uzunoglu M. (2014). A review of 
 linear discriminant analysis for classification of combined approaches for prediction of short-term 
 eeg data. In M. Spiliopoulou, L. Schmidt-Thieme wind speed and power. Renewable and Sustainable 
 and R. Janning, editors, Data Analysis, Machine Energy Reviews. 34: 243-254. 
 Learning and Knowledge Discovery. Springer, 
 Tascikaraoglu A., Sanandaji B. M., Poolla K. & 
 Cham. pp. 41-50. 
 Varaiya P. (2016). Exploiting sparsity of inter-
Lei M., Shiyan L., Chuanwen J., Hongling L. & Yan Z. connections in spatio-temporal wind speed 
 (2009). A review on the forecasting of wind speed forecasting using wavelet transform. Applied 
 and generated power. Renewable and Sustainable 
 Energy. 165 (1): 735-747. 
 Energy Reviews. 13: 915-920. 
 Yu R., Gao J., Yu M., Lu W., Xu T., Zhao M., Zhang 
Lei L., Bickel P.J., Karoui N.E. (2018). Asymptotics 
 for high dimensional regression M-estimates: fixed J., Zhang R. & Zhang Z. (2019). LSTM-EFG for 
 design results. Probability Theory and Related wind power forecasting based on sequential 
 Fields. 172 (3-4): 983-1079. correlation features. Future Generation Computer 
 Systems. 93: 33-42. 
Leiva R. & Roy A. (2014). Classification of Higher-
 order Data with Separable Covariance and Wu Y.X., Wu Q. B. & Zhu J.Q. (2019). Data-driven 
 Structured Multiplicative or Additive Mean wind speed forecasting using deep feature 
 Models. Communications in Statistics - Theory extraction and LSTM. IET Renewable Power 
 and Methods. 43(5): 989-1012. Generation. 13(12): 2062-2069. 
 451 

File đính kèm:

  • pdfhuong_tiep_can_hoi_quy_moi_cho_du_bao_toc_do_gio.pdf