Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió
Các hệ thống thu thêp dĂ liệu hiện đäi có
khâ nëng sân sinh lþợng lĆn dĂ liệu, trong đa số
trþąng hợp sẽ cho số lþợng lĆn đặc trþng Āng vĆi
mỗi méu dĂ liệu. Trong một số trþąng hợp, các
méu dĂ liệu đþợc thu thêp trong thąi gian dài có
thể dén đến phân bố không ổn đðnh, hay thêm
chí là dĂ liệu không liên quan, ví dý nhþ EEG
(Nguyen Hoang Huy & cs., 2014), hoặc dĂ liệu
vên tốc gió (Lei & cs., 2009). Trong nhĂng
trþąng hợp này, chúng ta có thể phân tích dĂ
liệu trong khoâng thąi gian ngín hĄn, vĆi số
lþợng méu dĂ liệu ít hĄn, để làm phân bố dĂ
liệu ổn đðnh hĄn (Nguyen Hoang Huy & cs.,
2014). Tuy nhiên trong các bài toán hồi quy
thăc tế, vçn đề này sẽ dén đến tình träng là số
lþợng méu dĂ liệu n không đû lĆn so vĆi số
lþợng đặc trþng d (vçn đề dĂ liệu số chiều cao).
Không may, khi n không đû lĆn so vĆi d, vçn đề
hồi quy thống kê trong câ lý thuyết và thăc tế sẽ
khó giâi quyết hĄn (Bai & cs., 2019; Bickel &
Levina, 2008; Cai & Zhang, 2019; Hastie & cs.,
2009; Lei & cs., 2018).

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9
Tóm tắt nội dung tài liệu: Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió
ợc kết hợp để täo ra kết quâ dă báo cuối cùng
trong đò, đþợc xác đðnh bìng cách áp
g täi một thąi điểm xác đðnh. Trong phæn này
dýng phþĄng pháp bình phþĄng tối thiểu trên chúng tôi đþa ra quy trình áp dýng two-step LR
các méu huçn luyện: để dă báo dĂ liệu täi các đða điểm khác nhau,
p
{xsg R , g = 1,„, q; s = 1,„, n} täi h thąi điểm tiếp theo sā dýng dĂ liệu ć l thąi
Trong trþąng hợp p + 2 > n, ma trên nghðch điểm trþĆc đò. Chúng tôi thăc hiện điều đò bìng
đâo ć công thĀc (1) đþợc thay thế bći ma trên giâ h bþĆc sau:
nghðch đâo Moore-Penrose để xác đðnh βg. Trong BþĆc 1: Dă báo dĂ liệu ć mỗi đða điểm, täi
bþĆc hai, hồi quy tuyến tính đþợc áp dýng một thąi điểm t + 1 bìng cách áp dýng two-step LR
læn nĂa vĆi điểm kết quâ tính ć bþĆc một: cho khối dĂ liệu täi l thąi điểm, tÿ thąi điểm
TT
t – l + 1 đến t, ć tçt câ các đða điểm.
z fx ,...,fx ,zs fx ,...,fx
1 q s1 sq
BþĆc 2: Dă báo dĂ liệu ć mỗi đða điểm, täi
vĆi s = 1,„, n để đþợc hàm hồi quy two-step thąi điểm t + 2 bìng cách áp dýng two-step LR
f*(x) cuối cùng. Điều đò cò nghïa f*(x) xác đðnh cho khối dĂ liệu bao gồm dĂ liệu thăc täi l – 1
nhþ sau: thąi điểm tÿ t – l + 2 đến t, ć tçt câ các đða điểm,
f * x f f x ,...,f x gộp vĆi dĂ liệu đþợc dă báo täi thąi điểm t + 1,
1q
đåy là kết quâ tÿ bþĆc 1.
trong đò f là hàm hồi quy tuyến tính. Hình BþĆc 3: Dă báo dĂ liệu ć mỗi đða điểm, täi
2 mô tâ lþợc đồ cûa quá trình thăc hiện two- thąi điểm t + 3 bìng cách áp dýng two-step LR
step LR.
cho khối dĂ liệu bao gồm dĂ liệu thăc täi l – 2
thąi điểm tÿ thąi điểm t – l + 3 đến t, ć tçt
2.3. Dự báo dữ liệu không - thời gian dựa
câ các đða điểm, gộp vĆi dĂ liệu dă báo täi 2
trên two-step LR
thąi điểm tÿ t + 1 đến t + 2, đåy là kết quâ tÿ
TþĄng tă two-step LDA (Nguyen Hoang bþĆc 1, 2.
Hình 2. Lược đồ của two-step LR
446
Nguyễn Hoàng Huy, Hoàng Thị Thanh Giang
CĀ tiếp týc lặp läi nhþ vêy cho đến bþĆc h thông dýng trong dă báo tốc độ gió (Lei & cs.,
BþĆc h: Dă đoán dĂ liệu ć mỗi đða điểm, täi 2009). Chúng đþợc xem là các mô hình chuỗi
thąi điểm t + h bìng cách áp dýng two-step LR thąi gian đĄn giân nhçt nhþng cò thể vþợt trội
cho khối dĂ liệu bao gồm dĂ thăc täi l – h + 1 nhiều mô hình phĀc täp khác trong dă báo tốc
thąi điểm tÿ thąi điểm t – l + h đến t, ć tçt câ độ gió ngín hän (Sanandaji & cs., 2015;
các träm, gộp vĆi dĂ liệu dă báo täi h – 1 thąi Tascikaraoglu & cs., 2016). Để câi tiến độ chính
điểm tÿ t + 1 đến t + h - 1, đåy là kết quâ tÿ các xác dă đoán, nhiều mô hình tþĄng quan không
bþĆc 1, 2,„, h – 1. Quá trình dă báo trong h bþĆc gian đþợc đþa ra để khai thác mối quan hệ tốc
cho h thąi điểm sau thąi điểm t, sā dýng dĂ liệu độ gió ć nhĂng vð trí khác nhau. Tuy nhiên
täi l thąi điểm trþĆc đò đþợc mô tâ nhþ sau: chúng chî gæn nhþ áp dýng các phþĄng pháp
học máy nhþ mäng nĄron nhån täo (ANN-based
Two StepLD
sd ,...,sd ,sdt 1 ,...,sd t i 1 sd t i
t l i t ST), phþĄng pháp bình phþĄng tối tiểu (LS-
based ST) đối vĆi tçt câ dĂ liệu không - thąi
i = 1, 2,„, h
gian hoặc vĆi dĂ liệu đã đþợc biến đổi thông qua
trong đò h, l là nhĂng tham số cho trþĆc, biến đổi Wavelet (WT-ANN),„ (Lei & cs., 2009;
sdt, sdt læn lþợt là khối dĂ liệu thăc và dă đoán Sanandaji & cs., 2015; Tascikaraoglu &
täi tçt câ các đða điểm (spatial data) vào thąi Uzunoglu, 2014; Tascikaraoglu & cs., 2016).
điểm t. Gæn đåy các thuêt toán học såu nhþ Deep
Learning-based Spatio-Temporal Forecasting
3. KẾT QUẢ VÀ THẢO LUẬN (DL-STF) đþợc sā dýng để dă báo tốc độ gió
(Ghaderi & cs., 2017; Yu & cs., 2019; Wu & cs.,
3.1. Bài toán dự báo tốc độ gió 2019). TþĄng tă nhĂng phþĄng pháp trên, nò
Nëng lþợng giò đã đþợc phát triển nhanh khai thác toàn bộ dĂ liệu không - thąi gian nhþ
chóng và ngày càng trć thành nëng lþợng tái dĂ liệu đæu vào cho thuêt toán dă đoán, sā dýng
täo quan trọng ć nhiều vùng trên thế giĆi, đặc Recurrent Neural Networks (RNN) và Long
biệt ć nhĂng nþĆc châu Âu (Lei & cs., 2009). Short Term Memory (LSTM) (Ghaderi & cs.,
Tích hợp nëng lþợng giò vào lþĆi điện trên diện 2017). PhþĄng pháp này vþợt trội các kết quâ
rộng là thiết yếu và nhiều thách thĀc do bân dă báo tốc độ gió gæn đåy. Tuy nhiên, tçt câ các
chçt ngéu nhiên cûa gió. Să tích hợp sẽ thuên phþĄng pháp trên đều không dăa vào cçu trúc
tiện hĄn nếu dă báo chính xác đþợc nëng lþợng không - thąi gian bên trong cûa dĂ liệu tốc
gió trong ngín hän (Ghaderi, 2017). Có nhiều độ giò, nhþ tính khâ tách cûa ma trên hiệp
hþĆng tiếp cên để dă đoán nëng lþợng gió, tuy phþĄng sai.
nhiên hþĆng tiếp cên dăa vào dă đoán tốc độ gió
vén đþợc xem là hþĆng tiếp cên nổi bêt nhçt 3.2. Mô tả dữ liệu
(Tascikaraoglu & cs., 2016). 3.2.1. Tập dữ liệu NCHMF
Nhiều phþĄng pháp dă báo tốc độ giò đþợc Têp dĂ liệu gió NCHMF tÿ trung tâm dă
đþa ra, cò thể chia làm 2 loäi: phþĄng pháp vêt báo khí tþợng thûy vën quốc gia Việt Nam đþợc
lý, và phþĄng pháp thống kê (Lei & cs., 2009). đo ć 13 träm thąi tiết Hà Giang, Cao Bìng,
PhþĄng pháp vêt lý khai thác nhiều thuộc tính Tuyên Quang, Hña Bình, Nam Đðnh, Hà Đông,
vêt lý nhþ đða hình, áp suçt, nhiệt độ, có lợi thế Phú Liễn, Läng SĄn, Bãi Cháy, Tiên Yên, Mòng
trong dă báo tốc độ gió dài hän. PhþĄng pháp Cái, Bäch Long Vï, Hội Xuân. NhĂng träm này
thống kê thþąng dăa vào giá trð lðch sā, nhþ mô ć miền bíc Việt Nam vĆi kinh độ tÿ 104.044220
hình ARMA, và thþąng cho kết quâ tốt trong dă đến 107.848208, vï độ tÿ 20.020846 đến
báo tốc độ gió ngín hän. Bài báo này têp trung 22.401052, nhþ trong hình 3. Tốc độ gió ć träm
vào dă báo tốc độ gió ngín hän dăa vào dĂ liệu Bäch Long Vï thay đổi nhanh và không ổn đðnh
tốc độ gió lðch sā. nhþ các träm khác khác. DĂ liệu quan sát tÿ
Mô hình ARMA và một số trþąng hợp đặc ngày 01/10/2016 đến 01/01/2019. Tốc độ giò đþợc
biệt nhþ mô hình AR, mô hình Persistence rçt đo ba gią một læn.
447
Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió
Hình 3. Vị trí trạm khí tượng đo tốc độ gió
của Trung tâm Dự báo khí tượng thủy văn quốc gia Việt Nam
Hình 4. Vị trí trạm đo dữ liệu tốc độ gió METAR
3.2.2. Tập dữ liệu METAR 3.3. Kết quả ứng dụng two-step LR
Têp dĂ liệu tốc độ gió hàng gią METAR TþĄng tă two-step LDA (Nguyen Hoang
đþợc thu thêp tÿ các báo cáo thąi tiết täi 57 Huy & cs., 2014), two-step LR xác đðnh các
câng sân bay ć bą biển phía đông Hoa Kỳ, bao nhòm con đặc trþng gồm tçt câ các đặc trþng täi
gồm Massachusetts, Connecticut, New York, mỗi thąi điểm. Chúng tôi cüng không áp dýng
New Hampshire. Hình 4 cho thçy vð trí cûa các bçt kỳ kỹ thuêt học máy nào nhþ chînh hòa để
câng sân bay này. Dçu đó là sân bay ACK, nìm nâng cao hiệu nëng cûa hồi quy tuyến tính đþợc
trên một hñn đâo. Tốc độ gió ć đâo đò thay đổi thăc hiện ć mỗi bþĆc. Do đò không cò să thiết
rçt nhanh, tþĄng tă nhþ nhĂng gì ć träm thąi lêp siêu tham số nào khác cûa two-step LR. HĄn
tiết Bäch Long Vï cûa Việt Nam, một trong 13 nĂa độ phĀc täp tính toán cûa two-step LR
träm thąi tiết ć hình 3. Tốc độ gió tÿ 06/01/2014 giâm đi do chî áp dýng hồi quy tuyến tính trên
đến 20/02/2014 đþợc sā dýng để kiểm tra hiệu mỗi nhòm con đặc trþng.
nëng cûa các phþĄng pháp học máy đþợc nghiên Bâng 1 so sánh hiệu suçt cûa phþĄng pháp
cĀu. Đåy là thąi điểm, tốc độ gió không ổn đðnh đþợc chúng tôi đþa ra vĆi các phþĄng pháp khác
hĄn tçt câ các khoâng thąi gian khác. trên têp dĂ liệu METAR. Để so sánh sai số cûa
448
Nguyễn Hoàng Huy, Hoàng Thị Thanh Giang
các phþĄng pháp, chúng tôi sā dýng ba độ đo có thể thçy hiệu nëng dă đoán trên ACK hoặc
thông dýng là MAE, RMSE và NRMSE. Trong tçt câ các träm cûa two-step LR trội hĄn DL-
thā nghiệm này chúng tôi chọn l = 12, h = 6 theo STF, phþĄng pháp tốt nhçt hiện nay.
Ghaderi (2017), đåy là tham số cho hiệu nëng Hình 5 biểu diễn dĂ liệu tốc độ gió thăc tế
tốt nhçt cûa DL-STF trên têp dĂ liệu METAR. (đþąng màu xanh) và tốc độ gió dă đoán (đþąng
Lăa chọn l = 12, h = 6 cò nghïa là two-step LR màu đó) tÿ dĂ liệu kiểm tra trên 16 träm quan
và các phþĄng pháp khác sā dýng d = 684 = 57 × sát. Đồ thð đæu tiên trong hình Āng vĆi träm
12 giá trð quan tríc (đặc trþng) tÿ 57 träm và 12 quan sát ć câng sân bay ACK.
thąi điểm (gią) trþĆc đò để dă đoán giá trð tốc độ Trong têp dĂ liệu NCHMF, có 3 giá trð tốc
gió trong 6 gią tiếp theo. Chúng tôi sā dýng dĂ độ gió bð thiếu và chúng tôi đã thay thế chúng
liệu tốc độ gió tÿ 6.012 gią liên tiếp (250,5 ngày), bìng giá trð tốc độ giò đo täi thąi điểm trþĆc đò
hình thành 6.000 méu huçn luyện để học mô (3 tiếng trþĆc), ć cùng träm. Bâng 3 biểu diễn
hình dă báo và các méu kiểm tra là tốc độ gió hiệu nëng cûa DL-STF và two-step LR khi sā
trong giai đoän không ổn đðnh nhçt tÿ dýng tçt câ dĂ liệu tÿ 13 träm thąi tiết vĆi
06/01/2014 đến 20/02/2014 nhþ đã nêu trong bài l = 12, h = 6. Bìng cách này thì DL-STF và two-
báo cûa Ghaderi & cs. (2017). Cý thể hĄn về các step LR có thể khai thác tçt câ các thông tin
phþĄng pháp khác đþợc trình bày cý thể trong tþĄng tác èn giĂa các träm. Qua bâng 3, chúng
các bài báo cûa Sanandaji & cs. (2015) và ta có thể thçy two-step LR có hiệu nëng dă báo
Tascikaraoglu & cs. (2016). tốc độ gió tốt hĄn hoặc bìng phþĄng pháp đang
Bâng 2 trình bày 3 sai số trung bình cûa tçt cho kết quâ tốt nhçt hiện nay là DL-STF, xem
câ các träm trên têp dĂ liệu METAR. Chúng ta bài báo Ghaderi & cs. (2017).
Bảng 1. Sai số của các phương pháp khác nhau trên trạm ACK
Method MAE (m/s) RMSE (m/s) NRMSE (%)
Persistence Forecasting 2,14 2,83 16,86
AR of order 1 2,07 2,76 16,44
AR of order 3 2,07 2,76 16,40
WT-ANN 1,82 2,47 14,68
ANN-based ST 1,80 2,30 13,69
LS-based ST 1,72 2,20 13,08
DL-STF 1,63 2,19 13,08
Two-Step LR 1,40 1,93 11,48
Bảng 2. Sai số trung bình trên tất cả các trạm sử dụng DL-STF, two-step LR
Method MAE (m/s) RMSE (m/s) NRMSE (%)
DL-STF 1,18 1,62 16,28
Two-Step LR 1,09 1,44 14,32
Bảng 3. Sai số trung bình của DL-STF và Two-Step LR trên trạm Bạch Long Vĩ và cả 13 trạm
Method Locations MAE (m/s) RMSE (m/s) NRMSE (%)
DL-STF Bach Long Vi 1,70 2,36 13,86
All Stations 0,82 1,16 19,09
Two-Step LR Bach Long Vi 1,67 2,27 13,34
All Stations 0,82 1,07 18,04
449
Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió
Hình 5. So sánh giữa tốc độ gió thực tế và dự báo trên dữ liệu kiểm tra
Bickel P.J. & Levina E. (2004). Some theory for
4. KẾT LUẬN Fisher’s linear discriminant function, ‘naive
Bayes’, and some alternatives when there are many
Hiệu suçt cûa hồi quy tuyến tính bð ânh
more variables than observations. Bernoulli.
hþćng bći số chiều. Để giâi quyết vçn đề này, 10(6): 989-1010.
chúng tôi giĆi thiệu phþĄng pháp áp dýng hồi
Bickel P.J. & Levina E. (2008). Covariance
quy tuyến tính trong hai bþĆc, đþợc gọi là two- regularization by thresholding. The Annals of
step LR. HþĆng tiếp cên này đþợc gợi ý tÿ two- Statistics. 36: 2577-2604.
step LDA và tính khâ tách cûa ma trên hiệp Cai T. & Liu W. (2011). A direct estimation approach
phþĄng sai cûa dĂ liệu tốc độ gió. VĆi dĂ liệu tốc to sparse linear discriminant analysis. Journal
độ gió có số chiều cao trung bình, hiệu nëng cûa of the American Statistical Association.
cách tiếp cên này tốt hĄn các phþĄng pháp mĆi 106(496): 1566-1577.
nhçt. Ngày nay, có nhiều phþĄng pháp điều Cai T. & Zhang L. (2019). High dimensional linear
chînh hồi quy tuyến tính cho dĂ liệu có số chiều discriminant analysis: optimality, adaptive
cao nhþ là hồi quy Lasso và các câi tiến cûa nó. algorithm and missing data. Journal of the Royal
Tuy nhiên, vĆi hiểu biết cûa tôi, các thuêt toán đò Statistical Society: Series B (Statistical
Methodology). 81(4): 675-705.
chþa đþợc thā nghiệm cho dă báo tốc độ gió.
Trong tþĄng lai, hþĆng tiếp cên hai bþĆc sā dýng Genton M.G. (2007). Separable approximation of
space-time covariance matrices. Environmetrics.
nhĂng thuêt toán này nên đþợc khâo sát tî mî.
18: 681-695.
Ghaderi A., Sanandaji B. M. & Ghaderi F. (2017).
TÀI LIỆU THAM KHẢO Deep forecast: Deep learning-based spatio-
temporal forecasting. 34th ICML Time Series
Bali V., Kumar A. & Gangwar S. (2019). Deep
Workshop. Sydney, Australia.
Learning based Wind Speed Forecasting-A
Review. 9th International Conference on Cloud Hastie T., Tibshirani R. & Friedman J. (2009). The
Computing, Data Science & Engineering Elements of Statistical Learning: DataMining,
(Confluence). India. pp. 426-431. Inference, and Prediction. Springer Series in
Bai Z., Li H. & Pan G. (2019). Central limit theorem Statistics, Springer-Verlag.
for linear spectral statistics of large dimensional Hastie T., Tibshirani R. & Wainwright M. (2015).
separable sample covariance matrices. Bernoulli. Statistical Learning with Sparsity: The Lasso and
25(3): 1838-1869. Generalizations. Chapman & Hall/CRC Press.
450
Nguyễn Hoàng Huy, Hoàng Thị Thanh Giang
Huizenga H.M., De Munck J.C., Waldorp L.J. & Sanandaji B.M., Tascikaraoglu A., Poolla K. &
Grasman R.P.P.P. (2002). Spatiotemporal Varaiya P. (2015). Low dimensional models in
EEG/MEG source analysis based on a parametric spatio-temporal wind speed forecasting.
noise covariance model. IEEE Transactions on American Control Conference. Chicago, USA.
Biomedical Engineering. 49: 533-539. pp. 4485-4490.
Huy N.H., Frenzel S. & Bandt C. (2014). Two-step Tascikaraoglu A. & Uzunoglu M. (2014). A review of
linear discriminant analysis for classification of combined approaches for prediction of short-term
eeg data. In M. Spiliopoulou, L. Schmidt-Thieme wind speed and power. Renewable and Sustainable
and R. Janning, editors, Data Analysis, Machine Energy Reviews. 34: 243-254.
Learning and Knowledge Discovery. Springer,
Tascikaraoglu A., Sanandaji B. M., Poolla K. &
Cham. pp. 41-50.
Varaiya P. (2016). Exploiting sparsity of inter-
Lei M., Shiyan L., Chuanwen J., Hongling L. & Yan Z. connections in spatio-temporal wind speed
(2009). A review on the forecasting of wind speed forecasting using wavelet transform. Applied
and generated power. Renewable and Sustainable
Energy. 165 (1): 735-747.
Energy Reviews. 13: 915-920.
Yu R., Gao J., Yu M., Lu W., Xu T., Zhao M., Zhang
Lei L., Bickel P.J., Karoui N.E. (2018). Asymptotics
for high dimensional regression M-estimates: fixed J., Zhang R. & Zhang Z. (2019). LSTM-EFG for
design results. Probability Theory and Related wind power forecasting based on sequential
Fields. 172 (3-4): 983-1079. correlation features. Future Generation Computer
Systems. 93: 33-42.
Leiva R. & Roy A. (2014). Classification of Higher-
order Data with Separable Covariance and Wu Y.X., Wu Q. B. & Zhu J.Q. (2019). Data-driven
Structured Multiplicative or Additive Mean wind speed forecasting using deep feature
Models. Communications in Statistics - Theory extraction and LSTM. IET Renewable Power
and Methods. 43(5): 989-1012. Generation. 13(12): 2062-2069.
451 File đính kèm:
huong_tiep_can_hoi_quy_moi_cho_du_bao_toc_do_gio.pdf

