So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều
Chuỗi thời gian chứa các giá trị thiếu xảy ra trong hầu hết mọi lĩnh vực khoa học ứng dụng. Bỏ qua các giá trị
thiếu có thể dẫn đến giảm hiệu năng của hệ thống và kết quả không đáng tin cậy, đặc biệt là khi dữ liệu mất theo
khoảng lớn. Do đó, xử lý dữ liệu thiếu là một bước rất quan trọng để thực hiện các công việc tiếp như phân lớp,
phân tích dữ liệu. Bài viết này trước tiên nhằm giới thiệu các phương pháp xử lý dữ liệu thiếu. Tiếp theo một
framework cho phép điền đầy dữ liệu mất mát cho chuỗi thời gian đơn biến được xây dựng. Cuối cùng, chúng tôi
thực hiện so sánh hiệu suất của các phương pháp ước lượng giá trị thiếu trên ba chuỗi dữ liệu thời gian thực sử
dụng bốn chỉ số đánh giá. Thông qua kết quả thử nghiệm, phương pháp DTWBI và eDTWBI đạt được kết quả vượt
trội hơn các phương pháp khác khi dữ liệu có tính chất mùa vụ và không có thành phần xu hướng, trong khi đó thì
na.interp tốt hơn các phương pháp khi dữ liệu có cả hai tính chất mùa vụ và xu hướng.
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tóm tắt nội dung tài liệu: So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều
115 574 5 1/2/2008 1 118 556 6 1/2/2008 7 116 546 7 1/2/2008 13 116 546 8 1/2/2008 19 116 546 9 1/3/2008 1 118 556 10 1/3/2008 7 118 556 Bảng 6. Kết quả điền đầy giá trị thiếu sử dụng phương pháp nội suy STT Ngày Giờ Mực nước Lưu lượng 1 1/1/2008 1 130 612 2 1/1/2008 7 112 577 3 1/1/2008 13 115 542 4 1/1/2008 19 116.5 574 5 1/2/2008 1 118 556 456 Phan Thị Thu Hồng Hình 1. (1) Xây dựng cửa sổ Q trước dữ liệu thiếu; (2) Dịch chuyển từng cửa sổ để tìm các cửa sổ tương tự với cửa sổ Q; (3) Chọn cửa sổ tương tự nhất Qs với cửa sổ Q; (4) Thay thế giá trị thiếu bằng giá trị cửa sổ Qfs 2.2.4. Các phương pháp ước lượng giá trị eDTWBI là phþĄng pháp mć rộng cûa phþĄng pháp DTWBI. Hình 2 mô tâ các bþĆc þĆc thiếu trực tiếp dựa vào dữ liệu có sẵn lþợng giá trð thiếu trên chuỗi dĂ liệu thąi gian - PhþĄng pháp DTWBI (Phan & cs., 2017) đĄn biến. Ở phþĄng pháp này, vĆi mỗi khoâng PhþĄng pháp này cho phép điền đæy khoâng trống dĂ liệu, dĂ liệu trþĆc và dĂ liệu sau khoâng dĂ liệu thiếu lĆn cûa dĂ liệu chuỗi thąi gian đĄn trống này đþợc xem xét nhþ hai chuỗi dĂ liệu biến. Hình 1 mô tâ các bþĆc thăc hiện þĆc lþợng thąi gian riêng biệt. Tÿ đò phþĄng pháp DTWBI giá trð thiếu cûa thuêt toán DTWBI. PhþĄng đþợc áp dýng trên tÿng chuỗi dĂ liệu đĄn lẻ để pháp này thay thế khoâng giá trð thiếu bìng þĆc tính vector giá trð thiếu. Kết quâ cuối cùng để cách tìm chuỗi con tþĄng tă nhçt (Qs, ③-Hình điền đæy khoâng trống dĂ liệu là giá trð trung 1) vĆi chuỗi con trþĆc (hoặc sau) các giá trð bð bình cûa 2 vector þĆc tính trþĆc đò. thiếu (Q - ①-Hình 1), sau đò lçp đæy khoâng dĂ liệu trống bìng cách sao chép chuỗi con ngay 3. THỰC NGHIỆM sau (tþĄng Āng ngay trþĆc) chuỗi con tþĄng tă tiếp (Qfs - ④-Hình 1 ). Để tìm ra các chuỗi con 3.1. Miêu tả dữ liệu tþĄng tă vĆi cāa sổ Q, tÿng cāa sổ (cùng kích Chúng tôi phân tích 3 bộ dĂ liệu để đánh thþĆc vĆi vĆi cāa sổ Q) đþợc dðch chuyển trên giá hiệu suçt phþĄng pháp điền đæy giá trð chuỗi dĂ liệu (②-Hình 1) để tìm ra các chuỗi thiếu. Trong đò cò bộ dĂ liệu Khách hàng hàng tþĄng tă vĆi Q dăa trên độ tþĄng tă toàn cýc không (Airpassenger) đến tÿ gói R-TSA (Chan (Phan & cs., 2016) và độ tþĄng tă cýc bộ DTW & Ripley, 2018). Bộ dĂ liệu này đþợc chọn vì (Sakoe và Chiba, 1978). Sau đò, Qs, chuỗi cò độ chúng thþąng đþợc sā dýng trong các tài liệu khác biệt ít nhçt đþợc chọn ra tÿ têp các chuỗi nghiên cĀu. Ngoài ra, chúng tôi cüng chọn thêm tþĄng tă vÿa tìm đþợc. hai bộ dĂ liệu khác đến tÿ lïnh văc khác nhau ć - PhþĄng pháp eDTWBI (Phan & cs., 2020) nhĂng đða điểm khác nhau bao gồm: 457 So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều Hình 2. (1) Xây dựng cửa sổ Qb, Qa trước và sau dữ liệu thiếu; (2) Dịch chuyển từng cửa sổ để tìm các cửa sổ tương tự với cửa sổ Q trên dữ liệu trước và sau dữ liệu thiếu; (3) Chọn cửa sổ tương tự nhất Qbs và Qas với cửa sổ Q; (4) Thay thế giá trị thiếu bằng giá trị trung bình cửa sổ trước Qbs và sau cửa sổ Qas - Khách hàng hàng không (Airpassenger): BþĆc 1: DĂ liệu thiếu giâ lêp đþợc täo ra Số khách hàng trung bình đi máy bay hàng bìng cách xòa các phån đoän (gồm các giá trð tháng. DĂ liệu đþợc thu thêp tÿ tháng 1/1960 liên tiếp) khói mỗi chuỗi thąi gian vĆi kích thþĆc đến tháng 12/1971. khác nhau. - Nhiệt độ không khí Phù Liễn BþĆc 2: Sā dýng các thuêt toán điền đæy để (Temperature): Bộ dĂ liệu này bao gồm nhiệt độ þĆc tính các giá trð thiếu. không khí trung bình hàng tháng täi träm BþĆc 3: Đánh giá hiệu quâ cûa các phþĄng khí tþợng Phù Liễn täi Việt Nam tÿ 1/1961 pháp điền đæy giá trð thiếu. đến 12/2014. Ở đåy, chúng tôi thăc hiện täo 5 mĀc dĂ - Măc nþĆc täi träm Hþng Yên (Water liệu thiếu trên 3 bộ dĂ liệu. Đối vĆi bộ dĂ liệu level): Bộ dĂ liệu măc nþĆc hàng gią đþợc thu khách hàng hàng không, và nhiệt độ không khí thêp täi träm Hþng Yên tÿ 1/1/2008 đến 30/04/2008 (2904 bân ghi). Phù Liễn, kích thþĆc dĂ liệu thiếu læn lþợt là 6%, 7,5%, 10%, 12,5% và 15% chiều dài bộ dĂ 3.2. Các bước tiến hành thực nghiệm liệu. Đối vĆi bộ dĂ liệu măc nþĆc Hþng Yên, đåy là một têp dĂ liệu khá lĆn, do đò, các khoâng Trên thăc tế, việc đánh giá hiệu suçt cûa trống đþợc täo ra vĆi kích thþĆc 3%, 3,75%, 5%, các phþĄng pháp điền đæy dĂ liệu không thể 6,25% và 7,5% chiều dài bộ dĂ liệu. thăc hiện đþợc do các giá trð thăc bð thiếu. Vì vêy, chúng ta phâi täo dĂ liệu thiếu giâ lêp trên 3.3. Các chỉ số đánh giá hiệu suất chuỗi thąi gian đæy đû để so sánh khâ nëng cûa các phþĄng pháp þĆc lþợng giá trð thiếu. Trong Sau khi thăc hiện điền đæy các giá trð thiếu, nghiên cĀu này, một kỹ thuêt gồm ba bþĆc đþợc chúng tôi đánh giá hiệu suçt cûa phþĄng pháp sā dýng để tiến hành các thí nghiệm đþợc mô tâ cûa dăa trên bốn chî số khác nhau đþợc mô tâ chi tiết nhþ sau: nhþ sau: 458 Phan Thị Thu Hồng - Độ tþĄng tă (Similarity) - Sim (y, x) cho trð quan sát cuối (na.locf, Zeileis & biết độ tþĄng tă nhau giĂa giá trð thăc (x) và giá Grothendieck, 2018), phþĄng pháp thay thế bći trð þĆc lþợng (y) đþợc tính bći công thĀc sau: giá trð trung bình (na.aggregate, Zeileis & 11T Grothendieck, 2018), phþĄng pháp DTWBI Sim y,x (Phan & cs., 2017), và eDTWBI (Phan & cs., T i1 yx 1 ii 2020). Bâng 7 trình bày kết quâ trung bình cûa max x min x các phþĄng pháp điền đæy giá trð thiếu ć trên áp Trong đò, T là kích thþĆc dĂ liệu thiếu, độ dýng trên 3 bộ dĂ liệu sā dýng 4 tiêu chí để tþĄng tă nìm trong [0,1]. Độ tþĄng tă cao hĄn đánh giá kết quâ: độ tþĄng tă (Sim), NMAE, cho thçy phþĄng pháp điền đæy dĂ liệu thiếu có RMSE, FSD. Các kết quâ tốt nhçt cho mỗi tỷ lệ khâ nëng þĆc lþợng giá trð thiếu tốt hĄn. thiếu dĂ liệu đþợc in đêm. NhĂng kết quâ này cho thçy eDTWBI có khâ nëng þĆc lþợng dĂ liệu - NMAE (Normalized Mean Absolute thiếu tốt hĄn nhĂng phþĄng pháp điền đæy dĂ Error): Sai số tuyệt đối trung bình chuèn hóa liệu thiếu trong bài báo này. giĂa giá trð thăc (x) và giá trð þĆc lþợng (y) đþợc tính nhþ sau: Hai bộ dĂ liệu nhiệt độ Phù Liễn và măc nþĆc Hþng Yên cò đặc điểm là chî có thành T yx 1 ii NMAE y,x phæn mùa vý mà không có thành phæn xu TVV i1 max min hþĆng. Trên hai bộ dĂ liệu này, chúng ta thçy rìng eDTWBI cho giá trð lĆn nhçt về độ tþĄng Trong đò, Vmax, Vmin là giá trð max và min tă (Sim), giá trð nhó nhçt ć mĀc độ sai số cûa chuỗi thąi gian ban đæu. Kết quâ NMAE (NMAE và RMSE) ć hæu hết các mĀc dĂ liệu nhó hĄn cho thçy phþĄng pháp điền đæy dĂ liệu thiếu. Điều này cho thçy giá trð þĆc lþợng dĂ thiếu cho kết quâ sát vĆi giá trð thăc hĄn. liệu thiếu sinh bći phþĄng pháp eDTWBI là gæn - RMSE (Root Mean Square Error): Lỗi vĆi giá trð thăc. FSD là chî số so sánh hình dáng trung bình bình phþĄng giĂa giá trð thăc (x) và cûa dĂ liệu dă đoán và dĂ liệu thăc. Ở chî số giá trð þĆc lþợng (y) đþợc đðnh nghïa nhþ sau: FSD, so vĆi các chî số so sánh đðnh lþợng thì 1 T 2 eDTWBI không còn cho kết quâ tốt nhþ nhĂng RMSE y,x y x ii T i1 chî số nhþ Sim, NMAE và RMSE, nó chî cho kết quâ tốt ć một số mĀc dĂ liệu thiếu trên bộ dĂ Chî số này rçt hĂu ích để đo độ chính xác liệu măc nþĆc Hþng Yên (3%, 3,75% và 6,25%). tổng thể cûa phþĄng pháp þĆc tính dĂ liệu Ở các mĀc dĂ liệu thiếu còn läi trên bộ dĂ liệu thiếu. PhþĄng pháp hiệu quâ hĄn khi giá trð măc nþĆc Hþng Yên và trên toàn bộ các khoâng RMSE thçp hĄn. dĂ liệu cûa bộ dĂ liệu nhiệt độ Phù Liễn, - FSD (Fractional Standard Deviation): Tỷ phþĄng pháp eDTWBI đĀng sau DTWBI. lệ lệch chuèn nhau giĂa giá trð thăc (x) và giá Bộ dĂ liệu khách hàng hàng không vÿa có trð þĆc lþợng (y) đþợc tính bći công thĀc: tính chçt mùa vý, vÿa cò xu hþĆng tëng dæn. SD y SD x Hai phþĄng pháp DTWBI và eDTWBI hoät động FSD y,x 2 * tốt vĆi giâ thuyết tồn täi “méu” (pattern) ć vð trí SD y SD x nào đò trên dĂ liệu, nên hai phþĄng pháp này Tỷ lệ này cho biết liệu một phþĄng pháp xā chî cho kết tốt hĄn các phþĄng pháp khác ć lý dĂ liệu thiếu cò đþợc chçp nhên hay không? nhĂng mĀc dĂ liệu thiếu nhó trên bộ dĂ liệu Giá trð cûa FSD càng gæn 0 thì các giá trð þĆc này. Ở nhĂng khoâng dĂ liệu thiếu lĆn hĄn, lþợng càng gæn vĆi giá trð thăc. na.interp là phþĄng pháp nội suy kết hợp vĆi xā lý tính chçt mùa vý cûa dĂ liệu, cho kết quâ tốt hĄn ć các chî số Sim, NMAE, và RMSE. Mặc dù 4. KẾT QUẢ VÀ THẢO LUẬN vêy, ć chî số so sánh hình dáng cûa dĂ liệu dă Chúng tôi tiến hành so sánh hiệu nëng cûa đoán, DTWBI vén chĀng tó đþợc thế mänh cûa các phþĄng pháp nội suy (na.interp, Hyndman mình khi kết quâ chî số FSD có giá trð nhó nhçt & Khandakar, 2008), phþĄng pháp sā dýng giá täi 4/5 mĀc dĂ liệu thiếu. 459 So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều Bảng 7. Kết quả so sánh các phương pháp điền đầy dữ liệu thiếu trên 3 bộ dữ liệu Kích Khách hàng hàng không Nhiệt độ Phù Liễn Kích Mực nước Hưng Yên Phương pháp thước Sim NMAE RMSE FSD Sim NMAE RMSE FSD thước Sim NMAE RMSE FSD DTWBI 6% 0,73 0,07 45,39 0,26 0,88 0,11 2,43 0,04 3% 0,78 0,13 27,89 0,30 eDTWBI 0,81 0,04 28,01 0,11 0,93 0,06 1,35 0,07 0,83 0,10 20,12 0,30 na,interp 0,75 0,06 34,17 0,86 0,79 0,22 4,94 1,30 0,80 0,12 26,03 0,54 na,locf 0,75 0,06 38,38 2 0,78 0,24 5,28 2 0,79 0,12 25,93 2 na,aggregate 0,56 0,14 75,70 2 0,79 0,21 4,27 2 0,79 0,13 26,17 2 DTWBI 7,50% 0,81 0,06 37,13 0,10 0,89 0,11 2,44 0,06 3,75% 0,81 0,15 27,89 0,13 eDTWBI 0,85 0,04 21,97 0,21 0,89 0,10 2,22 0,04 0,81 0,14 27,70 0,11 na,interp 0,78 0,07 41,69 1,33 0,79 0,25 5,41 1,19 0,82 0,13 27,49 0,87 na,locf 0,80 0,06 40,33 2 0,79 0,25 5,42 2 0,78 0,17 34,24 2 na,aggregate 0,64 0,13 77,82 2 0,79 0,22 4,49 2 0,77 0,19 37,78 2 DTWBI 10% 0,73 0,11 67,03 0,12 0,90 0,10 2,21 0,02 5% 0,84 0,13 27,26 0,14 eDTWBI 0,80 0,07 45,00 0,41 0,92 0,07 1,72 0,04 0,85 0,11 24,52 0,61 na,interp 0,81 0,07 42,26 1,01 0,79 0,24 4,96 0,91 0,84 0,12 25,83 0,73 na,locf 0,78 0,08 51,19 2 0,79 0,25 5,71 2 0,80 0,17 36,23 2 na,aggregate 0,71 0,12 70,35 2 0,80 0,22 4,48 2 0,83 0,14 29,11 2 DTWBI 12,5% 0,69 0,17 105,81 0,30 0,88 0,11 2,61 0,07 6,25% 0,83 0,14 29,08 0,22 eDTWBI 0,81 0,10 64,38 0,42 0,90 0,09 2,08 0,09 0,85 0,12 24,91 0,22 na,interp 0,81 0,09 61,30 1,59 0,79 0,25 5,52 1,03 0,80 0,17 35,92 0,99 na,locf 0,82 0,09 60,18 2 0,75 0,31 6,71 2 0,76 0,23 47,90 2 na,aggregate 0,76 0,13 79,64 2 0,79 0,22 4,46 2 0,83 0,15 31,35 2 DTWBI 15% 0,74 0,14 80,65 0,28 0,89 0,11 2,53 0,06 7,5% 0,87 0,11 23,98 0,14 eDTWBI 0,77 0,13 72,32 0,25 0,91 0,08 1,95 0,10 0,89 0,10 20,28 0,18 na,interp 0,83 0,09 62,29 1,17 0,78 0,26 5,87 1,38 0,84 0,15 31,57 1,44 na,locf 0,80 0,11 76,09 2 0,79 0,26 5,97 2 0,82 0,18 36,76 2 na,aggregate 0,70 0,19 114,63 2 0,80 0,22 4,38 2 0,84 0,15 30,99 2 460 Phan Thị Thu Hồng Horton N.J. & Kleinman K.P. (2007). Much Ado 5. KẾT LUẬN About Nothing: A Comparison of Missing Data Methods and Software to Fit Incomplete Data Trong bài viết này, chúng tôi đã trình bày Regression Models. American Statistical các hþĆng tiếp cên xā lý dĂ liệu thiếu cho dĂ Association. 61. 79-90. liệu chuỗi thąi gian một chiều bao gồm hai Hyndman R. & Khandakar Y. (2008). Automatic time nhòm phþĄng pháp: i) Nhòm phþĄng pháp bó series forecasting: the forecast package for R., used qua dĂ liệu thiếu và ii) Nhòm phþĄng pháp þĆc package in 2020. J. Stat. Softw. pp. 1-22. lþợng giá trð thiếu. Kết quâ thăc nghiệm trên 3 Little R.J.A. & Rubin D.B. (2014). Statistical Analysis with Missing Data. John Wiley & Sons. Google- bộ dĂ liệu thăc tế cho thçy, phþĄng pháp Books-ID: AyVeBAAAQBAJ. eDTWBI và DTWBI cho kết quâ þĆc lþợng khá Moritz S., Sardá A., Bartz-Beielstein T., Zaefferer M. chính xác trong trþąng hợp dĂ liệu có tính chçt & Stork J. (2015). Comparison of different mùa vý nhþng không cò xu hþĆng. PhþĄng pháp Methods for Univariate Time Series Imputation in na.interp cho kết quâ dă báo tốt hĄn trong R. arXivpreprint arXiv:1510.03924. trþąng hợp dĂ liệu vÿa có tính chçt mùa vý và Molenberghs G., Fitzmaurice G., Kenward M.G., cò xu hþĆng. BþĆc tiếp theo chúng tôi dă đðnh sẽ Verbeke G. & Tsiatis A. (2014). Handbook of missing data methodology. CRC Press. tiếp týc mć rộng nghiên cĀu này cho dĂ liệu Phan T.T.H., Caillault E.P. & Bigand A. (2016). chuỗi thąi gian nhiều chiều. Comparative study on supervised learning methods for identifying phytoplankton species, in 2016 TÀI LIỆU THAM KHẢO IEEE Sixth International Conference on Communications and Electronics (ICCE). pp. 283- Allison P.D. (2001). Missing Data, Quantitative 288, doi: 10.1109/CCE.2016.7562650. Applications in the Social Sciences, 136. Sage Phan T.T.H., Poisson Caillault E., Lefebvre A. & Publication. Bigand A. (2017). Dynamic Time Warping-based Buuren S. & Groothuis-Oudshoorn K. (2011). Mice: imputation for univariate time series data, Pattern Multivariate imputation by chained equations in R. Recognition Letters. Journal of statistical software. 45(3). Rousseeuw K., Caillault ÉP., Lefebvre A. & Hamad D. Bishop C.M. (2006). Pattern Recognition and Machine (2013). Monitoring system of phytoplankton Learning (Information Science and Statistics). blooms by using unsupervised classifier and time Springer-Verlag New York, Inc., Secaucus, modeling. In 2013 IEEE International Geoscience NJ, USA. and Remote Sensing Symposium - IGARSS. Chan K.S. & Ripley B. (2020). TSA: Time Series pp. 3962-3965. Analysis. R package version 1.3. Retrieved from Stekhoven D.J. & Bühlmann P. (2012). MissForest- https://CRAN.R-project.org/package=TSA, on non-parametric missing value imputation for March 10, 2020. mixed-type data. Bioinformatics. 28(1): 112-118. Crawford S.L., Tennstedt S.L. & McKinlay J.B. Sterne J.A.C., White I.R., Carlin J.B., Spratt M., Royston (1995). A comparison of anlaytic methods for non- P., Kenward M.G., Wood A.M. & Carpenter J.R. random missingness of outcome data. J. Clin. (2009). Multiple imputation for missing data in Epidemiol. 48(2): 209-219. epidemiological and clinical research: potential and Dong Y. & Peng J. (2013). Principled missing data pitfalls. BMJ (Clin. Resear. ed.). methods for researchers. SpringerPlus. 2: 222. Sakoe H. & Chiba S. (1978). Dynamic Programming Gelman A. & Hill J. (2006). Data Analysis Using Algorithm Optimization for Spoken Word Regression and Multilevel/Hierarchical Models, Recognition. IEEE Transactions On Acoustics, Cambridge University Press. Speech, And Signal Processing. 16: 43-49. Ghosh S. & Pahwa P. (2008). Assessing bias associated Zeileis A. & Gabor Grothendieck (2005). zoo: S3 with missing data from joint Canada/U.S. survey infrastructure for regular and irregular time series. of health: An application, JSM Biometrics. Journal of Statistical Software. 14(6): 1-27. 461
File đính kèm:
- so_sanh_mot_so_phuong_phap_xu_ly_du_lieu_thieu_cho_chuoi_du.pdf