So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều

Chuỗi thời gian chứa các giá trị thiếu xảy ra trong hầu hết mọi lĩnh vực khoa học ứng dụng. Bỏ qua các giá trị

thiếu có thể dẫn đến giảm hiệu năng của hệ thống và kết quả không đáng tin cậy, đặc biệt là khi dữ liệu mất theo

khoảng lớn. Do đó, xử lý dữ liệu thiếu là một bước rất quan trọng để thực hiện các công việc tiếp như phân lớp,

phân tích dữ liệu. Bài viết này trước tiên nhằm giới thiệu các phương pháp xử lý dữ liệu thiếu. Tiếp theo một

framework cho phép điền đầy dữ liệu mất mát cho chuỗi thời gian đơn biến được xây dựng. Cuối cùng, chúng tôi

thực hiện so sánh hiệu suất của các phương pháp ước lượng giá trị thiếu trên ba chuỗi dữ liệu thời gian thực sử

dụng bốn chỉ số đánh giá. Thông qua kết quả thử nghiệm, phương pháp DTWBI và eDTWBI đạt được kết quả vượt

trội hơn các phương pháp khác khi dữ liệu có tính chất mùa vụ và không có thành phần xu hướng, trong khi đó thì

na.interp tốt hơn các phương pháp khi dữ liệu có cả hai tính chất mùa vụ và xu hướng.

So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều trang 1

Trang 1

So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều trang 2

Trang 2

So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều trang 3

Trang 3

So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều trang 4

Trang 4

So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều trang 5

Trang 5

So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều trang 6

Trang 6

So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều trang 7

Trang 7

So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều trang 8

Trang 8

So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều trang 9

Trang 9

So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều trang 10

Trang 10

pdf 10 trang duykhanh 4340
Bạn đang xem tài liệu "So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều

So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều
115 574 
 5 1/2/2008 1 118 556 
 6 1/2/2008 7 116 546 
 7 1/2/2008 13 116 546 
 8 1/2/2008 19 116 546 
 9 1/3/2008 1 118 556 
 10 1/3/2008 7 118 556 
 Bảng 6. Kết quả điền đầy giá trị thiếu sử dụng phương pháp nội suy 
 STT Ngày Giờ Mực nước Lưu lượng 
 1 1/1/2008 1 130 612 
 2 1/1/2008 7 112 577 
 3 1/1/2008 13 115 542 
 4 1/1/2008 19 116.5 574 
 5 1/2/2008 1 118 556 
456 
 Phan Thị Thu Hồng 
 Hình 1. (1) Xây dựng cửa sổ Q trước dữ liệu thiếu; 
 (2) Dịch chuyển từng cửa sổ để tìm các cửa sổ tương tự với cửa sổ Q; 
 (3) Chọn cửa sổ tương tự nhất Qs với cửa sổ Q; 
 (4) Thay thế giá trị thiếu bằng giá trị cửa sổ Qfs 
2.2.4. Các phương pháp ước lượng giá trị eDTWBI là phþĄng pháp mć rộng cûa 
 phþĄng pháp DTWBI. Hình 2 mô tâ các bþĆc þĆc 
thiếu trực tiếp dựa vào dữ liệu có sẵn 
 lþợng giá trð thiếu trên chuỗi dĂ liệu thąi gian 
 - PhþĄng pháp DTWBI (Phan & cs., 2017) đĄn biến. Ở phþĄng pháp này, vĆi mỗi khoâng 
 PhþĄng pháp này cho phép điền đæy khoâng trống dĂ liệu, dĂ liệu trþĆc và dĂ liệu sau khoâng 
dĂ liệu thiếu lĆn cûa dĂ liệu chuỗi thąi gian đĄn trống này đþợc xem xét nhþ hai chuỗi dĂ liệu 
biến. Hình 1 mô tâ các bþĆc thăc hiện þĆc lþợng thąi gian riêng biệt. Tÿ đò phþĄng pháp DTWBI 
giá trð thiếu cûa thuêt toán DTWBI. PhþĄng đþợc áp dýng trên tÿng chuỗi dĂ liệu đĄn lẻ để 
pháp này thay thế khoâng giá trð thiếu bìng þĆc tính vector giá trð thiếu. Kết quâ cuối cùng để 
cách tìm chuỗi con tþĄng tă nhçt (Qs, ③-Hình điền đæy khoâng trống dĂ liệu là giá trð trung 
1) vĆi chuỗi con trþĆc (hoặc sau) các giá trð bð bình cûa 2 vector þĆc tính trþĆc đò. 
thiếu (Q - ①-Hình 1), sau đò lçp đæy khoâng dĂ 
liệu trống bìng cách sao chép chuỗi con ngay 3. THỰC NGHIỆM 
sau (tþĄng Āng ngay trþĆc) chuỗi con tþĄng tă 
tiếp (Qfs - ④-Hình 1 ). Để tìm ra các chuỗi con 3.1. Miêu tả dữ liệu 
tþĄng tă vĆi cāa sổ Q, tÿng cāa sổ (cùng kích Chúng tôi phân tích 3 bộ dĂ liệu để đánh 
thþĆc vĆi vĆi cāa sổ Q) đþợc dðch chuyển trên giá hiệu suçt phþĄng pháp điền đæy giá trð 
chuỗi dĂ liệu (②-Hình 1) để tìm ra các chuỗi thiếu. Trong đò cò bộ dĂ liệu Khách hàng hàng 
tþĄng tă vĆi Q dăa trên độ tþĄng tă toàn cýc không (Airpassenger) đến tÿ gói R-TSA (Chan 
(Phan & cs., 2016) và độ tþĄng tă cýc bộ DTW & Ripley, 2018). Bộ dĂ liệu này đþợc chọn vì 
(Sakoe và Chiba, 1978). Sau đò, Qs, chuỗi cò độ chúng thþąng đþợc sā dýng trong các tài liệu 
khác biệt ít nhçt đþợc chọn ra tÿ têp các chuỗi nghiên cĀu. Ngoài ra, chúng tôi cüng chọn thêm 
tþĄng tă vÿa tìm đþợc. hai bộ dĂ liệu khác đến tÿ lïnh văc khác nhau ć 
 - PhþĄng pháp eDTWBI (Phan & cs., 2020) nhĂng đða điểm khác nhau bao gồm: 
 457 
So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều 
 Hình 2. (1) Xây dựng cửa sổ Qb, Qa trước và sau dữ liệu thiếu; 
 (2) Dịch chuyển từng cửa sổ để tìm các cửa sổ tương tự 
 với cửa sổ Q trên dữ liệu trước và sau dữ liệu thiếu; 
 (3) Chọn cửa sổ tương tự nhất Qbs và Qas với cửa sổ Q; 
 (4) Thay thế giá trị thiếu bằng giá trị trung bình cửa sổ trước Qbs và sau cửa sổ Qas 
 - Khách hàng hàng không (Airpassenger): BþĆc 1: DĂ liệu thiếu giâ lêp đþợc täo ra 
Số khách hàng trung bình đi máy bay hàng bìng cách xòa các phån đoän (gồm các giá trð 
tháng. DĂ liệu đþợc thu thêp tÿ tháng 1/1960 liên tiếp) khói mỗi chuỗi thąi gian vĆi kích thþĆc 
đến tháng 12/1971. khác nhau. 
 - Nhiệt độ không khí Phù Liễn BþĆc 2: Sā dýng các thuêt toán điền đæy để 
(Temperature): Bộ dĂ liệu này bao gồm nhiệt độ þĆc tính các giá trð thiếu. 
không khí trung bình hàng tháng täi träm 
 BþĆc 3: Đánh giá hiệu quâ cûa các phþĄng 
khí tþợng Phù Liễn täi Việt Nam tÿ 1/1961 
 pháp điền đæy giá trð thiếu. 
đến 12/2014. 
 Ở đåy, chúng tôi thăc hiện täo 5 mĀc dĂ 
 - Măc nþĆc täi träm Hþng Yên (Water 
 liệu thiếu trên 3 bộ dĂ liệu. Đối vĆi bộ dĂ liệu 
level): Bộ dĂ liệu măc nþĆc hàng gią đþợc thu 
 khách hàng hàng không, và nhiệt độ không khí 
thêp täi träm Hþng Yên tÿ 1/1/2008 đến 
30/04/2008 (2904 bân ghi). Phù Liễn, kích thþĆc dĂ liệu thiếu læn lþợt là 
 6%, 7,5%, 10%, 12,5% và 15% chiều dài bộ dĂ 
3.2. Các bước tiến hành thực nghiệm liệu. Đối vĆi bộ dĂ liệu măc nþĆc Hþng Yên, đåy 
 là một têp dĂ liệu khá lĆn, do đò, các khoâng 
 Trên thăc tế, việc đánh giá hiệu suçt cûa 
 trống đþợc täo ra vĆi kích thþĆc 3%, 3,75%, 5%, 
các phþĄng pháp điền đæy dĂ liệu không thể 
 6,25% và 7,5% chiều dài bộ dĂ liệu. 
thăc hiện đþợc do các giá trð thăc bð thiếu. Vì 
vêy, chúng ta phâi täo dĂ liệu thiếu giâ lêp trên 
 3.3. Các chỉ số đánh giá hiệu suất 
chuỗi thąi gian đæy đû để so sánh khâ nëng cûa 
các phþĄng pháp þĆc lþợng giá trð thiếu. Trong Sau khi thăc hiện điền đæy các giá trð thiếu, 
nghiên cĀu này, một kỹ thuêt gồm ba bþĆc đþợc chúng tôi đánh giá hiệu suçt cûa phþĄng pháp 
sā dýng để tiến hành các thí nghiệm đþợc mô tâ cûa dăa trên bốn chî số khác nhau đþợc mô tâ 
chi tiết nhþ sau: nhþ sau: 
458 
 Phan Thị Thu Hồng 
 - Độ tþĄng tă (Similarity) - Sim (y, x) cho trð quan sát cuối (na.locf, Zeileis & 
biết độ tþĄng tă nhau giĂa giá trð thăc (x) và giá Grothendieck, 2018), phþĄng pháp thay thế bći 
trð þĆc lþợng (y) đþợc tính bći công thĀc sau: giá trð trung bình (na.aggregate, Zeileis & 
 11T Grothendieck, 2018), phþĄng pháp DTWBI 
 Sim y,x  (Phan & cs., 2017), và eDTWBI (Phan & cs., 
 T i1 yx 
 1 ii 2020). Bâng 7 trình bày kết quâ trung bình cûa 
 max x min x các phþĄng pháp điền đæy giá trð thiếu ć trên áp 
 Trong đò, T là kích thþĆc dĂ liệu thiếu, độ dýng trên 3 bộ dĂ liệu sā dýng 4 tiêu chí để 
tþĄng tă nìm trong [0,1]. Độ tþĄng tă cao hĄn đánh giá kết quâ: độ tþĄng tă (Sim), NMAE, 
cho thçy phþĄng pháp điền đæy dĂ liệu thiếu có RMSE, FSD. Các kết quâ tốt nhçt cho mỗi tỷ lệ 
khâ nëng þĆc lþợng giá trð thiếu tốt hĄn. thiếu dĂ liệu đþợc in đêm. NhĂng kết quâ này 
 cho thçy eDTWBI có khâ nëng þĆc lþợng dĂ liệu 
 - NMAE (Normalized Mean Absolute 
 thiếu tốt hĄn nhĂng phþĄng pháp điền đæy dĂ 
Error): Sai số tuyệt đối trung bình chuèn hóa 
 liệu thiếu trong bài báo này. 
giĂa giá trð thăc (x) và giá trð þĆc lþợng (y) đþợc 
tính nhþ sau: Hai bộ dĂ liệu nhiệt độ Phù Liễn và măc 
 nþĆc Hþng Yên cò đặc điểm là chî có thành 
 T yx
 1 ii 
 NMAE y,x phæn mùa vý mà không có thành phæn xu 
 TVV
 i1 max min hþĆng. Trên hai bộ dĂ liệu này, chúng ta thçy 
 rìng eDTWBI cho giá trð lĆn nhçt về độ tþĄng 
 Trong đò, Vmax, Vmin là giá trð max và min 
 tă (Sim), giá trð nhó nhçt ć mĀc độ sai số 
cûa chuỗi thąi gian ban đæu. Kết quâ NMAE 
 (NMAE và RMSE) ć hæu hết các mĀc dĂ liệu 
nhó hĄn cho thçy phþĄng pháp điền đæy dĂ liệu 
 thiếu. Điều này cho thçy giá trð þĆc lþợng dĂ 
thiếu cho kết quâ sát vĆi giá trð thăc hĄn. 
 liệu thiếu sinh bći phþĄng pháp eDTWBI là gæn 
 - RMSE (Root Mean Square Error): Lỗi 
 vĆi giá trð thăc. FSD là chî số so sánh hình dáng 
trung bình bình phþĄng giĂa giá trð thăc (x) và 
 cûa dĂ liệu dă đoán và dĂ liệu thăc. Ở chî số 
giá trð þĆc lþợng (y) đþợc đðnh nghïa nhþ sau: 
 FSD, so vĆi các chî số so sánh đðnh lþợng thì 
 1 T 2 eDTWBI không còn cho kết quâ tốt nhþ nhĂng 
 RMSE y,x y x 
  ii 
 T i1 chî số nhþ Sim, NMAE và RMSE, nó chî cho kết 
 quâ tốt ć một số mĀc dĂ liệu thiếu trên bộ dĂ 
 Chî số này rçt hĂu ích để đo độ chính xác 
 liệu măc nþĆc Hþng Yên (3%, 3,75% và 6,25%). 
tổng thể cûa phþĄng pháp þĆc tính dĂ liệu 
 Ở các mĀc dĂ liệu thiếu còn läi trên bộ dĂ liệu 
thiếu. PhþĄng pháp hiệu quâ hĄn khi giá trð 
 măc nþĆc Hþng Yên và trên toàn bộ các khoâng 
RMSE thçp hĄn. 
 dĂ liệu cûa bộ dĂ liệu nhiệt độ Phù Liễn, 
 - FSD (Fractional Standard Deviation): Tỷ phþĄng pháp eDTWBI đĀng sau DTWBI. 
lệ lệch chuèn nhau giĂa giá trð thăc (x) và giá 
 Bộ dĂ liệu khách hàng hàng không vÿa có 
trð þĆc lþợng (y) đþợc tính bći công thĀc: 
 tính chçt mùa vý, vÿa cò xu hþĆng tëng dæn. 
 SD y SD x Hai phþĄng pháp DTWBI và eDTWBI hoät động 
 FSD y,x 2 * tốt vĆi giâ thuyết tồn täi “méu” (pattern) ć vð trí 
 SD y SD x
 nào đò trên dĂ liệu, nên hai phþĄng pháp này 
 Tỷ lệ này cho biết liệu một phþĄng pháp xā chî cho kết tốt hĄn các phþĄng pháp khác ć 
lý dĂ liệu thiếu cò đþợc chçp nhên hay không? nhĂng mĀc dĂ liệu thiếu nhó trên bộ dĂ liệu 
Giá trð cûa FSD càng gæn 0 thì các giá trð þĆc này. Ở nhĂng khoâng dĂ liệu thiếu lĆn hĄn, 
lþợng càng gæn vĆi giá trð thăc. na.interp là phþĄng pháp nội suy kết hợp vĆi xā 
 lý tính chçt mùa vý cûa dĂ liệu, cho kết quâ tốt 
 hĄn ć các chî số Sim, NMAE, và RMSE. Mặc dù 
4. KẾT QUẢ VÀ THẢO LUẬN 
 vêy, ć chî số so sánh hình dáng cûa dĂ liệu dă 
 Chúng tôi tiến hành so sánh hiệu nëng cûa đoán, DTWBI vén chĀng tó đþợc thế mänh cûa 
các phþĄng pháp nội suy (na.interp, Hyndman mình khi kết quâ chî số FSD có giá trð nhó nhçt 
& Khandakar, 2008), phþĄng pháp sā dýng giá täi 4/5 mĀc dĂ liệu thiếu. 
 459 
So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều 
 Bảng 7. Kết quả so sánh các phương pháp điền đầy dữ liệu thiếu trên 3 bộ dữ liệu 
 Kích Khách hàng hàng không Nhiệt độ Phù Liễn Kích Mực nước Hưng Yên 
 Phương pháp 
 thước Sim NMAE RMSE FSD Sim NMAE RMSE FSD thước Sim NMAE RMSE FSD 
 DTWBI 6% 0,73 0,07 45,39 0,26 0,88 0,11 2,43 0,04 3% 0,78 0,13 27,89 0,30 
 eDTWBI 0,81 0,04 28,01 0,11 0,93 0,06 1,35 0,07 0,83 0,10 20,12 0,30 
 na,interp 0,75 0,06 34,17 0,86 0,79 0,22 4,94 1,30 0,80 0,12 26,03 0,54 
 na,locf 0,75 0,06 38,38 2 0,78 0,24 5,28 2 0,79 0,12 25,93 2 
 na,aggregate 0,56 0,14 75,70 2 0,79 0,21 4,27 2 0,79 0,13 26,17 2 
 DTWBI 7,50% 0,81 0,06 37,13 0,10 0,89 0,11 2,44 0,06 3,75% 0,81 0,15 27,89 0,13 
 eDTWBI 0,85 0,04 21,97 0,21 0,89 0,10 2,22 0,04 0,81 0,14 27,70 0,11 
 na,interp 0,78 0,07 41,69 1,33 0,79 0,25 5,41 1,19 0,82 0,13 27,49 0,87 
 na,locf 0,80 0,06 40,33 2 0,79 0,25 5,42 2 0,78 0,17 34,24 2 
 na,aggregate 0,64 0,13 77,82 2 0,79 0,22 4,49 2 0,77 0,19 37,78 2 
 DTWBI 10% 0,73 0,11 67,03 0,12 0,90 0,10 2,21 0,02 5% 0,84 0,13 27,26 0,14 
 eDTWBI 0,80 0,07 45,00 0,41 0,92 0,07 1,72 0,04 0,85 0,11 24,52 0,61 
 na,interp 0,81 0,07 42,26 1,01 0,79 0,24 4,96 0,91 0,84 0,12 25,83 0,73 
 na,locf 0,78 0,08 51,19 2 0,79 0,25 5,71 2 0,80 0,17 36,23 2 
 na,aggregate 0,71 0,12 70,35 2 0,80 0,22 4,48 2 0,83 0,14 29,11 2 
 DTWBI 12,5% 0,69 0,17 105,81 0,30 0,88 0,11 2,61 0,07 6,25% 0,83 0,14 29,08 0,22 
 eDTWBI 0,81 0,10 64,38 0,42 0,90 0,09 2,08 0,09 0,85 0,12 24,91 0,22 
 na,interp 0,81 0,09 61,30 1,59 0,79 0,25 5,52 1,03 0,80 0,17 35,92 0,99 
 na,locf 0,82 0,09 60,18 2 0,75 0,31 6,71 2 0,76 0,23 47,90 2 
 na,aggregate 0,76 0,13 79,64 2 0,79 0,22 4,46 2 0,83 0,15 31,35 2 
 DTWBI 15% 0,74 0,14 80,65 0,28 0,89 0,11 2,53 0,06 7,5% 0,87 0,11 23,98 0,14 
 eDTWBI 0,77 0,13 72,32 0,25 0,91 0,08 1,95 0,10 0,89 0,10 20,28 0,18 
 na,interp 0,83 0,09 62,29 1,17 0,78 0,26 5,87 1,38 0,84 0,15 31,57 1,44 
 na,locf 0,80 0,11 76,09 2 0,79 0,26 5,97 2 0,82 0,18 36,76 2 
 na,aggregate 0,70 0,19 114,63 2 0,80 0,22 4,38 2 0,84 0,15 30,99 2 
460 
 Phan Thị Thu Hồng 
 Horton N.J. & Kleinman K.P. (2007). Much Ado 
5. KẾT LUẬN About Nothing: A Comparison of Missing Data 
 Methods and Software to Fit Incomplete Data 
 Trong bài viết này, chúng tôi đã trình bày Regression Models. American Statistical 
các hþĆng tiếp cên xā lý dĂ liệu thiếu cho dĂ Association. 61. 79-90. 
liệu chuỗi thąi gian một chiều bao gồm hai Hyndman R. & Khandakar Y. (2008). Automatic time 
nhòm phþĄng pháp: i) Nhòm phþĄng pháp bó series forecasting: the forecast package for R., used 
qua dĂ liệu thiếu và ii) Nhòm phþĄng pháp þĆc package in 2020. J. Stat. Softw. pp. 1-22. 
lþợng giá trð thiếu. Kết quâ thăc nghiệm trên 3 Little R.J.A. & Rubin D.B. (2014). Statistical Analysis 
 with Missing Data. John Wiley & Sons. Google-
bộ dĂ liệu thăc tế cho thçy, phþĄng pháp 
 Books-ID: AyVeBAAAQBAJ. 
eDTWBI và DTWBI cho kết quâ þĆc lþợng khá 
 Moritz S., Sardá A., Bartz-Beielstein T., Zaefferer M. 
chính xác trong trþąng hợp dĂ liệu có tính chçt & Stork J. (2015). Comparison of different 
mùa vý nhþng không cò xu hþĆng. PhþĄng pháp Methods for Univariate Time Series Imputation in 
na.interp cho kết quâ dă báo tốt hĄn trong R. arXivpreprint arXiv:1510.03924. 
trþąng hợp dĂ liệu vÿa có tính chçt mùa vý và Molenberghs G., Fitzmaurice G., Kenward M.G., 
cò xu hþĆng. BþĆc tiếp theo chúng tôi dă đðnh sẽ Verbeke G. & Tsiatis A. (2014). Handbook of 
 missing data methodology. CRC Press. 
tiếp týc mć rộng nghiên cĀu này cho dĂ liệu 
 Phan T.T.H., Caillault E.P. & Bigand A. (2016). 
chuỗi thąi gian nhiều chiều. 
 Comparative study on supervised learning methods 
 for identifying phytoplankton species, in 2016 
 TÀI LIỆU THAM KHẢO IEEE Sixth International Conference on 
 Communications and Electronics (ICCE). pp. 283-
Allison P.D. (2001). Missing Data, Quantitative 288, doi: 10.1109/CCE.2016.7562650. 
 Applications in the Social Sciences, 136. Sage Phan T.T.H., Poisson Caillault E., Lefebvre A. & 
 Publication. Bigand A. (2017). Dynamic Time Warping-based 
Buuren S. & Groothuis-Oudshoorn K. (2011). Mice: imputation for univariate time series data, Pattern 
 Multivariate imputation by chained equations in R. Recognition Letters. 
 Journal of statistical software. 45(3). Rousseeuw K., Caillault ÉP., Lefebvre A. & Hamad D. 
Bishop C.M. (2006). Pattern Recognition and Machine (2013). Monitoring system of phytoplankton 
 Learning (Information Science and Statistics). blooms by using unsupervised classifier and time 
 Springer-Verlag New York, Inc., Secaucus, modeling. In 2013 IEEE International Geoscience 
 NJ, USA. and Remote Sensing Symposium - IGARSS. 
Chan K.S. & Ripley B. (2020). TSA: Time Series pp. 3962-3965. 
 Analysis. R package version 1.3. Retrieved from Stekhoven D.J. & Bühlmann P. (2012). MissForest-
 https://CRAN.R-project.org/package=TSA, on non-parametric missing value imputation for 
 March 10, 2020. mixed-type data. Bioinformatics. 28(1): 112-118. 
Crawford S.L., Tennstedt S.L. & McKinlay J.B. Sterne J.A.C., White I.R., Carlin J.B., Spratt M., Royston 
 (1995). A comparison of anlaytic methods for non- P., Kenward M.G., Wood A.M. & Carpenter J.R. 
 random missingness of outcome data. J. Clin. (2009). Multiple imputation for missing data in 
 Epidemiol. 48(2): 209-219. epidemiological and clinical research: potential and 
Dong Y. & Peng J. (2013). Principled missing data pitfalls. BMJ (Clin. Resear. ed.). 
 methods for researchers. SpringerPlus. 2: 222. Sakoe H. & Chiba S. (1978). Dynamic Programming 
Gelman A. & Hill J. (2006). Data Analysis Using Algorithm Optimization for Spoken Word 
 Regression and Multilevel/Hierarchical Models, Recognition. IEEE Transactions On Acoustics, 
 Cambridge University Press. Speech, And Signal Processing. 16: 43-49. 
Ghosh S. & Pahwa P. (2008). Assessing bias associated Zeileis A. & Gabor Grothendieck (2005). zoo: S3 
 with missing data from joint Canada/U.S. survey infrastructure for regular and irregular time series. 
 of health: An application, JSM Biometrics. Journal of Statistical Software. 14(6): 1-27. 
 461 

File đính kèm:

  • pdfso_sanh_mot_so_phuong_phap_xu_ly_du_lieu_thieu_cho_chuoi_du.pdf