Ứng dụng máy học vector hỗ trợ SVM trong dự đoán cơn động kinh

Bệnh động kinh được xem là căn bệnh liên quan đến rối loạn trong não phổ biến thứ hai và ảnh

hưởng đến khoảng 1% dân số thế giới. Đặc trưng của động kinh là sự xuất hiện bất chợt và mất

kiểm soát của cơn co giật (cơn động kinh). Trong bài báo này, chúng tôi đề xuất một phương pháp

sử dụng máy học vector hỗ trợ SVM (Support Vector Machine) để dự đoán cơn động kinh dựa trên

các bản ghi tín hiệu điện não đồ EEG (Electroencephalography). Phương pháp này sử dụng các đặc

trưng đơn biến của tín hiệu EEG nhằm phân loại bốn trạng thái tín hiệu EEG (bình thường, tiền động

kinh, động kinh và sau động kinh). Việc dự đoán chính xác cơn động kinh phụ thuộc vào khả năng

nhận dạng/phân biệt trạng thái tiền động kinh (pre-ictal) với ba trạng thái còn lại. Các kết quả mô

phỏng với cơ sở dữ liệu động kinh của Đại học Freiburg cho thấy tính hữu dụng của phương pháp

đề xuất.

Ứng dụng máy học vector hỗ trợ SVM trong dự đoán cơn động kinh trang 1

Trang 1

Ứng dụng máy học vector hỗ trợ SVM trong dự đoán cơn động kinh trang 2

Trang 2

Ứng dụng máy học vector hỗ trợ SVM trong dự đoán cơn động kinh trang 3

Trang 3

Ứng dụng máy học vector hỗ trợ SVM trong dự đoán cơn động kinh trang 4

Trang 4

Ứng dụng máy học vector hỗ trợ SVM trong dự đoán cơn động kinh trang 5

Trang 5

Ứng dụng máy học vector hỗ trợ SVM trong dự đoán cơn động kinh trang 6

Trang 6

Ứng dụng máy học vector hỗ trợ SVM trong dự đoán cơn động kinh trang 7

Trang 7

Ứng dụng máy học vector hỗ trợ SVM trong dự đoán cơn động kinh trang 8

Trang 8

Ứng dụng máy học vector hỗ trợ SVM trong dự đoán cơn động kinh trang 9

Trang 9

Ứng dụng máy học vector hỗ trợ SVM trong dự đoán cơn động kinh trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 12 trang duykhanh 16520
Bạn đang xem 10 trang mẫu của tài liệu "Ứng dụng máy học vector hỗ trợ SVM trong dự đoán cơn động kinh", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Ứng dụng máy học vector hỗ trợ SVM trong dự đoán cơn động kinh

Ứng dụng máy học vector hỗ trợ SVM trong dự đoán cơn động kinh
g dùng cho bài 
toán SVM đa lớp: Một đối một, một đối 
phần còn lại và chiến lược phân cấp. 
Trong trường hợp này, kỹ thuật một đối 
một (one-against-one) được sử dụng [9]. 
Kỹ thuật này được mô tả như sau: 
Với mỗi cặp lớp phân loại, cần xây dựng 
một máy phân lớp nhị phân, mỗi máy 
phân lớp được huấn luyện trên một tập 
con của tập huấn luyện mà tập con này 
chỉ chứa các mẫu huấn luyện của cặp 
lớpphân loại này. Như vậy, phải xây dựng 
tất cả k(k-1)/2 máy phân lớp nhị phân với 
k là số lớp (trường hợp này với 4 lớp 
trạng thái tín hiệu chúng ta cần 6 máy học 
SVM), các máy này được kết nối lại với 
nhau và thông qua phương pháp bỏ phiếu 
để đánh giá kết quả phân lớp cuối cùng, 
lớp nào có số phiếu cao nhất sẽ được chọn 
làm kết quả dự đoán (max-win). Chiến 
lược này được sử dụng trong hầu hết các 
phần mềm mã nguồn mở như SVMlight, 
LIBSVM, SVMTorch và HeroSvm. 
Trong đánh giá, đầu ra mạng SVM đa lớp 
là các nhãn (giá trị số) gán liên quan đến 
các vector đầu vào: 1 đối với inter-ictal, 2 
cho pre-ictal, 3 cho ictal và 4 cho post-
ictal. Tuy nhiên điều chúng ta quan tâm 
nhất trong dự đoán động kinh là phát hiện 
trạng thái tiền động kinh pre-ictal để tạo 
cảnh báo sớm về cơn động kinh sắp xảy 
ra, do đó nhãn 2 trở thành nhãn quan 
trọng nhất. 
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC 
(ISSN: 1859 - 4557) 
44 Số 21 
Quá trình tạo ra cảnh báo được thực hiện 
sau phân loại. Các SVM phân loại được 
“huấn luyện” dựa trên các mẫu học 
(learning). Một cách lý tưởng, thì các bộ 
phân loại SVM này (đã được huấn luyện 
tốt) sẽ phân loại chính xác tất cả các mẫu 
trong bộ dữ liệu kiểm tra (test) và do đó 
sẽ tạo ra được các đầu ra chính xác. Tuy 
nhiên, trên thực tế, một hệ thống phân loại 
sẽ không thể phân loại chính xác tuyết đối 
tất cả các mẫu. Do đó nếu các đầu ra này 
được sử dụng trực tiếp để dự đoán về cơn 
động kinh thì sẽ dẫn đến với các mẫu bị 
phân loại nhầm thành pre-ictal sẽ tạo ra 
cảnh báo sai về cơn động kinh. 
Để nâng cao chất lượng dự đoán, Teixeira 
et al. (2012) đưa ra một thủ tục tạo cảnh 
báo [10]. Do sai số phân loại, nên việc 
xuất hiện một khoảng thời gian với chuỗi 
nhãn phân loại toàn nhãn 2 (pre-ictal) là 
điều ít khi xảy ra, tuy nhiên trong các 
chuỗi nhãn nếu chuỗi nào có tần suất nhãn 
2 nhiều thì có thể xem là khoảng thời gian 
có dấu hiệu của trạng thái tiền động kinh. 
Trong bài báo, chúng tôi đề xuất giải pháp 
nếu trong một khoảng thời gian nào đó 
của bản ghi tín hiệu EEG (được xem là 
khoảng thời gian tiền động kinh, trong 
phần mô phỏng chúng tôi chọn khoảng 
thời gian này là 30 phút), nếu số lượng 
phân loại là pre-ictal (nhãn 2) vượt quá 
50% thì cảnh báo về khả năng sự xuất 
hiện của cơn động kinh ở thời điểm tương 
lai gần sẽ được đưa ra. 
4. KẾT QUẢ MÔ PHỎNG 
4.1. Các thông số mô phỏng 
4.1.1. Chọn kênh tín hiệu EEG 
Như đã giới thiệu trên trong 2.1, bộ 
CSDL của ĐH Freiburg gồm 18 bệnh 
nhân với tổng số khoảng 450 giờ ghi và 
79 cơn động kinh. Mỗi bản ghi gồm tín 
hiện của 27 kênh điện cực (hệ thống 10-
20) bao gồm: FT10, T10, TP10, F8, T4, 
T6, FP2, F4, C4, P4, O2, FPZ, FZ, CZ, 
PZ, OZ, FP1, F3, C3, P3, O1, F7, T3, T5, 
FT9, T9, TP9. Ngoài ra còn có 2 kênh 
dùng để ghi kèm dữ liệu tín hiệu điện tâm 
đồ ECG (Electrocardiagram) của người 
bệnh (hình 4). 
Hình 4. Một phần bản ghi dữ liệu của một bệnh 
nhân trong CSDL Freiburg với 27 kênh tín hiệu 
EEG và 2 kênh tín hiệu ECG (trong đó các vị trí 
EEG_ON và EEG-OFF đánh dấu vị trí bắt đầu và 
kết thúc một cơn động kinh) 
Trên thực tế, việc sử dụng tín hiệu ở tất cả 
các kênh (27 kênh) sẽ dẫn đến khối lượng 
tính toán cực lớn. Ngoài ra việc sử dụng 
nhiều kênh tín hiệu cũng đồng nghĩa với 
việc người bệnh phải gắn nhiều điện cực 
trên người (trong trường hợp sử dụng các 
thiết bị cầm tay phát hiện sớm động kinh). 
Điều này sẽ gây ra sự bất tiện cho các 
bệnh nhân. Do đó trong phần thực 
nghiệm, chúng tôi chỉ sử dụng tổ hợp gồm 
6 kênh tín hiệu (để nghiên cứu) nhằm phát 
hiện sớm cơn động kinh. Sáu kênh tín 
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC 
(ISSN: 1859 - 4557) 
Số 21 45 
hiệu được chọn theo tiêu chí bao phủ 
không gian. Sáu kênh tín hiệu được chọn 
gồm: F7, FZ, F8, T5, PZ và T6 cho cái 
nhìn không quan tổng quan về trạng thái 
não bệnh nhân. Theo tiêu chuẩn hệ thống 
vị trí đặt điện cực 10-20 của quốc tế thì vị 
trí đo F7, FZ, F8, T5, PZ và T6 bao phủ 
các khu vực phía trước, giữa và vùng thái 
dương. 
4.1.2. Chọn đặc trưng tín hiệu 
Chúng ta sử dụng một cửa sở trượt 5s để 
trích chọn đặc trưng cho 6 kênh tín hiệu 
EEG đã được chọn, mỗi cửa sổ 5s này 
được xem là một mẫu phân loại thuộc một 
trong 4 trạng thái (inter-ictal, pre-ictal, 
ictal, post-ictal). 
Do sử dụng đặc trưng đơn biến gồm 22 
đặc trưng (mục 3.1), mỗi mẫu cần phân 
loại (cửa sổ 5s của 6 kênh) sẽ có 132 giá 
trị đặc trưng. Như vậy đầu vào của mạng 
phân loại sẽ là các vector (mẫu) 132 
chiều. 
4.2. Kết quả mô phỏng và đánh giá 
4.2.1. Bộ dữ liệu học và kiểm tra 
Bộ CSDL EEG được chia làm hai phần: 
bộ dữ liệu học, còn gọi là huấn luyện 
(learning) và kiểm tra (testing). Bộ dữ liệu 
học gồm khoảng 250 giờ ghi và 48 cơn 
động kinh được sử dụng để tối ưu các 
thông số của hệ thống phân loại (SVM đa 
lớp) trong khi bộ dữ liệu kiểm tra (gồm 
khoảng 200 giờ ghi và 31 cơn động kinh 
còn lại, không được dùng trong quá trình 
học) được sử dụng để kiểm tra tính hiệu 
quả của bộ phân loại đã được thiết kế từ 
quá trình học. 
4.2.2. Một số kết quả mô phỏng và 
thảo luận 
Ở đây chúng ta tiến hành đánh giá dựa 
trên bộ dữ liệu EEG của sáu kênh tín hiệu 
(F7, FZ, F8, T5, PZ và T6) với khoảng 
thời gian pre-ictal được chọn là 30 phút 
trước cơn động kinh, post-ictal được chọn 
là 10 phút sau cơn động kinh. 
Trường hợp nếu xác định được trạng thái 
tiền động kinh (pre-ictal) và cơn động 
kinh xuất hiện trong khoảng thời gian sau 
cảnh báo ta sẽ có một dự đoán dương tính 
thật TP (True Positive) còn nếu không 
xuất hiện cơn ta sẽ có một dự đoán dương 
tính giả FP (False Positive). Khi trạng thái 
tiền động kinh (pre-ictal) không được xác 
định nhưng có cơn động kinh xuất hiện ta 
sẽ có một dự đoán âm tính giả FN (False 
Negative). Trong trường hợp này TP được 
xem là cảnh báo đúng còn FP và FN là 
các cảnh báo sai. 
Để đánh giá kết quả ta sử dụng khái niệm 
độ nhạy (SS-Sensitivity) và tỷ lệ đoán sai 
(FPR/h- False Prediction per hour)[11]. 
SS được định nghĩa là tỷ lệ giữa số cơn 
dự đoán được/tổng số cơn động kinh 
trong bản ghi của người bệnh. Trong khi 
FPR/h được định nghĩa: 
1 False AlarmFPRh
Hours of Testing seizures preictal time
 (1) 
là tỷ lệ giữa số cảnh báo sai/ lượng thời 
gian hữu dụng. 
Trong đó cảnh báo sai xuất hiện trong 
trường hợp có FP và FN (có cảnh báo 
nhưng không có cơn động kinh và không 
có cảnh báo nhưng lại xuất hiện cơn động 
kinh). Để xác định lượng thời gian hữu 
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC 
(ISSN: 1859 - 4557) 
46 Số 21 
dụng chúng ta lấy tổng số thời gian bản 
ghi tín hiệu EEG của người bệnh trừ đi 
tổng số thời gian dùng tạo cảnh báo (bằng 
số cơn động kinh nhân với khoảng thời 
gian pre-ictal được chọn) [11]. 
Về mặt lý thuyết kết quả thu được sẽ tối 
ưu (tuyệt đối) nhất khi đạt giá trị 
SS=100% và FPR/h=0 và trên thực tế 
chúng ta mong muốn một kết quả thu 
được với giá trị SS cao và FPR/h thấp. 
Kết quả (tốt nhất) đối với bộ dữ liệu học 
chúng ta thu được tỷ lệ phát hiện cơn 
động kinh là 39/48 cơn, đạt tỷ lệ 81,25 %. 
Dựa trên thông số đã học, chúng ta tiến 
hành thử nghiệm trên bộ dữ liệu test. Kết 
quả thu được tỷ lệ phát hiện cơn là 21/31 
cơn, đạt tỷ lệ 67,74 %. Hình vẽ 5 thể hiện 
tỷ lệ phát hiện cơn đông kinh của các 
bệnh nhân trong bộ CSDL của Đại học 
Freiburg với tỷ lệ trung bình (cả quá trình 
học và test) là 75,9%. Điều này cho thấy 
khả năng ứng dụng triển vọng của phương 
pháp đề xuất trong bài báo. Trong mô 
phỏng này, không có các cảnh báo sai 
dương tính giả FP-False Positive (có cảnh 
báo nhưng không xuất hiện cơn động 
kinh). Trong bộ dữ liệu kiểm tra, với 10 
cơn không nhận diện được, chúng ta có số 
cảnh báo sai tương ứng với 10 dự đoán 
âm tính giả FN và tỷ lệ FPR/h (đối với dữ 
liệu kiểm tra) đạt được là 0,055. Việc 
không có cảnh báo sai dương tính giả FP 
và tỷ lệ FPR/h rất thấp cũng là một kết 
quả hạn chế của bài báo do số lượng bệnh 
nhân, số cơn và loại (vị trí ổ bệnh) động 
kinh trong CSDL được đánh giá chưa 
nhiều và đa dạng. 
Mặc dù không có một tỷ lệ cụ thể chung 
về giá trị SS tối thiểu hay FPR cực đại 
dùng để đánh giá đối với các thuật toán, 
Teixeira et al. 2014 [11] đã đưa ra tỷ lệ dự 
đoán chấp nhận được (để ứng dụng trong 
y tế) là phải dự đoán được (đúng) ít nhất 
50% số cơn động kinh (SS>50%) và tỷ lệ 
cảnh báo sai không quá 1 lần trong 
khoảng thời gian 6 giờ (FPR/h<0,15) đối 
với từng người bệnh. Trên thực tế, các 
nghiên cứu khoa học gần đây nhất chưa 
có công trình nào đạt được tỷ lệ dự đoán 
này (cho cả hai thông số đánh giá) khi 
đánh giá dựa trên một CSDL động kinh 
đủ lớn. 
Hình 5. Tỷ lệ phát hiện cơn động kinh của từng 
bệnh nhân trong bộ CSDL Freiburg 
Trong nghiên cứu gần đây của Teixeira et 
al. 2014 [11], một đánh giá (thuât toán sử 
dụng các đặc trưng đơn biến và SVM đa 
lớp) trên 278 bệnh nhân được đưa ra. 
CSDL này bao gồm các bản ghi thời gian 
dài (gồm các bản ghi trung bình khoảng 
70, 78 và 94 giờ) với xấp xỉ 22.291 giờ 
ghi và tổng cộng 1.519 cơn động kinh ở 
rất nhiều vị trí ổ bệnh khác nhau (thái 
dương-temporal, phía trước-frontal, chính 
giữa-central, thùy chẩm-occipital và thùy 
đỉnh-parietal). Ưu điểm của tín hiệu EEG 
thời lượng dài và liên tục là chứa khoảng 
thời lượng dài đoạn tín hiệu bình thường 
(inter-ictal). Điều đó rất quan trọng, đặc 
biệt khi dùng để đánh giá chính xác về tỷ 
lệ các cảnh báo sai. Kết quả tối ưu nhất 
trong [11] thu được là 32% số người bệnh 
có kết quả dự đoán chấp nhận được 
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC 
(ISSN: 1859 - 4557) 
Số 21 47 
(SS>50% và FPR/h <0,15 cho từng người 
bệnh). 
5. KẾT LUẬN 
Bài báo đã đưa ra một phương pháp dự 
đoán trước cơn động kinh sử dụng máy 
học vector hỗ trợ SVM đa lớp và các đặc 
trưng đơn biến của 6 kênh tín hiệu EEG 
gồm F7, FZ, F8, T5, PZ và T6. Mặc dù 
việc mô phỏng mới chỉ được đánh giá trên 
một bộ CSDL động kinh bị giới hạn (chỉ 
với 18 bệnh nhân) nhưng với kết quả cho 
phép dự đoán trước cơn động kinh với tỷ 
lệ chính xác cao SS=67,74% đã cho thấy 
khả năng triển vọng của phương pháp dự 
đoán sớm cơn động kinh được đề xuất 
trong bài báo. 
LỜI CẢM ƠN 
Các tác giả bài báo xin trân thành cảm ơn sự 
hỗ trợ kinh phí nghiên cứu khoa học của Bộ 
Giáo dục và Đào tạo thông qua đề tài cấp Bộ 
mã số B2017-MHN.01. 
TÀI LIỆU THAM KHẢO 
[1] Yadollahahpour A. and Jalilifar M. (2014) “Seizure Prediction Methods: A review of the Curent 
Predicting Techniques,” Biomedical & Pharmacology, vol.7(1), 153-162, 2014. 
[2] Teixeira C.A. et al., (2011) “EPILAB: A software package for studies on the prediction of epileptic 
seizures,” Journal of Neuroscience Methods, vol. 200, no. 2, pp. 257-271, Jul. 2011. 
[3]  
[4] Mormann F., Andrzejak R.G., Elger C.E., and Lehnertz K., (2007) “Seizure prediction: the long 
and winding road.,” Brain: a journal of neurology, vol. 130, no. 2, pp. 314-33, Feb. 2007. 
[5] Direito, B.; Duarte, J.; Teixeira, C. A; Schelter, B.; Le Van Q. M; Schulze-Bonhage, A.; Sales, F.; 
Dourado, A.. (2011) "Feature selection in high dimensional EEG features spaces for epileptic 
seizure prediction", IFAC Proceedings Volumes (IFAC-PapersOnline) 18, PART 1: 6206 - 62. 
[6] Feldwisch-Drentrup H, Staniek M, Schulze-Bonhage A, Timmer J, Dickten H, Elger CE, Schelter B, 
Lehnertz K.(2011) “Identification of preseizure states in epilepsy: a data-driven approach for 
multichannel EEG recordings, “ Front Comput Neurosci 2011;5(0). 
[7] Jalil Rasekhi, Mohammad Reza Karami Mollaei, Mojtaba Bandarabadi, Cesar A Teixeira, Antonio 
Dourado (2013)“Preprocessing effects of 22 linear univariate features on the performance of 
seizure prediction methods” Neurosci Methods 2013 Jul 6;217(1-2):9-16. Epub 2013 Dec 6. 
[8] Cortes C. and Vapnik V., (1995) “Support-vector networks,” Machine Learning, vol. 20, no. 3, pp. 
273-297, 1995. 
[9] Hsu, C.W., and C.-J. Lin, (2002) “A Comparison of Methods for Multi-Class Support Vector 
Machines” IEEE Trans. Neural Netw., 13, 415 - 425, 2002. 
[10] Teixeira C., Direito B., Bandarabadi M., Dourado A. (2012) “Output regularization of SVM seizure 
predictors: Kalman Filter versus the "Firing Power" method,”Conf Proc IEEE Eng Med Biol Soc. 
2012;2012:6530-3 
[11] Teixeira C., Direito B., Quyen L. V. Micheal, Dourado A. (2014), “Epileptic seizure predictor based 
on computational intelligence techniques: A comparative study with 278 patients” Computer 
methods and programs in biomedicine, May 2014. 
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC 
(ISSN: 1859 - 4557) 
48 Số 21 
Giới thiệu tác giả: 
Tác giả Nguyễn Văn Sơn tốt nghiệp đại học chuyên ngành điện tử viễn thông, nhận 
bằng Thạc sĩ chuyên ngành kỹ thuật điện tử năm 2010 tại Trường Đại học Mở Hà 
Nội. Hiện nay tác giả là giảng viên của Khoa Công nghệ điện tử - thông tin, Trường 
Đại học Mở Hà Nội. 
Lĩnh vực nghiên cứu: điện tử viễn thông, xử lý thông tin và tín hiệu. 
Tác giả Vương Hoàng Nam tốt nghiệp đại học ngành điện tử viễn thông năm 2003, 
nhận bằng Thạc sĩ và bằng Tiến sĩ ngành kỹ thuật viễn thông năm 2006 và 2013 
tại Trường Đại học Bách khoa Hà Nội. Hiện nay tác giả là giảng viên Bộ môn Hệ 
thống viễn thông, Viện Điện tử viễn thông, Trường Đại học Bách khoa Hà Nội. 
Lĩnh vực nghiên cứu: điện tử viễn thông, xử lý thông tin và tín hiệu, AI trong tự 
động hóa 
Tác giả Đào Xuân Phúc tốt nghiệp Trường Đại học Bách khoa Hà Nội ngành điện 
tử viễn thông, nhận bằng Thạc sĩ ngành kỹ thuật điện tử năm 2011 tại Trường Đại 
học Mở Hà Nội. Hiện nay tác giả là giảng viên Khoa Công nghệ điện tử - thông tin 
Trường Đại học Mở Hà Nội. 
Lĩnh vực nghiên cứu: điện tử viễn thông, xử lý thông tin và tín hiệu. 
Tác giả Vũ Duy Thuận tốt nghiệp đại học ngành đo lường và tin học công nghiệp, 
nhận bằng Thạc sĩ ngành tự động hóa tại Trường Đại học Bách khoa Hà Nội năm 
2004 và 2008, nhận bằng Tiến sĩ ngành điều khiển và tự động hóa tại Viện Hàn 
lâm Khoa học và Công nghệ Việt Nam năm 2018. Hiện nay tác giả là giảng viên 
Trường Đại học Điện lực. 
Lĩnh vực nghiên cứu: điều khiển và tự động hóa, lập trình điều khiển. 
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC 
(ISSN: 1859 - 4557) 
Số 21 49 
 . 
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC 
(ISSN: 1859 - 4557) 
50 Số 21 

File đính kèm:

  • pdfung_dung_may_hoc_vector_ho_tro_svm_trong_du_doan_con_dong_ki.pdf