Ứng dụng máy học vector hỗ trợ SVM trong dự đoán cơn động kinh

Bệnh động kinh được xem là căn bệnh liên quan đến rối loạn trong não phổ biến thứ hai và ảnh

hưởng đến khoảng 1% dân số thế giới. Đặc trưng của động kinh là sự xuất hiện bất chợt và mất

kiểm soát của cơn co giật (cơn động kinh). Trong bài báo này, chúng tôi đề xuất một phương pháp

sử dụng máy học vector hỗ trợ SVM (Support Vector Machine) để dự đoán cơn động kinh dựa trên

các bản ghi tín hiệu điện não đồ EEG (Electroencephalography). Phương pháp này sử dụng các đặc

trưng đơn biến của tín hiệu EEG nhằm phân loại bốn trạng thái tín hiệu EEG (bình thường, tiền động

kinh, động kinh và sau động kinh). Việc dự đoán chính xác cơn động kinh phụ thuộc vào khả năng

nhận dạng/phân biệt trạng thái tiền động kinh (pre-ictal) với ba trạng thái còn lại. Các kết quả mô

phỏng với cơ sở dữ liệu động kinh của Đại học Freiburg cho thấy tính hữu dụng của phương pháp

đề xuất.

Download

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10

Tải về để xem bản đầy đủ

12 trang duykhanh 22520

Download

Bạn đang xem 10 trang mẫu của tài liệu "Ứng dụng máy học vector hỗ trợ SVM trong dự đoán cơn động kinh", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Ứng dụng máy học vector hỗ trợ SVM trong dự đoán cơn động kinh

g dùng cho bài
toán SVM đa lớp: Một đối một, một đối
phần còn lại và chiến lược phân cấp.
Trong trường hợp này, kỹ thuật một đối
một (one-against-one) được sử dụng [9].
Kỹ thuật này được mô tả như sau:
Với mỗi cặp lớp phân loại, cần xây dựng
một máy phân lớp nhị phân, mỗi máy
phân lớp được huấn luyện trên một tập
con của tập huấn luyện mà tập con này
chỉ chứa các mẫu huấn luyện của cặp
lớpphân loại này. Như vậy, phải xây dựng
tất cả k(k-1)/2 máy phân lớp nhị phân với
k là số lớp (trường hợp này với 4 lớp
trạng thái tín hiệu chúng ta cần 6 máy học
SVM), các máy này được kết nối lại với
nhau và thông qua phương pháp bỏ phiếu
để đánh giá kết quả phân lớp cuối cùng,
lớp nào có số phiếu cao nhất sẽ được chọn
làm kết quả dự đoán (max-win). Chiến
lược này được sử dụng trong hầu hết các
phần mềm mã nguồn mở như SVMlight,
LIBSVM, SVMTorch và HeroSvm.
Trong đánh giá, đầu ra mạng SVM đa lớp
là các nhãn (giá trị số) gán liên quan đến
các vector đầu vào: 1 đối với inter-ictal, 2
cho pre-ictal, 3 cho ictal và 4 cho post-
ictal. Tuy nhiên điều chúng ta quan tâm
nhất trong dự đoán động kinh là phát hiện
trạng thái tiền động kinh pre-ictal để tạo
cảnh báo sớm về cơn động kinh sắp xảy
ra, do đó nhãn 2 trở thành nhãn quan
trọng nhất.
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
(ISSN: 1859 - 4557)
44 Số 21
Quá trình tạo ra cảnh báo được thực hiện
sau phân loại. Các SVM phân loại được
“huấn luyện” dựa trên các mẫu học
(learning). Một cách lý tưởng, thì các bộ
phân loại SVM này (đã được huấn luyện
tốt) sẽ phân loại chính xác tất cả các mẫu
trong bộ dữ liệu kiểm tra (test) và do đó
sẽ tạo ra được các đầu ra chính xác. Tuy
nhiên, trên thực tế, một hệ thống phân loại
sẽ không thể phân loại chính xác tuyết đối
tất cả các mẫu. Do đó nếu các đầu ra này
được sử dụng trực tiếp để dự đoán về cơn
động kinh thì sẽ dẫn đến với các mẫu bị
phân loại nhầm thành pre-ictal sẽ tạo ra
cảnh báo sai về cơn động kinh.
Để nâng cao chất lượng dự đoán, Teixeira
et al. (2012) đưa ra một thủ tục tạo cảnh
báo [10]. Do sai số phân loại, nên việc
xuất hiện một khoảng thời gian với chuỗi
nhãn phân loại toàn nhãn 2 (pre-ictal) là
điều ít khi xảy ra, tuy nhiên trong các
chuỗi nhãn nếu chuỗi nào có tần suất nhãn
2 nhiều thì có thể xem là khoảng thời gian
có dấu hiệu của trạng thái tiền động kinh.
Trong bài báo, chúng tôi đề xuất giải pháp
nếu trong một khoảng thời gian nào đó
của bản ghi tín hiệu EEG (được xem là
khoảng thời gian tiền động kinh, trong
phần mô phỏng chúng tôi chọn khoảng
thời gian này là 30 phút), nếu số lượng
phân loại là pre-ictal (nhãn 2) vượt quá
50% thì cảnh báo về khả năng sự xuất
hiện của cơn động kinh ở thời điểm tương
lai gần sẽ được đưa ra.
4. KẾT QUẢ MÔ PHỎNG
4.1. Các thông số mô phỏng
4.1.1. Chọn kênh tín hiệu EEG
Như đã giới thiệu trên trong 2.1, bộ
CSDL của ĐH Freiburg gồm 18 bệnh
nhân với tổng số khoảng 450 giờ ghi và
79 cơn động kinh. Mỗi bản ghi gồm tín
hiện của 27 kênh điện cực (hệ thống 10-
20) bao gồm: FT10, T10, TP10, F8, T4,
T6, FP2, F4, C4, P4, O2, FPZ, FZ, CZ,
PZ, OZ, FP1, F3, C3, P3, O1, F7, T3, T5,
FT9, T9, TP9. Ngoài ra còn có 2 kênh
dùng để ghi kèm dữ liệu tín hiệu điện tâm
đồ ECG (Electrocardiagram) của người
bệnh (hình 4).
Hình 4. Một phần bản ghi dữ liệu của một bệnh
nhân trong CSDL Freiburg với 27 kênh tín hiệu
EEG và 2 kênh tín hiệu ECG (trong đó các vị trí
EEG_ON và EEG-OFF đánh dấu vị trí bắt đầu và
kết thúc một cơn động kinh)
Trên thực tế, việc sử dụng tín hiệu ở tất cả
các kênh (27 kênh) sẽ dẫn đến khối lượng
tính toán cực lớn. Ngoài ra việc sử dụng
nhiều kênh tín hiệu cũng đồng nghĩa với
việc người bệnh phải gắn nhiều điện cực
trên người (trong trường hợp sử dụng các
thiết bị cầm tay phát hiện sớm động kinh).
Điều này sẽ gây ra sự bất tiện cho các
bệnh nhân. Do đó trong phần thực
nghiệm, chúng tôi chỉ sử dụng tổ hợp gồm
6 kênh tín hiệu (để nghiên cứu) nhằm phát
hiện sớm cơn động kinh. Sáu kênh tín
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
(ISSN: 1859 - 4557)
Số 21 45
hiệu được chọn theo tiêu chí bao phủ
không gian. Sáu kênh tín hiệu được chọn
gồm: F7, FZ, F8, T5, PZ và T6 cho cái
nhìn không quan tổng quan về trạng thái
não bệnh nhân. Theo tiêu chuẩn hệ thống
vị trí đặt điện cực 10-20 của quốc tế thì vị
trí đo F7, FZ, F8, T5, PZ và T6 bao phủ
các khu vực phía trước, giữa và vùng thái
dương.
4.1.2. Chọn đặc trưng tín hiệu
Chúng ta sử dụng một cửa sở trượt 5s để
trích chọn đặc trưng cho 6 kênh tín hiệu
EEG đã được chọn, mỗi cửa sổ 5s này
được xem là một mẫu phân loại thuộc một
trong 4 trạng thái (inter-ictal, pre-ictal,
ictal, post-ictal).
Do sử dụng đặc trưng đơn biến gồm 22
đặc trưng (mục 3.1), mỗi mẫu cần phân
loại (cửa sổ 5s của 6 kênh) sẽ có 132 giá
trị đặc trưng. Như vậy đầu vào của mạng
phân loại sẽ là các vector (mẫu) 132
chiều.
4.2. Kết quả mô phỏng và đánh giá
4.2.1. Bộ dữ liệu học và kiểm tra
Bộ CSDL EEG được chia làm hai phần:
bộ dữ liệu học, còn gọi là huấn luyện
(learning) và kiểm tra (testing). Bộ dữ liệu
học gồm khoảng 250 giờ ghi và 48 cơn
động kinh được sử dụng để tối ưu các
thông số của hệ thống phân loại (SVM đa
lớp) trong khi bộ dữ liệu kiểm tra (gồm
khoảng 200 giờ ghi và 31 cơn động kinh
còn lại, không được dùng trong quá trình
học) được sử dụng để kiểm tra tính hiệu
quả của bộ phân loại đã được thiết kế từ
quá trình học.
4.2.2. Một số kết quả mô phỏng và
thảo luận
Ở đây chúng ta tiến hành đánh giá dựa
trên bộ dữ liệu EEG của sáu kênh tín hiệu
(F7, FZ, F8, T5, PZ và T6) với khoảng
thời gian pre-ictal được chọn là 30 phút
trước cơn động kinh, post-ictal được chọn
là 10 phút sau cơn động kinh.
Trường hợp nếu xác định được trạng thái
tiền động kinh (pre-ictal) và cơn động
kinh xuất hiện trong khoảng thời gian sau
cảnh báo ta sẽ có một dự đoán dương tính
thật TP (True Positive) còn nếu không
xuất hiện cơn ta sẽ có một dự đoán dương
tính giả FP (False Positive). Khi trạng thái
tiền động kinh (pre-ictal) không được xác
định nhưng có cơn động kinh xuất hiện ta
sẽ có một dự đoán âm tính giả FN (False
Negative). Trong trường hợp này TP được
xem là cảnh báo đúng còn FP và FN là
các cảnh báo sai.
Để đánh giá kết quả ta sử dụng khái niệm
độ nhạy (SS-Sensitivity) và tỷ lệ đoán sai
(FPR/h- False Prediction per hour)[11].
SS được định nghĩa là tỷ lệ giữa số cơn
dự đoán được/tổng số cơn động kinh
trong bản ghi của người bệnh. Trong khi
FPR/h được định nghĩa:
1 False AlarmFPRh
Hours of Testing seizures preictal time
(1)
là tỷ lệ giữa số cảnh báo sai/ lượng thời
gian hữu dụng.
Trong đó cảnh báo sai xuất hiện trong
trường hợp có FP và FN (có cảnh báo
nhưng không có cơn động kinh và không
có cảnh báo nhưng lại xuất hiện cơn động
kinh). Để xác định lượng thời gian hữu
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
(ISSN: 1859 - 4557)
46 Số 21
dụng chúng ta lấy tổng số thời gian bản
ghi tín hiệu EEG của người bệnh trừ đi
tổng số thời gian dùng tạo cảnh báo (bằng
số cơn động kinh nhân với khoảng thời
gian pre-ictal được chọn) [11].
Về mặt lý thuyết kết quả thu được sẽ tối
ưu (tuyệt đối) nhất khi đạt giá trị
SS=100% và FPR/h=0 và trên thực tế
chúng ta mong muốn một kết quả thu
được với giá trị SS cao và FPR/h thấp.
Kết quả (tốt nhất) đối với bộ dữ liệu học
chúng ta thu được tỷ lệ phát hiện cơn
động kinh là 39/48 cơn, đạt tỷ lệ 81,25 %.
Dựa trên thông số đã học, chúng ta tiến
hành thử nghiệm trên bộ dữ liệu test. Kết
quả thu được tỷ lệ phát hiện cơn là 21/31
cơn, đạt tỷ lệ 67,74 %. Hình vẽ 5 thể hiện
tỷ lệ phát hiện cơn đông kinh của các
bệnh nhân trong bộ CSDL của Đại học
Freiburg với tỷ lệ trung bình (cả quá trình
học và test) là 75,9%. Điều này cho thấy
khả năng ứng dụng triển vọng của phương
pháp đề xuất trong bài báo. Trong mô
phỏng này, không có các cảnh báo sai
dương tính giả FP-False Positive (có cảnh
báo nhưng không xuất hiện cơn động
kinh). Trong bộ dữ liệu kiểm tra, với 10
cơn không nhận diện được, chúng ta có số
cảnh báo sai tương ứng với 10 dự đoán
âm tính giả FN và tỷ lệ FPR/h (đối với dữ
liệu kiểm tra) đạt được là 0,055. Việc
không có cảnh báo sai dương tính giả FP
và tỷ lệ FPR/h rất thấp cũng là một kết
quả hạn chế của bài báo do số lượng bệnh
nhân, số cơn và loại (vị trí ổ bệnh) động
kinh trong CSDL được đánh giá chưa
nhiều và đa dạng.
Mặc dù không có một tỷ lệ cụ thể chung
về giá trị SS tối thiểu hay FPR cực đại
dùng để đánh giá đối với các thuật toán,
Teixeira et al. 2014 [11] đã đưa ra tỷ lệ dự
đoán chấp nhận được (để ứng dụng trong
y tế) là phải dự đoán được (đúng) ít nhất
50% số cơn động kinh (SS>50%) và tỷ lệ
cảnh báo sai không quá 1 lần trong
khoảng thời gian 6 giờ (FPR/h<0,15) đối
với từng người bệnh. Trên thực tế, các
nghiên cứu khoa học gần đây nhất chưa
có công trình nào đạt được tỷ lệ dự đoán
này (cho cả hai thông số đánh giá) khi
đánh giá dựa trên một CSDL động kinh
đủ lớn.
Hình 5. Tỷ lệ phát hiện cơn động kinh của từng
bệnh nhân trong bộ CSDL Freiburg
Trong nghiên cứu gần đây của Teixeira et
al. 2014 [11], một đánh giá (thuât toán sử
dụng các đặc trưng đơn biến và SVM đa
lớp) trên 278 bệnh nhân được đưa ra.
CSDL này bao gồm các bản ghi thời gian
dài (gồm các bản ghi trung bình khoảng
70, 78 và 94 giờ) với xấp xỉ 22.291 giờ
ghi và tổng cộng 1.519 cơn động kinh ở
rất nhiều vị trí ổ bệnh khác nhau (thái
dương-temporal, phía trước-frontal, chính
giữa-central, thùy chẩm-occipital và thùy
đỉnh-parietal). Ưu điểm của tín hiệu EEG
thời lượng dài và liên tục là chứa khoảng
thời lượng dài đoạn tín hiệu bình thường
(inter-ictal). Điều đó rất quan trọng, đặc
biệt khi dùng để đánh giá chính xác về tỷ
lệ các cảnh báo sai. Kết quả tối ưu nhất
trong [11] thu được là 32% số người bệnh
có kết quả dự đoán chấp nhận được
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
(ISSN: 1859 - 4557)
Số 21 47
(SS>50% và FPR/h <0,15 cho từng người
bệnh).
5. KẾT LUẬN
Bài báo đã đưa ra một phương pháp dự
đoán trước cơn động kinh sử dụng máy
học vector hỗ trợ SVM đa lớp và các đặc
trưng đơn biến của 6 kênh tín hiệu EEG
gồm F7, FZ, F8, T5, PZ và T6. Mặc dù
việc mô phỏng mới chỉ được đánh giá trên
một bộ CSDL động kinh bị giới hạn (chỉ
với 18 bệnh nhân) nhưng với kết quả cho
phép dự đoán trước cơn động kinh với tỷ
lệ chính xác cao SS=67,74% đã cho thấy
khả năng triển vọng của phương pháp dự
đoán sớm cơn động kinh được đề xuất
trong bài báo.
LỜI CẢM ƠN
Các tác giả bài báo xin trân thành cảm ơn sự
hỗ trợ kinh phí nghiên cứu khoa học của Bộ
Giáo dục và Đào tạo thông qua đề tài cấp Bộ
mã số B2017-MHN.01.
TÀI LIỆU THAM KHẢO
[1] Yadollahahpour A. and Jalilifar M. (2014) “Seizure Prediction Methods: A review of the Curent
Predicting Techniques,” Biomedical & Pharmacology, vol.7(1), 153-162, 2014.
[2] Teixeira C.A. et al., (2011) “EPILAB: A software package for studies on the prediction of epileptic
seizures,” Journal of Neuroscience Methods, vol. 200, no. 2, pp. 257-271, Jul. 2011.
[3]
[4] Mormann F., Andrzejak R.G., Elger C.E., and Lehnertz K., (2007) “Seizure prediction: the long
and winding road.,” Brain: a journal of neurology, vol. 130, no. 2, pp. 314-33, Feb. 2007.
[5] Direito, B.; Duarte, J.; Teixeira, C. A; Schelter, B.; Le Van Q. M; Schulze-Bonhage, A.; Sales, F.;
Dourado, A.. (2011) "Feature selection in high dimensional EEG features spaces for epileptic
seizure prediction", IFAC Proceedings Volumes (IFAC-PapersOnline) 18, PART 1: 6206 - 62.
[6] Feldwisch-Drentrup H, Staniek M, Schulze-Bonhage A, Timmer J, Dickten H, Elger CE, Schelter B,
Lehnertz K.(2011) “Identification of preseizure states in epilepsy: a data-driven approach for
multichannel EEG recordings, “ Front Comput Neurosci 2011;5(0).
[7] Jalil Rasekhi, Mohammad Reza Karami Mollaei, Mojtaba Bandarabadi, Cesar A Teixeira, Antonio
Dourado (2013)“Preprocessing effects of 22 linear univariate features on the performance of
seizure prediction methods” Neurosci Methods 2013 Jul 6;217(1-2):9-16. Epub 2013 Dec 6.
[8] Cortes C. and Vapnik V., (1995) “Support-vector networks,” Machine Learning, vol. 20, no. 3, pp.
273-297, 1995.
[9] Hsu, C.W., and C.-J. Lin, (2002) “A Comparison of Methods for Multi-Class Support Vector
Machines” IEEE Trans. Neural Netw., 13, 415 - 425, 2002.
[10] Teixeira C., Direito B., Bandarabadi M., Dourado A. (2012) “Output regularization of SVM seizure
predictors: Kalman Filter versus the "Firing Power" method,”Conf Proc IEEE Eng Med Biol Soc.
2012;2012:6530-3
[11] Teixeira C., Direito B., Quyen L. V. Micheal, Dourado A. (2014), “Epileptic seizure predictor based
on computational intelligence techniques: A comparative study with 278 patients” Computer
methods and programs in biomedicine, May 2014.
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
(ISSN: 1859 - 4557)
48 Số 21
Giới thiệu tác giả:
Tác giả Nguyễn Văn Sơn tốt nghiệp đại học chuyên ngành điện tử viễn thông, nhận
bằng Thạc sĩ chuyên ngành kỹ thuật điện tử năm 2010 tại Trường Đại học Mở Hà
Nội. Hiện nay tác giả là giảng viên của Khoa Công nghệ điện tử - thông tin, Trường
Đại học Mở Hà Nội.
Lĩnh vực nghiên cứu: điện tử viễn thông, xử lý thông tin và tín hiệu.
Tác giả Vương Hoàng Nam tốt nghiệp đại học ngành điện tử viễn thông năm 2003,
nhận bằng Thạc sĩ và bằng Tiến sĩ ngành kỹ thuật viễn thông năm 2006 và 2013
tại Trường Đại học Bách khoa Hà Nội. Hiện nay tác giả là giảng viên Bộ môn Hệ
thống viễn thông, Viện Điện tử viễn thông, Trường Đại học Bách khoa Hà Nội.
Lĩnh vực nghiên cứu: điện tử viễn thông, xử lý thông tin và tín hiệu, AI trong tự
động hóa
Tác giả Đào Xuân Phúc tốt nghiệp Trường Đại học Bách khoa Hà Nội ngành điện
tử viễn thông, nhận bằng Thạc sĩ ngành kỹ thuật điện tử năm 2011 tại Trường Đại
học Mở Hà Nội. Hiện nay tác giả là giảng viên Khoa Công nghệ điện tử - thông tin
Trường Đại học Mở Hà Nội.
Lĩnh vực nghiên cứu: điện tử viễn thông, xử lý thông tin và tín hiệu.
Tác giả Vũ Duy Thuận tốt nghiệp đại học ngành đo lường và tin học công nghiệp,
nhận bằng Thạc sĩ ngành tự động hóa tại Trường Đại học Bách khoa Hà Nội năm
2004 và 2008, nhận bằng Tiến sĩ ngành điều khiển và tự động hóa tại Viện Hàn
lâm Khoa học và Công nghệ Việt Nam năm 2018. Hiện nay tác giả là giảng viên
Trường Đại học Điện lực.
Lĩnh vực nghiên cứu: điều khiển và tự động hóa, lập trình điều khiển.
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
(ISSN: 1859 - 4557)
Số 21 49
.
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
(ISSN: 1859 - 4557)
50 Số 21

File đính kèm:

ung_dung_may_hoc_vector_ho_tro_svm_trong_du_doan_con_dong_ki.pdf