Một phương pháp kết hợp muộn cho nhận dạng cây dựa trên nhiều ảnh bộ phận cây

Nhận dạng cây với mục đích là xác định tên của loài cây từ các ảnh quan sát được của loài cây. Các

nghiên cứu trước đây thường mới tập trung cho kết hợp dựa trên hai bộ phận. Trong bài báo này, một

phương pháp kết hợp muộn cho bài toán nhận dạng cây dựa trên nhiều ảnh bộ phận của cây được đề

xuất áp dụng cho việc kết hợp từ hai cho đến sáu bộ phận của cây theo các bộ phận lá, hoa, quả, thân,

cành, toàn bộ cây. Phương pháp này được xây dựng dựa trên việc kết hợp luật nhân và luật tổng có

sử dụng trọng số gán cho bộ phận của cây. Việc nhận dạng đơn bộ phận được áp dụng phương pháp

học sâu hiện đại. Các kết quả thực nghiệm đã chỉ ra hiệu quả của phương pháp đề xuất, vượt trội hơn

so với các phương pháp kết hợp theo luật lớn nhất, luật tổng, luật nhân. Phương pháp cũng chỉ ra

rằng càng kết hợp nhiều bộ phận thì độ chính xác đạt được càng cao. Phương pháp đề xuất đã đạt

được độ chính xác cao nhất là 98,8% khi thực hiện kết hợp sáu bộ phận.

Một phương pháp kết hợp muộn cho nhận dạng cây dựa trên nhiều ảnh bộ phận cây trang 1

Trang 1

Một phương pháp kết hợp muộn cho nhận dạng cây dựa trên nhiều ảnh bộ phận cây trang 2

Trang 2

Một phương pháp kết hợp muộn cho nhận dạng cây dựa trên nhiều ảnh bộ phận cây trang 3

Trang 3

Một phương pháp kết hợp muộn cho nhận dạng cây dựa trên nhiều ảnh bộ phận cây trang 4

Trang 4

Một phương pháp kết hợp muộn cho nhận dạng cây dựa trên nhiều ảnh bộ phận cây trang 5

Trang 5

Một phương pháp kết hợp muộn cho nhận dạng cây dựa trên nhiều ảnh bộ phận cây trang 6

Trang 6

Một phương pháp kết hợp muộn cho nhận dạng cây dựa trên nhiều ảnh bộ phận cây trang 7

Trang 7

pdf 7 trang xuanhieu 6400
Bạn đang xem tài liệu "Một phương pháp kết hợp muộn cho nhận dạng cây dựa trên nhiều ảnh bộ phận cây", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Một phương pháp kết hợp muộn cho nhận dạng cây dựa trên nhiều ảnh bộ phận cây

Một phương pháp kết hợp muộn cho nhận dạng cây dựa trên nhiều ảnh bộ phận cây
rong trường hợp này câu truy vấn 푞 
 cậy 푠푖( ) càng cao thì các giá trị ∏ =1 푠푖( ) 
được gán vào lớp như sau: 
 và ∑ =1 푠푖( ). 푤 càng cao. Việc kết hợp 
 = 푖=1.. { max {푠푖( )}} (1) bằng toán tử nhân cặp giá trị này giúp gia 
 =1.. 
 tăng khoảng cách chênh lệnh với các cặp độ 
Luật tổng (Sum rule) cũng là một luật kết 
hợp được sử dụng phổ biến [17]. Tổng của tin cậy trả về có giá trị thấp hơn, giúp cho 
các độ tin cậy được trả về. Luật tổng gán câu việc dự đoán lớp đúng trả về có độ chính xác 
truy vấn về lớp như sau: cao. Phương pháp này sẽ giúp gia tăng độ tin 
 cậy của lớp trả về do gán trọng số cho bộ phận, 
 = 푖=1.. {∑ =1 푠푖 ( )} (2) ưu tiên kết quả nhận dạng cho những ảnh 
Luật nhân (Product rule) tính độ tin cậy của thuộc bộ phận được gán trọng số cao, hơn nữa 
các độ tin cậy trả về [17]. Câu truy vấn 푞 việc kết hợp hai phương pháp sẽ tận dụng 
được gán vào lớp như sau: được các ưu điểm của mỗi phương pháp. Để so 
 = 푖=1.. {∏ =1 푠푖 ( )} (3) sánh hiệu quả của phương pháp đề xuất, tác giả 
Phương pháp kết hợp đề xuất thực hiện so sánh với các phương pháp cơ sở 
Từ việc quan sát các bộ phận trên cây có các trên là luật lớn nhất, luật tổng, luật nhân. 
vai trò khác nhau trong quá trình nhận dạng Đối với việc xây dựng bộ phân lớp cho nhận 
cây, do vậy tác giả sẽ gán trọng số cho bộ phận dạng đơn bộ phận, bất kỳ một bộ phân lớp 
cây và sử dụng luật tổng có gán trọng số. Sau nào đều có thể được áp dụng. Các nghiên cứu 
đó xuất phát từ ý tưởng là kết hợp các phương liên quan đã chỉ ra rằng các phương pháp học 
pháp kết hợp cơ bản đã có. Ở đây tác giả đề sâu đã cho kết quả nhận dạng tốt hơn so với 
 Email: jst@tnu.edu.vn 543 
Nguyễn Thị Thanh Nhàn Tạp chí KHOA HỌC & CÔNG NGHỆ ĐHTN 225(06): 541 - 547 
phương pháp dựa trên việc trích chọn đặc các hình ảnh thuộc 6 bộ phận, các ảnh trong 
trưng tự thiết kế đặc biệt khi làm việc với cơ cơ sở dữ liệu thực nghiệm hầu hết đều có nền 
sở dữ liệu lớn và đa dạng [6]. Do vậy, trong phức tạp. 
bài báo này tác giả đã áp dụng một kiến trúc Bảng 1. Cơ sở dữ liệu 50 loài với 6 bộ phận 
học sâu là sử dụng mạng nơ-ron tích chập 
 Tập huấn Tập kiểm Tổng 
GoogLeNet cho nhận dạng đơn bộ phận. luyện thử 
GoogLeNet đã chiến thắng trong cuộc thi Lá 1930 776 2706 
nhận dạng các đối tượng trên cơ sở dữ liệu Hoa 1650 673 2323 
 Cành 1388 553 1941 
hình ảnh lớn, đa dạng ImageNet năm 2014 Toàn bộ cây 825 341 1166 
[19]. GoogLeNet có kiến trúc sâu hơn và rộng Quả 3821 500 4321 
hơn so với nhiều kiến trúc mạng khác như Thân 2912 500 3412 
AlexNet, VGGNet. Mạng này cho phép giảm 
một số lượng lớn các tham số huấn luyện. Nó 
bao gồm 6,8 triệu tham số, 22 lớp với 9 mô 
đun lặp (inception), 2 lớp nhân chập, 2 lớp 
chuẩn hóa, 5 lớp giảm chiều, một lớp kết nối 
đầy đủ, một lớp tuyến tính với hàm kích hoạt 
Softmax như là một bộ phân lớp. Một môđun 
inception sử dụng song song các lớp nhân 
chập có kích thước 1 × 1, 3 × 3, 5 × 5 với các 
lớp khác để giảm số chiều. Kiến trúc này còn 
được gọi là kiến trúc mạng trong mạng. Trong 
quá trình huấn luyện GoogLeNet kết nối với 2 
bộ phân lớp phụ trợ với các lớp ở giữa mạng để 
tiến hành hiệu quả tính toán lan truyền ngược Hình 1. Ảnh các bộ phận của loài Cotinus 
qua các tất cả các lớp. Ở đây mỗi bộ phận sẽ coggygria Scop 
được huấn luyện bởi một mạng GoogLeNet 3.1. Nhận dạng cây dựa trên một bộ phận 
riêng biệt. Các kết quả thực nghiệm được tiến hành trên 
3. Kết quả thực nghiệm máy chủ với cấu hình: 2,20 GHz CPU, 16 GB 
Các kết quả thực nghiệm được tiến hành trên RAM, GeForce GTX 1080 Ti GPU, thực hiện 
 trên khung học sâu Caffe và TensorFlow. Kỹ 
cơ sở dữ liệu hình ảnh cây với 6 bộ phận là lá, 
 thuật học chuyển đổi (transfer learning) và 
hoa, toàn bộ cây, cành, quả và thân. Để triển 
 tinh chỉnh các tham số được áp dụng trên 
khai thành công phương pháp học sâu, một cơ 
 mạng GoogLeNet. Bộ trọng số tiền huấn 
sở dữ liệu nhiều ảnh huấn luyện được yêu 
 luyện trên cơ sở dữ liệu rất lớn và đa dạng 
cầu, tác giả đã tiến hành trích rút 50 loài cây 
 ImageNet được áp dụng là bộ trọng số khởi 
phổ biến (có đủ 6 bộ phận và chứa nhiều hình 
 tạo cho quá trình huấn luyện. Mô hình được 
ảnh) từ cơ sở dữ liệu cây LifeCLEF 2015. Để 
 tối ưu cho phù hợp với bài toán nhận dạng 
gia tăng kích thước của cơ sở dữ liệu tác giả cây, các tham số được tinh chỉnh, tối ưu như 
cũng đã tiến hành thu thập thêm các ảnh trên sau: learning_rate: 0,001, batch_size: 32, 
internet thông qua tên của 50 loài cây. Các kết weight_decay: 0,0002, dropout: 0,4. Việc lựa 
quả ảnh thu thập được, sau đó được đánh giá chọn các tham số này dựa trên việc nghiên 
bởi chuyên gia thực vật học. Thông tin chi tiết cứu các kết quả liên quan, các thực nghiệm và 
được trình bày trong bảng 1. Hình 1 biểu diễn cấu hình máy thực nghiệm. 
544  Email: jst@tnu.edu.vn 
 Nguyễn Thị Thanh Nhàn Tạp chí KHOA HỌC & CÔNG NGHỆ ĐHTN 225(06): 541 - 547 
Các kết quả đạt được cho nhận dạng dựa trên Bảng 3. Độ chính xác tại hạng 1(%) khi kết hợp 
đơn bộ phận khi áp dụng mạng GoogLeNet các bộ phận khác nhau. Phần in đậm là kết quả 
 đạt được tốt nhất theo hàng 
được chỉ ra trong bảng 2. Bộ phận hoa cho kết 
 Các bộ phận Luật Luật Luật Phương 
quả nhận dạng cao nhất là 82,2% vì bộ phận kết hợp lớn tổng nhân pháp đề 
hoa có nhiều đặc điểm bề ngoài (màu sắc, nhất xuất 
hình dạng) có tính chất phân biệt cao giữa các Le+Fl 91,4 92,0 95,4 95,8 
 Le+Br 79,8 81,0 84,6 84,8 
loài. Bộ phận toàn bộ cây cho kết quả nhận Le+En 74,6 75,0 79,2 79,4 
dạng thấp nhất do bộ phận này thường được Le+Fr 84,0 84,4 87,6 87,6 
chụp ở góc nhìn xa và sự tương tự lớn giữa Le+St 75,0 75,0 79,0 80,2 
 Fl+Br 85,0 86,0 90,2 91,2 
các loài khi dựa trên ảnh toàn bộ của cây, nên Fl+En 79,2 79,8 83,4 84,6 
độ phân biệt là không cao. Fl+Fr 89,4 90,0 94,4 94,2 
 Fl+St 82,4 82,8 85,6 87,0 
 Bảng 2. Kết quả nhận dạng đơn bộ phận Br+En 58,0 58,8 61,8 63,8 
Bộ phận Độ chính xác Br+Fr 75,4 75,6 82,6 81,6 
 tại hạng 1 (%) Br+St 60,4 61,0 66,6 66,4 
Lá (Le) 75,0 En+Fr 72,8 73,6 78,4 80,0 
 En+St 50,8 51,0 54,4 53,4 
 Fr+St 72,0 72,6 74,6 74,4 
Hoa (Fl) 82,2 Le+Fl+Br 91,4 93,2 96,2 96,6 
 Le+Fl+En 91,4 92,4 96,0 96,2 
Cành (Br) 53,2 Le+Fl+Fr 91,4 95,8 97,6 97,8 
 Le+Fl+St 91,4 92,2 94,8 94,8 
Toàn bộ cây (En) 36,4 Le+Br+En 79,8 81,8 87,0 88,0 
 Le+Br+Fr 79,8 90,4 93,2 93,6 
Quả (Fr) 68,8 Le+Br+St 79,8 83,4 87,0 87,2 
 Le+En+Fr 74,6 87,4 93,6 93,0 
Thân (St) 37,6 Le+En+St 74,6 80,2 81,4 84,6 
 Le+Fr+St 84,0 86,0 90,4 91,0 
3.2. Đánh giá phương pháp kết hợp đề xuất Fl+Br+En 85,0 85,0 91,2 92,2 
 Fl+Br+Fr 85,0 93,0 95,6 96,0 
cho nhận dạng cây dựa trên nhiều ảnh bộ Fl+Br+St 85,0 86,2 91,4 91,8 
phận của cây Fl+En+Fr 79,2 91,0 93,6 94,8 
 Fl+En+St 79,2 83,4 88,6 89,2 
Các kết quả thực nghiệm được tiến hành kết Fl+Fr+St 89,4 91,0 93,2 93,8 
hợp cho các cặp từ 2 đến 6 bộ phận của cây Br+En+Fr 58,0 81,8 87,8 88,0 
 Br+En+St 58,0 67,4 74,6 75,2 
cho việc nhận dạng cây dựa trên nhiều ảnh bộ En+Fr+St 72,8 78,2 82,4 83,6 
phận của cây. Các kết quả được chỉ ra ở trong Br+Fr+St 75,4 81,8 86,4 86,0 
bảng 3, có tổng tất cả 57 trường hợp kết hợp. Le+Fl+Br+En 89,6 94,2 97,4 97,2 
 Le+Fl+Br+Fr 93,2 96,2 98,2 98,2 
Khi so sánh với các phương pháp kết hợp lấy Le+Fl+Br+St 91,4 92,6 98,0 97,6 
giá trị lớn nhất, lấy giá trị tổng, lấy giá trị Le+Fl+En+Fr 92,6 96,0 98,2 98,4 
 Le+Fl+En+St 90,2 93,2 96,6 96,8 
nhân thì phương pháp đề xuất là cho kết quả Le+Fl+Fr+St 93,0 95,8 97,8 97,8 
là tốt nhất. Phương pháp đề xuất cho kết quả Le+Br+En+Fr 86,2 90,8 95,6 95,6 
vượt trội hơn phương pháp lấy giá trị lớn nhất Le+Br+En+St 80,4 84,8 90,6 90,8 
 Le+Br+Fr+St 87,0 90,4 94,4 94,4 
và phương pháp lấy tổng. Còn so sánh với Le+En+Fr+St 85,4 89,6 92,8 92,8 
phương pháp nhân thì phương pháp đề xuất Fl+Br+En+Fr 88,4 93,8 96,8 96,8 
 Fl+Br+En+St 84,8 88,0 93,0 93,6 
cho kết quả cao hơn một chút hoặc bằng trong Fl+Br+Fr+St 90,8 92,4 95,0 96,0 
tổng 47 trường hợp trên 57 trường hợp kết Br+En+Fr+St 80,4 85,4 89,6 90,0 
hợp. Trong 10 trường hợp còn lại phương Fl+En+Fr+St 89,6 91,6 95,2 95,8 
 Le+Fl+Br+En+Fr 89,6 96,6 98,0 98,6 
pháp đề xuất chỉ kém phương pháp nhân Le+Fl+Br+En+St 89,6 94,4 97,8 97,8 
trong khoảng từ 0,2 đến 1%. Điều này chỉ ra Le+Br+En+Fr+St 86,2 91,4 96,6 96,4 
 Fl+Br+En+Fr+St 88,4 94,2 96,8 97,4 
hiệu quả của phương pháp đề xuất. 
 Email: jst@tnu.edu.vn 545 
 Nguyễn Thị Thanh Nhàn Tạp chí KHOA HỌC & CÔNG NGHỆ ĐHTN 225(06): 541 - 547 
Các bộ phận Luật Luật Luật Phương hợp hai, ba, bốn, năm và sáu bộ phận lần lượt 
 kết hợp lớn tổng nhân pháp đề 
 nhất xuất là [53,4%-95,8%], [75,2%-97,8%], [90,0%-
Le+Fl+Br+Fr+St 93,2 95,2 98,0 98,2 98,4%], [96,4%-98,6%] và 98,8%. Phương 
Le+Fl+En+Fr+St 92,6 96,6 98,2 98,2 pháp đề xuất cho phép chúng ta có thể kết 
Le+Fl+Br+En+Fr+St 92,6 96,2 98,8 98,8 
 hợp các ảnh của các bộ phận một cây cần 
 Ngoài ra một số kết luận khác được rút ra từ nhận dạng có kết quả cao. Cách tiếp cận này 
 bảng 3 như sau. Đầu tiên, càng nhiều bộ phận là linh hoạt, phù hợp với thực tế bởi vì một 
 được kết hợp thì kết quả nhận dạng càng cao, cây không phải luôn tồn tại sẵn tất cả các bộ 
 điều này được chỉ rõ trong hình 2 với các kết phận của cây tại một thời điểm. Khi kết hợp 
 quả nhận dạng cho số cặp bộ phận khi áp 
 luôn ưu tiên kết hợp các bộ phận có trọng số 
 dụng phương pháp đề xuất. Ví dụ, sử dụng 
 cao trước. 
 các ảnh hoa và lá đạt kết quả lần lượt là 
 82,2% và 75,0% tại hạng 1 cho dữ liệu kiểm 4. Kết luận 
 thử. Khi thực hiện kết hợp hai bộ phận này Một phương pháp kết hợp mới cho nhận dạng 
 theo phương pháp đề xuất đạt kết quả vượt cây dựa trên nhiều ảnh bộ phận cây được đề 
 trội là 95,8% cải thiện kết quả so với bộ phận xuất thực hiện kết hợp giữa luật nhân và luật 
 hoa là 13,6% và bộ phận lá là 20,8%. Các kết tổng có gán trọng số cho bộ phận. Các kết quả 
 quả kết hợp giữa các bộ phận thường được cải chỉ ra rằng phương pháp đề xuất là hiệu quả 
 thiện nhiều khi kết hợp với bộ phận có kết khi so sánh với các phương pháp lấy giá trị 
 quả nhận dạng cao trong nhận dạng đơn bộ lớn nhất, lấy tổng và phương pháp nhân. Bài 
 phận hay bộ phận được gán trọng số cao, ví báo đã tiến hành 57 thực nghiệm cho các cặp 
 dụ như bộ phận hoa, lá. Các kết quả nhận bộ phận từ hai đến sáu bộ phận, từ đó đã phân 
 dạng tiếp tục được cải thiện khi kết hợp nhiều tích và đưa ra một số gợi ý cho nhận dạng cây 
 bộ phận hơn nữa. Kết quả nhận dạng đạt được dựa trên nhiều ảnh bộ phận của cây. 
 tốt nhất trên ba bộ phận, bốn bộ phận, năm bộ 
 phận và tất cả các bộ phận lần lượt là 95,8%, 
 TÀI LIỆU THAM KHẢO/ REFERENCES 
 97,8%, 98,4%, 98,6%, 98,8%. Khi kết hợp [1]. J. Wäldchen, and P. Mäder, "Plant species 
 càng nhiều bộ phận thì tốc độ cải thiện nhận identification using computer vision 
 dạng càng giảm. techniques: A systematic literature 
 review," Archives of Computational Methods 
 in Engineering, vol. 25, no. 2, pp. 507-543, 
 2018. 
 [2]. H. Goëau, P. Bonnet, and A. Joly "Lifeclef 
 plant identification task 2015," in CEUR-WS 
 (Ed.), CLEF: Conference and Labs of the 
 Evaluation forum, vol. 1391 of CLEF2015 
 Working notes, Toulouse, France, 2015. 
 [3]. H. Goëau, P. Bonnet, A. Joly, V. Bakic, D. 
 Barthélémy, N. Boujemaa, and J. -F. Molino, 
 “The imageclef 2013 plant identification 
 task,” in CLEF: Conference and Labs of the 
 Hình 2. Kết quả nhận dạng cây của phương pháp Evaluation forum, 2013. 
 kết hợp đề xuất cho nhiều bộ phận [4]. H. Goëau, A. Joly, P. Bonnet, S. Selmi, J.-F. 
 Thứ hai, chúng ta có thể quan sát thấy rằng Molino, D. Barthélémy, and N. Boujemaa, 
 việc kết hợp nhiều bộ phận cho phép cải thiện “Lifeclef plant identification task 2014,” in 
 cận dưới và cận trên của phạm vi độ chính CLEF2014 Working Notes. Working Notes for 
 CLEF 2014 Conference, Sheffield, UK, 
 xác. Độ chính xác khi sử dụng một bộ phận September 15-18, 2014, pp. 598-615. 
 biến đổi trong phạm vi [37,6%-82,2%]. Phạm [5]. H. Goëau, P. Bonnet, and A. Joly, “Plant 
 vi độ chính được xác được tăng lên khi kết identification in an open-world (lifeclef 
 546  Email: jst@tnu.edu.vn 
 Nguyễn Thị Thanh Nhàn Tạp chí KHOA HỌC & CÔNG NGHỆ ĐHTN 225(06): 541 - 547 
 2016),” CLEF working notes 2016, 2016, pp. [13]. S. Choi, “Plant identification with deep 
 428-439. convolutional neural network: Snumedinfo at 
[6]. H. Goëau, P. Bonnet, and A. Joly, “Plant lifeclef plant identification task 2015,” in 
 identification based on noisy web data: the CLEF (Working Notes), 2015. 
 amazing performance of deep learning [14]. G. Cerutti, L. Tougne, C. Sacca, T. Joliveau, 
 (lifeclef 2017),” CEUR Workshop P.-O. Mazagol, D. Coquin, and A. Vacavant, 
 Proceedings, 2017. “Late information fusion for multi-modality 
[7]. A. He, and X. Tian, “Multi-organ plant plant species identification,” in Working notes 
 identification with multi-column deep for Conference and Labs of the Evaluation 
 convolutional neural networks”, in 2016 IEEE Forum, 2013. 
 International Conference on Systems, Man, [15]. H. Zhu, X. Huang, S. Zhang, and P. C. Yuen, 
 and Cybernetics (SMC) 2016, 2016, pp. “Plant identification via multipath sparse 
 002020-002025. coding,” Multimedia Tools and Applications 
[8]. J. Kittler, M. Hatef, R. P. Duin, and J. Matas, vol. 76, no. 3, pp. 4599-4615, 2017. 
 “On combining classifiers,” IEEE [16]. S. H. Lee, Y. L. Chang, and C. S. Chan, 
 transactions on pattern analysis and machine “Lifeclef 2017 plant identification challenge: 
 intelligence, vol. 20, no. 3, pp. 226-239, 1998. Classifying plants using generic-organ 
[9]. H. Nakayama, “Nlab-utokyo at imageclef correlation features,” Working Notes of 
 2013 plant identification task,” in: CLEF CLEF, 2017. 
 (Working Notes), 2013. [17]. A. Jain, K. Nandakumar, and A. Ross, 
[10]. I. Mohamed, L. Diane, and P. Frédéric, "Score normalization in multimodal biometric 
 “Plant species recognition using bag- of-word systems," Pattern recognition, vol. 38, no. 12, 
 with svm classifier in the context of the pp. 2270-2285, 2005. 
 lifeclef challenge”, Working Notes of CLEF, [18]. Ghazi, M. Mehdipour, B. Yanikoglu, and E. 
 2014. Aptoula, "Plant Identification Using Deep 
[11]. M. Rzanny, P. Mader, A. Deggelmann, M. Neural Networks via Optimization of Transfer 
 Chen, and J. Waldchen, “Flowers, leaves or Learning arameters," Neurocomputing, vol. 
 both? how to obtain suitable images for 235, pp. 228-235, 2017. 
 automated plant identification,” Plant [19]. C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. 
 Methods, vol. 15, no. 77, pp. 1-11, 2019. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, 
[12]. I. Dimitrovski, G. Madjarov, D. Kocev, and and A. Rabinovich, “Going deeper with 
 P. Lameski, “Maestra at lifeclef 2014 plant convolutions,” in Proceedings of the IEEE 
 task: Plant identification using visual data,” in Conference on Computer Vision and Pattern 
 CLEF (Working Notes), 2014, pp. 705-714. Recognition, 2015, pp. 1-9. 
 Email: jst@tnu.edu.vn 547 

File đính kèm:

  • pdfmot_phuong_phap_ket_hop_muon_cho_nhan_dang_cay_dua_tren_nhie.pdf