Một phương pháp tra cứu ảnh biểu diễn nhu cầu thông tin người dùng hiệu quả

TÓM TẮT— Hầu hết các cách tiếp cận tra cứu ảnh dựa vào nội dung truyền thống không biểu diễn hiệu quả nhu cầu thông tin của người dùng. Lý do của các hạn chế này là: (a) nhu cầu thông tin của người dùng rất phong phú, do đó khó có thể biểu diễn nhu cầu này với một ảnh truy vấn, (b) một ảnh thường gồm nhiều biểu diễn với độ quan trọng khác nhau nhưng các phương pháp thường coi độ quan trọng này là ngang nhau, (c) các đặc trưng mức thấp không phản ánh được thông tin ngữ nghĩa của ảnh và (d) hàm khoảng cách kết hợp với các đặc trưng mức thấp không thể hiện được nhận thức về độ tương tự trực quan của người dùng. Nhằm khắc phục hạn chế ở trên, chúng tôi đề xuất phương pháp tra cứu ảnh, có tên ERIN (Efficient Representation of Information Need). Phương pháp có ưu điểm biểu diễn tốt nhu cầu thông tin của người dùng do sử dụng nhiều ảnh và nhiều biểu diễn. Bên cạnh đó, phương pháp xác định được độ quan trọng của mỗi biểu diễn ảnh và giảm khoảng cách ngữ nghĩa giữa đặc trưng mức thấp và khái niệm mức cao dẫn đến nâng cao chất lượng hệ thống tra cứu ảnh. Chúng tôi đã thực nghiệm trên cơ sở dữ liệu ảnh gồm 10.800 ảnh. Các kết quả thực nghiệm chỉ ra rằng kỹ thuật này cải tiến được hiệu năng của hệ thống tra cứu ảnh dựa vào nội dung so với phương pháp đã có và cho kết quả gần với nhu cầu của người dùng

Một phương pháp tra cứu ảnh biểu diễn nhu cầu thông tin người dùng hiệu quả trang 1

Trang 1

Một phương pháp tra cứu ảnh biểu diễn nhu cầu thông tin người dùng hiệu quả trang 2

Trang 2

Một phương pháp tra cứu ảnh biểu diễn nhu cầu thông tin người dùng hiệu quả trang 3

Trang 3

Một phương pháp tra cứu ảnh biểu diễn nhu cầu thông tin người dùng hiệu quả trang 4

Trang 4

Một phương pháp tra cứu ảnh biểu diễn nhu cầu thông tin người dùng hiệu quả trang 5

Trang 5

Một phương pháp tra cứu ảnh biểu diễn nhu cầu thông tin người dùng hiệu quả trang 6

Trang 6

Một phương pháp tra cứu ảnh biểu diễn nhu cầu thông tin người dùng hiệu quả trang 7

Trang 7

Một phương pháp tra cứu ảnh biểu diễn nhu cầu thông tin người dùng hiệu quả trang 8

Trang 8

Một phương pháp tra cứu ảnh biểu diễn nhu cầu thông tin người dùng hiệu quả trang 9

Trang 9

pdf 9 trang xuanhieu 5400
Bạn đang xem tài liệu "Một phương pháp tra cứu ảnh biểu diễn nhu cầu thông tin người dùng hiệu quả", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Một phương pháp tra cứu ảnh biểu diễn nhu cầu thông tin người dùng hiệu quả

Một phương pháp tra cứu ảnh biểu diễn nhu cầu thông tin người dùng hiệu quả
 ảnh truy vấn, chúng tôi sẽ coi mỗi ảnh là một điểm dữ liệu trong 
không gian và xét hình bao các điểm dữ liệu này. Một hình bao các điểm nhƣ thế sẽ đƣợc chiếu xuống các trục tƣơng 
ứng với các biểu diễn, sau đó tính phƣơng sai của các điểm này theo mỗi trục (sẽ biết đƣợc độ phân tán dữ liệu theo 
một trục trong không gian lớn cũng có nghĩa là độ quan trọng theo trục đó nhỏ). Do đó, độ quan trọng của mỗi biểu 
diễn trong không gian là nghịch đảo của phƣơng sai của các điểm theo trục đó. 
Chúng tôi sẽ trình bày thuật toán IR (Importance of Representation) để xác định độ quan trọng biểu diễn. Thuật 
toán tính độ quan trọng của biểu diễn trong không gian biểu diễn RS. Hình 6 dƣới đây là thuật toán IR. 
Thuật toán IR - Importance of Representation 
Input: 
Tập n điểm dữ liệu C 
Tập các biểu diễn RS 
Số biểu diễn m 
Ouput: 
Trọng số của biểu diễn thứ j Weightj 
Nguyễn Hữu Quỳnh, Đào Thị Thúy Quỳnh, Ngô Quốc Tạo, Cù Việt Dũng, Phƣơng Văn Cảnh 449
 For j1 to m do 
 { 
 
∑ 
  
∑ 
 Weightj  
 // trọng số của biểu diễn thứ j 
 } 
Hình 6. Thuật toán tính độ quan trọng của biểu diễn IR 
Thuật toán IR trên Hình 6, lấy đầu vào là n điểm (ảnh) 
 trong một cụm trên không gian RS. 
Lúc này, theo đặc trƣng thứ j của không gian RS sẽ có n điểm dữ liệu 
 và thuật toán tính 
phƣơng sai 
 của n điểm dữ liệu này theo trục j của không gian RS. Sau khi tính đƣợc giá trị của phƣơng sai 
 , 
thuật toán đƣa ra độ quan trọng của từng biểu diễn j trong không gian RS. Độ quan trọng của biểu diễn theo trục j sẽ 
đƣợc tính bằng 
 và gán cho Weightj. 
Hình 7 dƣới đây là mô tả thuật toán tra cứu ảnh sử dụng biểu diễn nhu cầu thông tin ngƣời dùng hiệu quả có tên 
ERIN (Efficient Representation of Information Need). 
Thuật toán tra cứu ảnh sử dụng biểu diễn nhu cầu thông tin ngƣời dùng hiệu quả, có tên ERIN trên Hình 7, đƣợc 
thực hiện nhƣ sau: Khi ngƣời dùng gửi một tập ảnh làm đa truy vấn MQ, phƣơng pháp sẽ sử dụng thuật toán 
MQMRBR để tra cứu trên tập các ảnh cơ sở dữ liệu DI và cho kết quả là tập các ảnh S. Ngƣời dùng thực hiện việc 
chọn tập các ảnh liên quan E trong tập S thông qua hàm , phƣơng pháp sẽ phân 
cụm tập E này thành M cụm thông qua hàm Clustering() và gán cho C, tâm của m cụm đƣợc tính toán thông qua hàm 
 và gán cho tập đại diện RI. Trọng số cho tâm cụm thứ k đƣợc tính thông qua hàm 
RI_Weight_Compute() và trọng số cho các biểu diễn thứ j của tâm cụm thứ k đƣợc tính qua hàm IR(). Khoảng 
cách giữa ảnh cơ sở dữ liệu DIi và truy vấn MQ đƣợc tính theo công thức (1) và (2). Quá trình này tiếp tục cho đến khi 
ngƣời dùng dừng việc chọn các ảnh liên quan. 
Thuật toán ERIN (Efficient Representation of Information Need) 
Input: 
Tập N ảnh cơ sở dữ liệu DI 
Tập M ảnh đại diện truy vấn MQ 
Tập biểu diễn RS 
Số biểu diễn m 
Ouput: 
 Tập ảnh kết quả S’ 
MQMRBR(DI, MQ, S) // Thực hiện trên tập ảnh DI với truy vấn đa điểm MQ để cho ra tập kết quả S 
Repeat 
  // ngƣời dùng chọn các ảnh liên quan từ tập ảnh S 
  // phân tập ảnh liên quan E thành M cụm 
RI 
For k ←1 to M do 
 For j←1 to m do 
 { 
RI_Weight_Compute( ) // tính trọng số cho tâm cụm thứ k của truy vấn đa điểm 
 IR(E, RS, m, Weightj) tính trọng số cho các biểu diễn đặc trƣng thứ j của tâm cụm thứ k 
 } 
Tính disik theo công thức (1): 
 ∑ 
Tính disi theo công thức sau (2): 
Sort(DI) // sắp xếp các ảnh trong tập ảnh cơ sở dữ liệu DI theo thứ tự tăng dần 
 của khoảng cách so với truy vấn đa điểm MQ. 
Return S’ // k ảnh có khoảng cách nhỏ nhất với MQ 
 Until (User dừng phản hồi) 
Hình 7. Thuật toán tra cứu ảnh sử dụng biểu diễn nhu cầu thông tin ngƣời dùng hiệu quả ERIN 
450 MỘT PHƢƠNG PHÁP TRA CỨU ẢNH BIỂU DIỄN NHU CẦU THÔNG TIN NGƢỜI DÙNG HIỆU QUẢ 
IV. THỰC NGHIỆM 
Hệ thống đƣợc cài đặt trên máy tính PC Pentium G3220 3.00 GHz chạy hệ điều hành Windows 8.1 với một cơ 
sở dữ liệu ảnh gồm 10.800 ảnh1. Các ảnh đƣợc lƣu trữ theo định dạng JPEG với cỡ 120×80 và đƣợc lƣợng hóa thành 
16 màu. Cơ sở dữ liệu bao gồm 80 chủ đề: biển, thẻ, ngựa, bƣớm, hoa, vận động viên thể thao, lƣớt ván, thuyền buồm, 
hoa quả, cờ, chim, nhà, thác nƣớc, gấu, linh dƣơng đầu bò, ô tô, núi - hoàng hôn, cánh rừng,. Cơ sở dữ liệu này sẽ 
đƣợc sử dụng để minh chứng sự chính xác của kỹ thuật. Các ảnh trong 50 ảnh đƣợc tra cứu đầu tiên đƣợc phân thành 
các mẫu tích cực và tiêu cực (theo đánh giá của ngƣời dùng). 
Chúng tôi đã so sánh nghiên cứu của chúng tôi với nghiên cứu CBsIR [13] và CCH [12]. Để cung cấp các kết 
quả đáng tin cậy, 5 ảnh từ mỗi trong mƣời chín loại ở trên đƣợc chọn ra ngẫu nhiên làm các ảnh truy vấn. Đồ thị triệu 
hồi chính xác [14] đƣợc sử dụng để so sánh ERIN, CBsIR và CCH. Sự chính xác là chính xác trung bình của tổng các 
truy vấn và kết quả đƣợc chỉ ra trong Hình 9. 
Ký hiệu R là một tập các ảnh liên quan trong cơ sở dữ liệu, A là tập các ảnh tra cứu đƣợc trả về, RA là tập các 
ảnh liên quan trong tập A (Hình 8). 
Triệu hồi (Recall) là tỷ số của các ảnh liên quan trong cơ sở dữ liệu đƣợc tra cứu theo một truy vấn. Độ chính 
xác (Precision) là tỷ số của các ảnh đƣợc tra cứu mà liên quan đến ảnh truy vấn. 
)(
)(
Rarea
Rarea
recall A , 
)(
)(
Aarea
Rarea
precision A 
Hình 8. Triệu hồi và chính xác cho các kếquả truy vấn. 
Ảnh hoàng hôn đƣợc sử dụng nhƣ ảnh truy vấn của ERIN, CBsIR và CCH để chỉ ra hiệu quả của ERIN. 
Bảng 1 đƣa ra tóm tắt các kết quả trung bình truy vấn. Các kết quả tra cứu đƣợc tóm tắt dƣới dạng triệu hồi 
chính xác. Trong truy vấn hai thực nghiệm đƣợc thực hiện, thứ nhất kỹ thuật ERIN đƣợc sử dụng cho quá trình tra cứu. 
Kỹ thuật CBsIR đƣợc sử dụng trong thực nghiệm thứ hai và cuối cùng là kỹ thuật CCH. 
Bảng 1. Các kết quả trung bình của truy vấn. 
Recall 
Precision 
ERIN CBsIR CCH 
0.1 0.73 0.66 0.59 
0.2 0.69 0.6 0.51 
0.3 0.61 0.53 0.43 
0.4 0.56 0.47 0.42 
0.5 0.48 0.38 0.31 
0.6 0.43 0.34 0.27 
0.7 0.37 0.29 0.25 
0.8 0.32 0.28 0.24 
0.9 0.27 0.25 0.22 
1 0.24 0.21 0.14 
Hình 9 chỉ ra kết quả của ERIN tốt hơn CBsIR và CCH. 
1 https://sites.google.com/site/dctresearch/Home/content-based-image-retrieval 
|RA| 
 |R| 
|A| 
Nguyễn Hữu Quỳnh, Đào Thị Thúy Quỳnh, Ngô Quốc Tạo, Cù Việt Dũng, Phƣơng Văn Cảnh 451
Hình 9. So sánh Precision - Recall của ERIN với CBsIR và CCH. 
V. KẾT LUẬN
Chúng tôi đã tập trung vào đề xuất phƣơng pháp, có tên là ERIN, giải quyết ba vấn đề chính đó là: (1) biểu diễn 
tốt nhu cầu thông tin của ngƣời dùng, (2) xác định đƣợc độ quan trọng của mỗi biểu diễn và giảm khoảng cách ngữ 
nghĩa giữa đặc trƣng mức thấp và khái niệm mức cao. Để giải quyết đƣợc vấn đề (1), chúng tôi đã sử dụng nhiều truy 
vấn để biểu diễn thông tin của ngƣời dùng. Với vấn đề (2) chúng tôi đã tận dụng sự đánh giá của ngƣời dùng để xác 
định độ quan trọng của mỗi biễn diễn đặc trƣng và với vấn đề (3) chúng tôi sử dụng kỹ thuật phản hồi liên quan của 
ngƣời dùng để giải quyết. Các kết quả thực nghiệm trên cơ sở dữ liệu gồm 10.800 ảnh chỉ ra độ chính xác của phƣơng 
pháp đƣợc đề xuất. Thực nghiệm cũng chỉ ra hiệu năng của ERIN cao hơn phƣơng pháp CBsIR và CCH. 
TÀI LIỆU THAM KHẢO 
[1] J. Eakins, M. Graham, Content-based image retrieval, Technical Report, University of Northumbria at Newcastle, 1999. 
[2] A. Mojsilovic, B. Rogowitz, Capturing image semantics with low-level descriptors, Proceedings of the ICIP, September 2001,pp. 
18–21. 
[3] X.S. Zhou, T.S. Huang, CBIR: from low-level features to high-level semantics, Proceedings of the SPIE, Image and Video 
Communication and Processing, San Jose, CA, vol. 3974, 2000, pp. 426–431. 
[4] A. Pentland, R. W. Picard, and S. Sclaroff (1996). Photobook: content-based manipulation for image databases.International 
Journal of Computer Vision, 18(3):233–254. 
[5] Y. Chen, J.Z. Wang, R.Krovetz, An unsupervised learning approach to content-based image retrieval, IEEE Proceedings of the 
International Symposium on Signal Processing and its Applications, July 2003, pp. 197–200. 
[6] C. Carson, S. Belongie, H. Greenspan, and J. Malik (2002). Blobworld: image segmentation using expectation-maximization and 
its application to image querying. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(8):1026–1038 
[7] K. Chakrabarti, K. Porkaew, and S. Mehrotra (2000). Efficient query refinement in multimedia databases. Proceedings of 
International Conference in Data Engineering(ICDE). 
[8] Y. Ishikawa, R. Subramanya, and C. Faloutsos (1998). Mindreader: Querying databases through multiple examples. Proc. Of 
VLDB. 
[9 ] K. Porkaew, K. Chakrabarti, and S. Mehrotra (1999). Query refinement for content-based multimedia retrieval in MARS. 
Proceedings of ACM Multimedia Conference. 
[10] Y. Rui, T. Huang, and S. Mehrotra (1998). Relevance feedback techniques in interactive content-based image retrieval. Proc. of 
IS&T and SPIE Storage and Retrieval of Image and Video Databases. 
[11] M. Charikar, C. Chekuri, T. Feder, and R. Mot-wani ( 1997). Incremental clustering and dynamic infor-mation retrieval. Proc. 
of ACM Symposium on Theory of Computing. 
[12] R.O Stehling, M.A. Nascimento, A.X. Falc˜ao (2003), ―Cell histograms versus color histograms for image representation and 
retrieval‖, Knowledge and Information Systems (KAIS) Journal, pp. 151-179. 
[13] Luo, Jie and Nascimento, Mario A. (2004), Content Based Sub Image Retrieval Using Relevance Feedback,Proceedings of the 
2Nd ACM International Workshop on Multimedia Databases. 
[14] B. Yates and R. Neto (1999), Modern Information Retrieval, Addison Wesley. 
[15] Bartolini, I., Ciacci, P., Waas, F., (2001). Feedbackbypass: A new approach to interactive similarity query processing. In: 
Proceedings of the 27th VLDB Conference, Roma, Italy, pp. 201–210. 
[16] A. Gupta and R. Jain (1997). Visual information retrieval. Communications of the ACM, 40(5):70–79. 
[17] L. Chen, M. T.¨Ozsu, and V. Oria (2004). MINDEX: An efficient index structure for salient-object-based queries in video 
databases. Multimedia Systems, 10 (1):56–71. 
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
P
re
ci
si
o
n
Recall 
ERIN CBsIR CCH
452 MỘT PHƢƠNG PHÁP TRA CỨU ẢNH BIỂU DIỄN NHU CẦU THÔNG TIN NGƢỜI DÙNG HIỆU QUẢ 
[18] I. J. Cox, M. L. Miller, T. P. Minka, T. V. Papathomas, and P. N.Yianilos (2000). The Bayesian image retrieval system, 
PicHunter: theory, implementation, and psychophysical experiments. IEEE Transactions on Image Processing, 9(1):20–37. 
[19] [Flickner et al., 1995] Flickner, M., Sawhney, H., Niblack, W., et al., (1995). Query by image and video content: The QBIC 
system. IEEE Computer Magazine 28 (9), 23–32. 
[20] K. A. Hua, N. Yu, and D. Liu (2006). Query Decomposition: A Multiple Neighborhood Approach to Relevance Feedback 
Processing in Content-based Image Retrieval. InProceedings of the IEEE ICDE Conference. 
[21] K. Vu, K. A. Hua, and W. Tavanapong ( 2003). Image retrieval based on regions of interest. IEEE Transactions on Knowledge 
and Data Engineering, 15(4):1045–1049. 
[22] J. Z. Wang, J. Li, and G. Wiederhold,( 2001). ―SIMPLIcity: Semantics-Sensitive Integrated Matching for Picture Libraries,‖ 
IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), vol. 23, no. 9, pp. 947-963. 
[23] W. Y. Ma and B. Manjunath ( 1997). Netra: a toolbox for navigating large image databases. In Proceedings of the IEEE 
International conference on Image Processing, pages 568–571 
[24] V. Ogle and M. Stonebraker (1995). Chabot: retrieval from a relational database of images.IEEE Computer, 28(9):40–48. 
[25] M. Ortega-Binderberger and S. Mehrotra (2004). Relevance feedback techniques in the MARS image retrieval systems. 
Multimedia Systems, 9(6):535–547. 
[26] H. T. Shen, B. C. Ooi, and X. Zhou (2005). Towards effective indexing for very large video sequence database. In Proceedings 
of the ACM SIGMOD Conference, pages 730–741. 
[27] A.W.M. Smeulders, M. Worring, A. Gupta, R. Jain, Content-based image retrieval at the end of the early years, IEEE Trans. 
Pattern Anal. Mach. Intell. 22 (12) (2000) 1349–1380. 
[28] Smith, J.R., Chang, S.F., (1996). VisualSEEk: A fully automated content-based image query system. 
In: Proceedings of the ACM Int’l Multimedia Conference, pp. 87–98. 
[29] G. Salton, Automatic Text Processing, Addison-Wesley, Reading, MA, 1989. 
[30] Y. Rui, T.S. Huang, M. Ortega, S. Mehrotra, Relevance feedback:a power tool for interactive content-based image retrieval, 
IEEE Trans. Circuits Video Technol. 8 (5) (1998) 644–655. 
[31] Y. Rui, T.S. Huang, Optimizing learning in image retrieval, Proceedings of the IEEE International Conference on Computer 
Vision and Pattern Recognition, June 2000, pp. 1236–1243. 
[32] Brunelli, R., Mich, O., (2000). Image retrieval by examples. IEEE Transactions on Multimedia 2 (3), 164–171. 
[33] X.S. Zhu, T.S. Huang, Relevance feedback in image retrieval: a comprehensive review, Multimedia System 8 (6) (2003) 536–
544. 
[34] Y. Rui, T.S. Huang, S.-F. Chang, Image retrieval: current techniques, promising directions, and open issues, J. Visual Commun. 
Image Representation 10 (4) (1999) 39–62. 
[35] Y. Yan, M.-L. Shyu, and Q. Zhu (2016), Negative correlation discovery for big multimediadata semantic concept mining and 
retrieval, in Proceedings of the IEEE international Conference on Semantic Computing, pp. 55-62. 
AN IMAGE RETRIEVAL METHOD EFFICIENTLY REPRESENTS 
THE USER’S INFORMATION NEED 
 Nguyen Huu Quynh, Dao Thi Thuy Quynh, Ngo Quoc Tao, Cu Viet Dung, Phƣơng Văn Cảnh, An Hong Son 
ABSTRACT — Most of the conventional approaches to content-based on image retrieval is not efficiently represents the user’s 
information need. The reasons for these limitations are: (a) the user’s information needs are very rich, so it is difficult to perform 
this with a query image, (b) an image usually includes multiple representations with different importance but these methods are 
often considered equal importance, (c) low-level image features do not capture the semantics of images , (d) distance function 
associated with low level features can not express user’s perception of visual similarity. . In order to overcome these problems, we 
propose image retrieval method, called ERIN (Efficient Representation of Information Need). The method has the advantages that 
efficently represent the user's information need by using multiple images and Multiple Representations. Beside, the method 
determines the importance of each representation which leads to improve quality content – based on image retrieval system. Our 
experimental results on a database of over 10.800 images. The experimental results indicate that this technique improved the 
performance of content – based on image retrieval compared to established methods and the results are closed to the user's 
information need. 
Keywords— Content based image retrieval, representation of information need, multiple queries, and multiple representations, 
feature vector. 

File đính kèm:

  • pdfmot_phuong_phap_tra_cuu_anh_bieu_dien_nhu_cau_thong_tin_nguo.pdf