Phương pháp tối ưu đàn kiến dóng hàng toàn cục các mạng tương tác protein
TÓM TẮT— Dóng hàng toàn cục các mạng tương tác protein (PPI) cung cấp thông tin giúp phát hiện các chức năng của protein, vì vậy bài toán này đang được nghiên cứu rộng rãi. Bài báo này giới thiệu một thuật toán metaheuristics hiệu quả, ACOPPI, để dóng hàng mạng PPI. Thuật toán ứng dụng phương pháp tối ưu đàn kiến xây dựng dóng hàng và kết hợp tìm kiếm cục bộ. Thực nghiệm cho thấy thuật toán đề xuất có điểm dóng hàng tốt hơn so với các thuật toán SPINAL, FastNA đã công bố
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Bạn đang xem tài liệu "Phương pháp tối ưu đàn kiến dóng hàng toàn cục các mạng tương tác protein", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Phương pháp tối ưu đàn kiến dóng hàng toàn cục các mạng tương tác protein
SPINAL. Phƣơng pháp tối ƣu đàn kiến (Ant Colony Optimization - ACO) [26] là cách tiếp cận metaheuristic, đƣợc giới thiệu bởi Dorigo năm 1991 đang đƣợc nghiên cứu và ứng dụng rộng rãi cho các bài toán tối ƣu t hợp khó. Bài báo này đề thuật toán ACOPPI sử dụng phƣơng pháp tối ƣu đàn kiến, kết hợp với thủ tục rebuild của FastNA nhƣ một thủ tục tìm kiếm cục bộ. Thực nghiệm cho thấy thuật toán đề xuất có điểm dóng hàng tốt hơn so với các thuật toán SPINAL, FastNA. Phần còn lại của bài báo đƣợc t chức nhƣ sau. Mục 2 phát biểu bài toán dóng hàng mạng và giới thiệu một số vấn đề liên quan. Thuật toán ACOPPI đƣợc trình bày trong mục 3. Mục 4 mô tả thực nghiệm so sánh ACOPPI với FastNA và SPINAL. Các kết luận và công việc tiếp theo đƣợc trình bày trong mục cuối. II. BÀI TOÁN DÓNG HÀNG MẠNG VÀ CÁC VẤN ĐỀ LIÊN QUAN Giả sử và là hai mạng tƣơng tác protein, trong đó ký hiệu tập các nút mô tả các protein trong mạng tƣơng ứng; ký hiệu tập các cạnh mô tả mối quan hệ tƣơng tác giữa các protein trong các mạng . Không giảm t ng quát, ta xem | | | | trong đó | | ký hiệu số phần tử của tập . Đỗ Xuân Quyền, Nguyễn Hoàng Đức, Thái Đình Phúc, Đỗ Đức Đông 627 Dóng hàng mạng là tìm một đơn ánh từ vào tốt nhất theo một tiêu chí đánh giá nào đó. Hiện nay chƣa có định nghĩa rõ ràng cho tiêu chí này, dƣới đây phát biểu toán học cho định nghĩa bài toán dóng hàng theo tiêu chí thông dụng đƣợc dùng trong [1,4,5,14, 23]. Định nghĩa 1: (Dóng hàng mạng) Đồ thị là một mạng dóng hàng của hai đồ thị nếu nó thỏa mãn: i) Mỗi nút của đƣợc ký hiệu là tƣơng ứng với một cặp nút thuộc và thuộc . ii) Hai nút phân biệt và thuộc thì và iii) Cạnh thuộc nếu và chỉ nếu ( và . Định nghĩa 2: Một dóng hàng mạng là lời giải của bài toán dóng hàng toàn cục của các mạng proteins nếu nó cực đại global network alignment score (GNAS) cho bởi: | | ∑ (1) trong đó là tham số cân bằng giữa sự tƣơng đồng về tô pô mạng và sự tƣơng đồng trình tự giữa các nút, giá trị ( )đƣợc tính xấp xỉ dựa trên BLAST bit-scores hoặc E-values. Trong [1] Aladag và Erten [1] đã chứng minh bài toán tìm dóng hàng tối ƣu này là NP-hard. III. THUẬT TOÁN ACOPPI Khi áp dụng phƣơng pháp tối ƣu đàn kiến giải một bài toán cụ thể, cần giải quyết các vấn đề sau: - Cách xây dựng hành trình của mỗi kiến; - Chọn quy tắc cập nhật mùi. 3.1. Cách xây dựng hành trình của mỗi kiến Mỗi kiến xây dựng hành trình tƣơng ứng với việc tạo ra một lời giải của bài toán. Trong bài toán này, khi kiến xây dựng xong một hành trình cũng tƣơng ứng với việc tạo ra một phƣơng án dóng hàng mạng. Để kiến xây dựng hành trình, đầu tiên ta khởi tạo là rỗng. Sau đó, ta lặp lại công việc sau cho tới khi tất cả các nút của đều đƣợc ghép: kiến sẽ lựa chọn một nút (chƣa đƣợc ghép) thuộc , đồng thời xác định nút (chƣa đƣợc ghép) thuộc để ghép với và thêm nút vào . Nút đƣợc lựa chọn với tiêu chí là nút mang nhiều thông tin nhất, là nút có nhiều cạnh nối với các nút đã đƣợc ghép đƣợc trong . Nút đƣợc lựa chọn ngẫu nhiên với xác suất lựa chọn nút với nút là: { ∑ (2) Trong đó là giá trị thông tin heuristic, là hai tham số quyết định đến sự ảnh hƣởng tƣơng quan giữa thông tin mùi và thông tin heuristic, R là tập các đỉnh thuộc mà chƣa đƣợc ghép . Sau khi mỗi kiến xây dựng xong một hành trình, tƣơng ứng với một phƣơng án dóng hàng mạng, phƣơng án này sẽ đƣợc cải tiến nhờ thủ tục rebuild trong thuật toán FastNA [25]. 3.2. Cập nhật mùi Vết mùi thể hiện thông tin học tăng cƣờng qua mỗi vòng lặp. Trong bài toán này, đánh giá độ tốt khi ghép nút với nút . Thuật toán ACOPPI sử dụng phƣơng pháp cập nhật mùi SMMAS [27], đây là cách cập nhật mùi đơn giản và hiệu quả, cụ thể: với { 3.3. Mô tả thuật toán Dữ liệu đầu vào bao gồm: Đồ thị , tham số , Sự tƣơng đồng trình tự giữa các nút tƣơng ứng của . Với mỗi tập con các cặp nút của tập , ký hiệu { } { } Kết quả ra là một dóng hàng toàn cục . Lƣợc đồ thuật toán trong Hình 1 và đƣợc thực hiện theo các bƣớc sau: Bước 1. Khởi tạo: , | | Khởi tạo ma trận mùi với | | | | Bước 2. Thuật toán thực hiện chạy trong nhiều vòng lặp tiến hóa, điều kiện dừng có thể thiết đặt là giới hạn số vòng lặp tiến hóa hoặc giới hạn thời gian chạy. Trong mỗi vòng lặp tiến hóa, sẽ có n_ants kiến xây dựng hành trình, mỗi kiến thực hiện xây dựng hành trình nhƣ sau: 628 PHƢƠNG PHÁP TỐI ƢU ĐÀN KIẾN DÓNG HÀNG TOÀN CỤC CÁC MẠNG TƢƠNG TÁC PROTEIN Lặp với tới | | //mỗi kiến xây dựng hành trình 2.1. Kiến chọn nút trong có nhiều cạnh nối với các nút của 2.2. Kiến tìm nút j trong để ghép với theo (2) 2.3. B sung vào ; 2.4. Cập nhật dựa trên ; 2.5. Cải tiến lời giải do kiến xây dựng bằng thủ tục rebuild; Bước 3. Chọn lời giải của kiến có kết quả tốt nhất tính theo (1); Bước 4. Cập nhật mùi . Algorithm 1 ACOPPI Input: Đồ thị 1: ( ) Đồ thị 2: ( ) Sự tƣơng đồng trình tự giữa các nút: Tham số cân bằng Output: Dóng hàng mạng Begin Khởi tạo ma trận mùi và các tham số; while (điều kiện kết thúc) do for ant = 1 to n_ants do for to | | do = next_node_align( ); // chọn nút i có nhiều cạnh ghép với thành = best_node_align( ); // kiến tìm nút để dóng hàng với Update( )// Update( // cập nhật các cạnh của end-for Cải tiến lời giải do kiến xây dựng bằng thủ tục rebuild; end-for Update(GNAS); //chọn kết quả tốt nhất Update( );// cập nhật mùi end-while End Hình 1. Lƣợc đồ thuật toán ACOPPI IV. THỰC NGHIỆM, SO SÁNH KẾT QUẢ VỚI PHƯƠNG PHÁP SPINAL VÀ FastNA Chúng tôi tiến hành thực nghiệm với các bộ dữ liệu mà SPINAL và FastNA dùng thực nghiệm theo tiêu chí GNAS, từ đó làm cơ sở để so sánh hiệu quả với hai phƣơng pháp này. 4.1. Thực nghiệm Bảng 1. Thông tin về dữ liệu Dữ liệu Số lƣợng protein (số nút) Số lƣợng tƣơng tác (số cạnh) Ce 2805 4495 Dm 7518 25635 Sc 5499 31261 Hs 9633 34327 Với 4 bộ dữ liệu mạng PPI: Saccharomyces cerevisiae (sc), Drosophila melanogaster (dm), Caenorhabditis elegans (ce) và Homo sapiens (hs). Các dữ liệu này lấy từ [20] với số protein (số nút) và tƣơng tác (số cạnh) đƣợc cho trong bảng 1. Thực nghiệm trên 6 cặp mạng khác nhau (ce-dm, ce-hs, ce-sc, dm-hs, dm-sc, hs-sc. Tham số nhận 5 giá trị lần lƣợt bằng 0.3, 0.4, 0.5, 0.6, 0.7 nhƣ trong [1]. Số kiến sử dụng là n_ants = 10 kiến và số vòng lặp tiến hóa là 100. Với mỗi cặp mạng PPI và một tham số , chúng tôi cho chƣơng trình ACOPPI chạy 20 lần, thống kê kết quả tốt nhất, tồi nhất, trung bình của 20 lần chạy. Ngoài ra, chúng tôi thống kê cả độ lệch chuẩn để đánh giá sự n định của thuật toán. Kết quả thực nghiệm cho thấy chỉ có 03 bộ dữ liệu có độ lệch chuẩn trên 5% (ce-dm, =0.4; dm-hs, =0.3; ce- hs, =0.3), còn lại đều dƣới 5%. Điều đó cho thấy thuật toán tƣơng đối n định. Đỗ Xuân Quyền, Nguyễn Hoàng Đức, Thái Đình Phúc, Đỗ Đức Đông 629 Bảng 2. Kết quả thực nghiệm của ACOPPI theo tiêu chí GNAS Dữ liệu GNAS Độ lệch chuẩn Tốt nhất Tồi nhất Trung bình ce-dm 0.3 871.90 832.52 845.87 28.2 0.4 1132.28 1098.48 1117.88 17.1 0.5 1423.58 1370.75 1398.01 30.9 0.6 1695.37 1640.24 1675.85 25.5 0.7 1988.85 1882.64 1948.93 49.8 ce-sc 0.3 907.83 879.68 897.11 14.0 0.4 1204.98 1151.3 1182.04 28.1 0.5 1533.92 1464.01 1490.97 47.1 0.6 1814.15 1777.82 1794.66 22.0 0.7 2125.83 2038.63 2091.70 43.1 ce-hs 0.3 947.17 921.03 933.16 16.2 0.4 1253.58 1216.44 1233.45 23.4 0.5 1584.46 1526.57 1552.57 37.1 0.6 1881.86 1827.45 1856.31 29.8 0.7 2209.16 2093.65 2161.71 56.4 dm-hs 0.3 2338.23 2279.92 2311.71 31.4 0.4 3100.49 3065.58 3078.24 24.2 0.5 3903.09 3807.47 3843.51 67.1 0.6 4643.84 4592.64 4614.06 34.3 0.7 5418.28 5237.49 5355.05 83.6 dm-sc 0.3 2064.87 2016.55 2045.85 22.6 0.4 2745.92 2709.92 2728.14 21.5 0.5 3440.56 3387.25 3408.96 35.7 0.6 4146.21 4072.89 4107.10 46.6 0.7 4823.11 4734.98 4782.83 45.8 hs-sc 0.3 2470.01 2430.87 2448.04 25.8 0.4 3292.55 3224.92 3262.86 37.5 0.5 4121.73 4047.1 4090.46 39.5 0.6 4948.06 4823.59 4893.83 64.3 0.7 5770.44 5678.02 5733.31 50.1 4.2. So sánh Từ dữ liệu trong bảng 2, chúng tôi tiến hành lấy kết quả trung bình của 20 lần chạy để so sánh với kết quả của hai thuật toán SPINAL và FastNA, thể hiện trong bảng 3. Bảng 3. So sánh kết quả thực nghiệm của ACOPPI với SPINAL và FastNA Dữ liệu Thuật toán ce-dm SPINAL 717.99 941.19 1159.93 1350.59 1586.87 FastNA 778.46 1034.20 1290.11 1545.86 1801.24 ACOPPI 845.87 1117.88 1398.01 1675.85 1948.93 ce-hs SPINAL 728.26 993.07 1229.95 1501.61 1764.93 FastNA 863.46 1144.17 1429.89 1708.81 1994.87 ACOPPI 933.16 1233.45 1552.57 1856.31 2161.71 ce-sc SPINAL 709.12 963.28 1168.95 1422.74 1683.13 FastNA 834.79 1109.93 1389.21 1663.39 1936.83 ACOPPI 897.11 1182.04 1490.97 1794.66 2091.70 dm-hs SPINAL 1883.22 2517.23 3160.48 3790.79 4451.60 FastNA 2260.31 3007.11 3755.36 4496.45 5242.32 ACOPPI 2311.71 3078.24 3843.51 4614.06 5355.05 dm-sc SPINAL 1579.06 2075.14 2668.65 3180.27 3759.07 FastNA 1977.82 2631.85 3290.03 3950.16 4603.41 ACOPPI 2045.85 2728.14 3408.96 4107.10 4782.83 hs-sc SPINAL 1731.81 2253.66 2839.00 3434.54 4066.22 FastNA 2268.21 3017.96 3772.96 4520.51 5279.88 ACOPPI 2448.04 3262.86 4090.46 4893.83 5733.31 Với mỗi bộ dữ liệu là một cặp mạng PPI và một giá trị tham số chúng tôi so sánh kết quả của thuật toán ACOPPI với SPINAL và FastNA theo hai tiêu chí GNAS. Bảng dữ liệu III cho thấy toàn bộ kết quả của ACOPPI đều vƣợt trội so với SPINAL và hơn đáng kể so với FastNA. Đặc biệt, kết quả tồi nhất trong 20 lần chạy của ACOPPI cũng đều tốt hơn FastNA và SPINAL. V. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ACOPPI là phƣơng pháp meta heuristic cho bài toán dóng hàng toàn cục các mạng tƣơng tác protein. So với các phƣơng pháp heuristic trƣớc đây, thấy thuật toán đề xuất có tính n định và có điểm dóng hàng vƣợt trội so với SPINAL và tốt hơn đáng kể so với FastNA. 630 PHƢƠNG PHÁP TỐI ƢU ĐÀN KIẾN DÓNG HÀNG TOÀN CỤC CÁC MẠNG TƢƠNG TÁC PROTEIN Trong [1], các tác giả có đề xuất một phiên bản của SPINAL cho tiêu chí GOC. Trong thời gian tới, chúng tôi sẽ nghiên cứu, phát triển ACOPPI theo hƣớng này. VI. LỜI CẢM ƠN Bài báo đƣợc hoàn thành trong khuôn kh của đề tài KHCN cấp ĐHQGHN, Mã số đề tài: QG.15.21. TÀI LIỆU THAM KHẢO [1] Aladag, A. E. and Erten,C. (2013), SPINAL: scalable protein interaction network alignment. Bioinformatics, Vol. 29 no 7, 917–924 [2] Bader, G. D. and Hogue, C. W. (2002), Analyzing yeast protein-protein interaction data obtained from different sources. Nat. Biotechnol., 20, 991–997. [3] Banks, E. et al., (2008), NetGrep: fast network schema searches in interactomes. Genome Biology, 9,R138 [4] Chindelevitch, L. et al. (2010), Local optimization for global alignment of protein interaction networks. In: Pacific Symposium on Biocomputing, Hawaii, USA, pp. 123–132 [5] Chindelevitch L. et al. (2013), Optimizing a global alignment of protein interaction networks, Bioinformatics ,Vol. 29 no. 21, 2765–2773 [6] Dost, B. et al. (2008), QNet: a tool for querying protein interaction networks. J. Comput. Biol., 15, 913–925 [7] Dutkowski, J. and Tiuryn, J. (2007), Identification of functional modules from conserved ancestral protein–protein interactions. Bioinformatics, 23, i149–i158. [8] Han, J. D. et al. (2004), Evidence for dynamically organized modularity in the yeast protein-protein interaction network. Nature, 430, 88–93. [9] B. H. Junker and F. Schreiber, Analysis of Bological Networks, wiley, 2008 [10] Kelley, B. P. et al. (2003), Conserved pathways within bacteria and yeast as revealed by global protein network alignment. Proc. Natl Acad. Sci. USA, 100, 11394–11399. [11] Kelley, B. P. et al. (2004), Pathblast: a tool for alignment of protein interaction networks. Nucleic Acids Res., 32,83–88. [12] Koyuturk, M. et al. (2006), Pairwise alignment of protein interaction networks. J. Comput. Biol., 13, 182–199. [13] Kuchaiev, O. et al. (2010), Topological network alignment uncovers biological function and phylogeny. J. R. Soc. Interface., 7, 1341–1354. [14] Kuchaiev, O. and Przulj, N. (2011) Integrative network alignment reveals large regions of global network similarity in yeast and human. Bioinformatics, 27, 1390–1396. [15] Kuhn HW: The Hungarian Method for the assignment problem. Naval Res Logistics Q 1955, 2:83-97. [16] Liao, C.S. et al. (2009) IsoRankN: spectral methods for global alignment of multiple protein networks. Bioinformatics, 25, i253–i258. [17] Memisevic,V. and Przulj,N. (2012), C-graal: common-neighbors-based global graph alignment of biological networks. Integr. Biol., 4, 734–743. [18] Milenkovic, T. et al. (2010), Optimal network alignment with graphlet degree vectors. Cancer Inform., Vol.9, 121–137. [19] Narayanan, M. and Karp, R. M. (2007), Comparing protein interaction networks via a graph match-and-split algorithm. J. Comput. Biol., Vol. 14, 892–907. [20] Park, D. et al. (2011) IsoBase: a database of functionally related proteins across PPI networks. Nucleic Acids Res., 39, 295–300 [21] Remm, M. et al. (2001), Automatic clustering of orthologs and in-paralogs from pairwise species comparisons. J. Mol. Biol., 314, 1041–1052. [22] Sharan, R. et al. (2005), Conserved patterns of protein interaction in multiple species. Proc. Natl Acad. Sci. USA, 102, 1974– 1979. [23] Singh, R. et al. (2008), Global alignment of multiple protein interaction networks. In: Pacific Symposium on Biocomputing. pp. 303–314. [24] Zaslavskiy, M. et al. (2009) Global alignment of protein-protein interaction networks by graph matching methods. Bioinformatics, Vol.25, 259–267. [25] Do, D. D. et al. (2015), An efficient algorithm for global alignment of protein-protein interaction networks. Int. Conf. ATC 2015, pp. 332-336. [26] M. Dorigo and T. Stutzle. Ant Colony Optimization. The MIT Press, Cambridge, Masachusetts, 2004. [27] Do, D. D., Dinh, Q. H, & Hoang, X. H. (2008). On the pheromone update rules of antcolony optimization approaches for the job shop scheduling problem. In Bui, T. D., Ho,T. V, Ha, Q. T., editors, The 11th Paci_c Rim International Conference on Multi-Agents:Intelligent Agents and Multi-Agent Systems, volume 5357 of Lecture Notes in ComputerScience, 153-160, Springer, Heidelberg. AN EFFICIENT ANT COLONY OPTIMIZATION FOR GLOBAL ALIGNMENT OF PROTEIN-PROTEIN INTERACTION NETWORK Do Xuan Quyen, Nguyen Hoang Duc, Thai Dinh Phuc, Do Duc Dong ABSTRACT— Global alignment of protein-protein interaction (PPI) network provides helpful information to discover features of protein, therefore the problem has been well studied worldwide. We present an effective metaheuristics algorithm ACOPPI, to tackle this problem. The algorithm applies Ant Colony Optimization (ACO) method to align PPI network combined with local search. Based on experiments, our algorithm showed better results than the published SPINAL algorithm and fastNA algorithm.
File đính kèm:
- phuong_phap_toi_uu_dan_kien_dong_hang_toan_cuc_cac_mang_tuon.pdf