Lắp ráp, chú giải và phân tích hệ phiên mã tôm sú Penaeus monodon
TÓM TẮT
Tôm sú (Penaeus monodon) là loài thủy sản đem lại nguồn lợi lớn cho quốc gia trong những năm
gần đây. Tuy nhiên, các dữ liệu về hệ gene và hệ phiên mã của chúng còn hạn chế. Mặc dù công
việc gia hóa sử dụng các biện pháp di truyền chọn giống đã nâng cao chất lượng tôm sú. Tuy
nhiên, nhu cầu giải mã và phân tích hệ gene, hệ phiên mã của của tôm sú để tìm ra các chỉ thị phân
tử cũng như các dữ liệu quan trọng khác sẽ giúp tăng hiệu suất cho quá trình chọn giống. Trong
bài báo này, chúng tôi công bố kết quả giải trình tự hệ phiên mã của tôm sú bằng công nghệ đọc
trình tự thế hệ mới. Với 9 Gb dữ liệu thu được từ máy Illumina MiSeq, chúng tôi tiến hành lắp ráp
de novo để tạo ra ngân hàng với 51.638 transcript, từ đó thực hiện chú giải chức năng transcript,
phát hiện được 7.016 chỉ thị phân tử microsatellite và 17.783 SNP. Chúng tôi xây dựng hệ thống
website quản lý các ngân hàng transcript cũng như các công cụ phân tích cần thiết. Kết quả của
bài báo là tiền đề cho các nghiên cứu chuyên sâu hơn về loài tôm sú mang lại nguồn lợi lớn này
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Tóm tắt nội dung tài liệu: Lắp ráp, chú giải và phân tích hệ phiên mã tôm sú Penaeus monodon
trường hợp microsatellite là mononucleotide thì không được nghiên cứu vì rất khó để có thế phân biệt được mononucleotide thật sự từ những vùng polyadenylation hay đó chỉ là mononucleotideđược tạo ra do lỗi giải trình tự. Các trình tự transcript bên cạnh đó cũng sẽ được khai phá các marker đa hình đơn nucleotide SNP. Chúng tôi ánh xạ các trình tự đọc ngược trở lại vào hệ phiên mã tham chiếu vừa lắp ráp bằng phần mềm Bowtie2. Kết quả ánh xạ sẽ được 2 công cụ SAMtools và VarScan ( (Koboldt và ctv., 2012) xử lý để tìm ra các loci tiềm năng bị thay đổi nucleotide. Để sàng lọc kết quả dương tính giả do lỗi giải trình tự hoặc Bảng 1. Thống kê số liệu dữ liệu thô và sau khi tiền xử lý Số lượng trình tự đọc Độ dài %GC % Tiền xử lý Mô tim 45.063.432 35-200 59 Mô tim – tinh sạch 40.313.722 70-200 59 89,46% Chú giải chức năng cho hệ phiên mã Sử dụng công cụ BLAST với chế độ BLASTX tìm kiếm những transcript vừa lắp ráp trên cơ sở dữ liệu nr NCBI với tham số E-value 1e-6, chúng tôi đã tìm được 14.601 transcript được chú giải chức năng (Hình 2). Vì độ dài trung bình của transcript sau khi lắp ráp khá ngắn (độ dài N50 dài 726 bp) và không có hệ gene tham chiếu tôm sú nên sẽ có một lượng lớn transcript không thể chú giải chức VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2 12 TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015 năng. Phân bố E-value cho những kết quả tin cậy nhất thể hiện các transcript được chú giải có độ tin cậy rất cao (E-value nhỏ hơn 1e- 15) và dải E-value phân bố từ 1e-15 đến 1e-5 Hình 1. Phân bố độ dài của toàn bộ tran- script sau khi lắp ráp Hình 2. Thống kê kết quả chú giải lên cơ sở dữ liệu NCBI Hình 3. Thống kê loài từ kết quả Tophit BLASTX Phân bố kết quả có độ tương đồng cao nhất từ cơ sở dữ liệu NR của NCBI được xây dựng thành cây phân loài, chỉ ra rằng loài Daphnia pulex chiếm đa số và cũng đứng gần chiếm 21,1%. Trong khi đó 99,9% transcript có độ tương đồng lớn hơn 40% và 0,01% tran- script có độ tương đồng từ 40% đến 15%. Tổng số transcript Transcript ngắn nhất Transcript dài nhất Average N50 N10 %GC Tổng số base % trình tự đọc sử dụng Mô tim 51.638 201 15.659 531,24 726 3.273 49,81 27.432.242 37.760.643 (93,66%) Bảng 2. Thống kê chất lượng transcript sau khi lắp ráp de novo tôm sú trên cây phân loài của NCBI trong khi đó kết quả ứng với tôm sú Penaeus monodon đứng thứ 6 với 330 kết quả (Hình 3). VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2 TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015 13 tính theo công thức như sau: RPKM = (Độ dài transcript) x (Tổng số read) Số lượng read bám vào transcript Do đó, chúng tôi đưa ra sơ đồ phân bố biểu hiện cho toàn bộ các transcript của mô tim trong Hình 4. Những transcript có mức độ biểu hiện cao trong mô tim (6,22% toàn bộ transcript) là những transcript tiềm năng đặc hiệu cho riêng mô tim và sẽ được nghiên cứu sâu hơn. 3.3. Khai phá dữ liệu microsatellite và SNP Toàn bộ transcript trong hệ phiên mã mô tim tôm sú được khai phá để tìm các locus đa hình bao gồm microsatellite và SNP, 18.838 microsatellite được tìm thấy trong 13.965 transcript trong đó có 3.551 transcript có nhiều hơn một microsatellite và 2.759 microsatellite ở dạng compound (Bảng 3). Trong số các microsatellite được tìm thấy chiếm số lượng nhiều nhất là dinucleotide (42%) và trinucleotide (52,8%), theo sau đó là tetra- (4,97%), hexa- (0,16%) và pentanucleotide (0,06%) (Bảng 4). Trong dinucleotide microsatellite, miền lặp nhiều nhất là AG/CT (45,6%), theo sau là miền lặp là AC/GT (35,52%). Còn với trinucleotide microsatellite, miền lặp nhiều nhất là AGG/ CCT (21,3%), theo sau là miền lặp AGC/CTG (16,95%). Tổng số transcript thực hiện 51.638 Độ dài tổng số của toàn bộ transcript 27.432.242 Tổng số microsatellite được phát hiện 7.016 Số lượng transcript có microsatellite 5.711 Số lượng transcript có nhiều hơn 1 micro- satelltite 883 Số lượng microsatellite ở dạng compound 710 Bảng 3. Kết quả tìm kiếm microsatellite Hình 4. Thống kê mức độ biểu hiện giữa các transcript trong mô tim Hình 5. Thống kê các miền lặp trong hệ phiên mã mô tim tôm sú Miền lặp Số lượng microsatellite 2 2.947 3 3.705 4 349 5 4 6 11 Bảng 4. Phân bố miền lặp microsatellite 3.2. Phân tích biểu hiện trong mô tim RPKM là một đơn vị biểu hiện thể hiện mức độ biểu hiện của từng transcript/contig đối với một hệ phiên mã hoàn chỉnh và được VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2 14 TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015 SNP) (Hình 6). Phân bố của tần số thay đổi alen cũng cho thấy phần lớn SNP tiềm năng có tần số nằm trong khoảng từ 30 đến 50% (Hình 7). 3.4. Phần mềm quản lý ngân hàng transcript Chúng tôi đã xây dựng phần mềm quản lý hệ phiên mã tôm sú hoạt động trực tuyến tại địa chỉ Phần mềm cho phép duyệt và xem chi tiết từng transcript cũng như các microsatellite và SNP của chúng. Các tham số được điều chỉnh trong các phần mềm Bowtie2, SAMtools và VarScan, cùng với đó do hệ phiên mã được xây dựng từ một cá thể tôm nên chúng tôi nhắm đến các vị trí có tần số thay đổi alen là 50% được coi là các vị trí dị hợp về alen. Dựa vào đó chúng tôi tìm ra được 17.783 SNP tiềm năng trong 6.683 transcript với mật độ trung bình là 0,648 SNP mỗi một kb. Hầu hết các SNP tiềm năng này đều được phân loại vào transition (2/3 tổng số Hình 8. Giao diện phần mềm quản lý hệ phiên mã tôm sú Hình 6. Tỉ lệ transition (AG hoặc CT) và transversion (AT, CG) trong các SNP tiềm năng Hình 7. Phân bố tần số thay đổi alen trên các SNP tiềm năng VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2 TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015 15 cắt nối intron, sản phẩm gene mới hay phân tích biểu hiện gene. Việc tìm ra một số lượng lớn các vùng microsatellite và SNP sẽ là nguồn chỉ thị phân tử hữu ích cho những nghiên cứu trong tương lai để sàng lọc các tính trạng số lượng trong phân tích quần thể và phả hệ. Hệ gene của tôm sú được coi là có số lượng microsatellite rất lớn, lớn hơn cả nhiều động vật có xương sống và nhiều gấp 4 lần so với hệ gene cá lóc Fugu (Huang và ctv., 2011; Maneeruttanarungroj và ctv., 2006). Lý do vì sao số lượng microsatellite trong tôm sú lại nhiều như vậy thì chưa được giải thích rõ ràng nhưng có những giả thiết cho rằng chắc chắn microsatellite trong tôm sú có liên quan đến vai trò bảo toàn những chức năng quan trọng trong tôm sú. Như vậy cần có những nghiên cứu sâu hơn về việc kết hợp các vùng lặp lại microsatellite trong gene đã biểu hiện với các tính trạng số lượng đã biết của tôm sú. Nhằm hướng đến việc thiếp lập bản đồ di truyền và khai phá được những thông tin đa hình của tôm sú một cách chính xác, ở những nghiên cứu tiếp theo, chúng tôi sẽ tăng số lượng mẫu và số lượng mô dùng để tách chiết RNA cũng như lấy mẫu ở những vùng địa lý khác nhau. V. KẾT LUẬN Trong nghiên cứu này, từ dữ liệu giải trình tự thế hệ mới của mô tim tôm sú nuôi ở Việt Nam, chúng tôi đã lắp ráp được hệ phiên mã bằng phương pháp de novo. Từ dữ liệu đã lắp ráp, trình tự được so sánh trên các cơ sở dữ liệu protein của thế giới như Nr NCBI. Cuối cùng đã xây dựng được website trực quan quản lý dữ liệu trình tự, dữ liệu chú giải và dữ liệu phân tích biểu hiện cho tôm sú nuôi ở Việt Nam. Những dữ liệu này rất có ích cho những phân tích tiếp theo đặc biệt là truy tìm những chỉ thị tiềm năng liên kết với các tính trạng quan trọng trên tôm sú như tăng trưởng và kháng bệnh. IV. THẢO LUẬN Trên thế giới thì tôm sú là loài chưa được xây dựng bản đồ hệ gen hoàn chỉnh từ trước đến nay mặc dù đã có những thông tin về EST trên ngân hàng Genbank của NCBI, do vậy giải trình tự hệ phiên mã (RNA-seq) là một hướng đi đúng đắn cho việc khai phá de novo những thông tin về hệ gene bên trong tôm sú. Với phương pháp RNA-seq, chúng ta chỉ cần một lượng mẫu RNA rất nhỏ là đã đảm bảo chất lượng giải trình tự cho những phân tích tin sinh tiếp theo. Sự tiến bộ của công nghệ giải trình tự thế hệ mới đi kèm với đó là độ dài trình tự đọc tăng lên cũng như các phần mềm lắp ráp tin sinh học được phát triển sâu hơn đã giúp các kết quả phân tính chính xác hơn rất nhiều so với trước kia. Lắp ráp de novo hệ phiên mã đã thực sự tạo nên sự đột phá với rất nhiều trình tự được giải mã trên rất nhiều các loài khác mà cũng không hề có thông tin hệ gene tham chiếu như tôm sú (Meyer và ctv., 2009; Nielsen và ctv., 2010; Novaes và ctv., 2008; Wheat, 2010). Chúng tôi thực hiện phân tích ước chừng số lượng gene và chú giải chức năng những gene này cho hệ phiên mã tôm sú bằng công cụ BLAST, kết quả có 71,72% số lượng transcript không được chú giải chức năng vì không thể tìm thấy các trình tự tương đồng với chúng trên ngân hàng dữ liệu. Để có thể tìm ra được một trình tự tương đồng có ý nghĩa trên ngân hàng dữ liệu có một phần phụ thuộc vào độ dài của trình tự cần tìm kiếm, chủ yếu các trình tự không tìm thấy trên cơ sở dữ liệu có độ dài nhỏ hơn 300 bp, các trình tự có độ dải nhỏ thế này rất thường xuyên xuất hiện trong các nghiên cứu của giải trình tự thế hệ mới và việc chú giải chức năng cho chúng vẫn còn rất khó khăn với các phần mềm tin sinh hiện nay (Novaes và ctv., 2008). Tuy nhiên thì các transcipt không được tìm thấy trên ngân hàng dữ liệu được coi là nguồn thông tin quý giá cho những nghiên cứu tiếp theo về quá trình VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2 16 TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015 Alignment/Map format and SAMtools. Bioinforma. Oxf. Engl. 25, 2078–2079. Maneeruttanarungroj, C., Pongsomboon, S., Wuthisuthimethavee, S., Klinbunga, S., Wilson, K.J., Swan, J., Li, Y., Whan, V., Chu, K.-H., Li, C.P., Tong, J., Glenn, K., Rothschild, M., Jerry, D., Tassanakajon, A., 2006. Development of polymorphic expressed sequence tag-derived microsatellites for the extension of the genetic linkage map of the black tiger shrimp (Penaeus monodon). Anim. Genet. 37, 363–368. Meyer, E., Aglyamova, G.V., Wang, S., Buchanan- Carter, J., Abrego, D., Colbourne, J.K., Willis, B.L., Matz, M.V., 2009. Sequencing and de novo analysis of a coral larval transcriptome using 454 GSFlx. BMC Genomics 10, 219. Nielsen, C.B., Cantor, M., Dubchak, I., Gordon, D., Wang, T., 2010. Visualizing genomes: techniques and challenges. Nat. Methods 7, S5–S15. Novaes, E., Drost, D.R., Farmerie, W.G., Pappas, G.J., Grattapaglia, D., Sederoff, R.R., Kirst, M., 2008. High-throughput gene and SNP discovery in Eucalyptus grandis, an uncharacterized genome. BMC Genomics 9, 312. Thiel, T., Michalek, W., Varshney, R.K., Graner, A., 2003. Exploiting EST databases for the development and characterization of gene- derived SSR-markers in barley (Hordeum vulgare L.). TAG Theor. Appl. Genet. Theor. Angew. Genet. 106, 411–422. Wheat, C.W., 2010. Rapidly developing functional genomics in ecological model systems via 454 transcriptome sequencing. Genetica 138, 433–451. You, E.M., Liu, K.F., Huang, S.W., Chen, M., Groumellec, M.L., 2010. Construction of integrated genetic linkage maps of the tiger shrimp (Penaeus monodon) using microsatellite and AFLP markers. Anim Genet 41, 365–376. TÀI LIỆU THAM KHẢO Andriantahina, F., Liu, X., Feng, T., Xiang, J., 2013. Current status of genetics and genomics of reared penaeid shrimp: information relevant to access and benefit sharing. Mar. Biotechnol. N. Y. N 15, 399–412. Conesa, A., Götz, S., García-Gómez, J.M., Terol, J., Talón, M., Robles, M., 2005. Blast2GO: a universal tool for annotation, visualization and analysis in functional genomics research. Bioinforma. Oxf. Engl. 21, 3674–3676. FAO, 2010. Food and Agriculture Organisation of the United Nations. The state ofworld fisheries and aquaculture. Grabherr, M.G., Haas, B.J., Yassour, M., Levin, J.Z., Thompson, D.A., Amit, I., Adiconis, X., Fan, L., Raychowdhury, R., Zeng, Q., Chen, Z., Mauceli, E., Hacohen, N., Gnirke, A., Rhind, N., di Palma, F., Birren, B.W., Nusbaum, C., Lindblad-Toh, K., Friedman, N., Regev, A., 2011. Full-length transcriptome assembly from RNA-Seq data without a reference genome. Nat. Biotechnol. 29, 644–652. Huang, S.-W., Lin, Y.-Y., You, E.-M., Liu, T.-T., Shu, H.-Y., Wu, K.-M., Tsai, S.-F., Lo, C.-F., Kou, G.-H., Ma, G.-C., others, 2011. Fosmid library end sequencing reveals a rarely known genome structure of marine shrimp Penaeus monodon. BMC Genomics 12, 242. Koboldt, D.C., Zhang, Q., Larson, D.E., Shen, D., McLellan, M.D., Lin, L., Miller, C.A., Mardis, E.R., Ding, L., Wilson, R.K., 2012. VarScan 2: Somatic mutation and copy number alteration discovery in cancer by exome sequencing. Genome Res. 22, 568– 576. Langmead, B., Salzberg, S.L., 2012. Fast gapped- read alignment with Bowtie 2. Nat. Methods 9, 357–359. Li, H., Handsaker, B., Wysoker, A., Fennell, T., Ruan, J., Homer, N., Marth, G., Abecasis, G., Durbin, R., 1000 Genome Project Data Processing Subgroup, 2009. The Sequence VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2 TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015 17 ASSEMBLING, ANNOTATING AND ANALYZING THE TRANSCRIPTOME OF Penaeus monodon Nguyen Cuong1*, Pham Quang Huy1, Nguyen Van Lam1, Ha Thi Thu1, Pham Thi Hoa1, Nguyen Hai Trieu1, Dau Huy Tung1, Nguyen Giang Thu2, Nguyen Huu Ninh3, Dong Van Quyen1, Chu Hoang Ha1, Dinh Duy Khang1 ABSTRACT Despite black tiger shrimp (Penaeus monodon) is the important aquaculture species in our country and contributes significantly to the export revenues in the recent years, the data of the black tiger shrimp genome and transcriptome are not well documented until now. Although domestication and genetic improvement can be implemented through traditional breeding programs, the molecular markers and other data generated from genome and transcriptome sequencing will greatly improve the efficiency and effectiveness of selection. In this paper, the transcriptome of P. monodon was sequenced using the Next Generation Sequencing technology with the raw data size of 9 Gb. The raw reads were de novo assembled to get 51.638 transcripts. Those transcripts were annotated and analyzed to find 7.016 microsatellites and 17.783 SNPs. A website with helpful utilities had been developed to manage the transcripts. These results would be useful for further research on P. monodon. Keywords: transcriptome, assembling de novo, next generation sequencing, annotating, gene display, microsatellite, SNP. Người phản biện: TS. Nguyễn Văn Sáng Ngày nhận bài: 29/5/2015 Ngày thông qua phản biện: 03/8/2015 Ngày duyệt đăng: 07/8/2015 1Institute of Biotechnology *Email: cuongnguyen@ibt.ac.vn 2Sub-Department of Environment and Technology Science 3Research Institute for Aquaculture No 1
File đính kèm:
- lap_rap_chu_giai_va_phan_tich_he_phien_ma_tom_su_penaeus_mon.pdf