Lắp ráp, chú giải và phân tích hệ phiên mã tôm sú Penaeus monodon

TÓM TẮT

Tôm sú (Penaeus monodon) là loài thủy sản đem lại nguồn lợi lớn cho quốc gia trong những năm

gần đây. Tuy nhiên, các dữ liệu về hệ gene và hệ phiên mã của chúng còn hạn chế. Mặc dù công

việc gia hóa sử dụng các biện pháp di truyền chọn giống đã nâng cao chất lượng tôm sú. Tuy

nhiên, nhu cầu giải mã và phân tích hệ gene, hệ phiên mã của của tôm sú để tìm ra các chỉ thị phân

tử cũng như các dữ liệu quan trọng khác sẽ giúp tăng hiệu suất cho quá trình chọn giống. Trong

bài báo này, chúng tôi công bố kết quả giải trình tự hệ phiên mã của tôm sú bằng công nghệ đọc

trình tự thế hệ mới. Với 9 Gb dữ liệu thu được từ máy Illumina MiSeq, chúng tôi tiến hành lắp ráp

de novo để tạo ra ngân hàng với 51.638 transcript, từ đó thực hiện chú giải chức năng transcript,

phát hiện được 7.016 chỉ thị phân tử microsatellite và 17.783 SNP. Chúng tôi xây dựng hệ thống

website quản lý các ngân hàng transcript cũng như các công cụ phân tích cần thiết. Kết quả của

bài báo là tiền đề cho các nghiên cứu chuyên sâu hơn về loài tôm sú mang lại nguồn lợi lớn này

Lắp ráp, chú giải và phân tích hệ phiên mã tôm sú Penaeus monodon trang 1

Trang 1

Lắp ráp, chú giải và phân tích hệ phiên mã tôm sú Penaeus monodon trang 2

Trang 2

Lắp ráp, chú giải và phân tích hệ phiên mã tôm sú Penaeus monodon trang 3

Trang 3

Lắp ráp, chú giải và phân tích hệ phiên mã tôm sú Penaeus monodon trang 4

Trang 4

Lắp ráp, chú giải và phân tích hệ phiên mã tôm sú Penaeus monodon trang 5

Trang 5

Lắp ráp, chú giải và phân tích hệ phiên mã tôm sú Penaeus monodon trang 6

Trang 6

Lắp ráp, chú giải và phân tích hệ phiên mã tôm sú Penaeus monodon trang 7

Trang 7

Lắp ráp, chú giải và phân tích hệ phiên mã tôm sú Penaeus monodon trang 8

Trang 8

Lắp ráp, chú giải và phân tích hệ phiên mã tôm sú Penaeus monodon trang 9

Trang 9

pdf 9 trang xuanhieu 13360
Bạn đang xem tài liệu "Lắp ráp, chú giải và phân tích hệ phiên mã tôm sú Penaeus monodon", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Lắp ráp, chú giải và phân tích hệ phiên mã tôm sú Penaeus monodon

Lắp ráp, chú giải và phân tích hệ phiên mã tôm sú Penaeus monodon
trường hợp microsatellite là mononucleotide 
thì không được nghiên cứu vì rất khó để có 
thế phân biệt được mononucleotide thật sự 
từ những vùng polyadenylation hay đó chỉ là 
mononucleotideđược tạo ra do lỗi giải trình tự. 
Các trình tự transcript bên cạnh đó cũng 
sẽ được khai phá các marker đa hình đơn 
nucleotide SNP. Chúng tôi ánh xạ các trình 
tự đọc ngược trở lại vào hệ phiên mã tham 
chiếu vừa lắp ráp bằng phần mềm Bowtie2. 
Kết quả ánh xạ sẽ được 2 công cụ SAMtools 
và VarScan ( 
(Koboldt và ctv., 2012) xử lý để tìm ra các loci 
tiềm năng bị thay đổi nucleotide. Để sàng lọc 
kết quả dương tính giả do lỗi giải trình tự hoặc 
Bảng 1. Thống kê số liệu dữ liệu thô và sau khi tiền xử lý
Số lượng trình tự đọc Độ dài %GC % Tiền xử lý
Mô tim 45.063.432 35-200 59
Mô tim – tinh sạch 40.313.722 70-200 59 89,46%
Chú giải chức năng cho hệ phiên mã
Sử dụng công cụ BLAST với chế độ 
BLASTX tìm kiếm những transcript vừa lắp 
ráp trên cơ sở dữ liệu nr NCBI với tham số 
E-value 1e-6, chúng tôi đã tìm được 14.601 
transcript được chú giải chức năng (Hình 2). 
Vì độ dài trung bình của transcript sau khi lắp 
ráp khá ngắn (độ dài N50 dài 726 bp) và không 
có hệ gene tham chiếu tôm sú nên sẽ có một 
lượng lớn transcript không thể chú giải chức 
VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2
12 TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015
năng. Phân bố E-value cho những kết quả tin 
cậy nhất thể hiện các transcript được chú giải 
có độ tin cậy rất cao (E-value nhỏ hơn 1e-
15) và dải E-value phân bố từ 1e-15 đến 1e-5 
Hình 1. Phân bố độ dài của toàn bộ tran-
script sau khi lắp ráp
Hình 2. Thống kê kết quả chú giải lên cơ 
sở dữ liệu NCBI
Hình 3. Thống kê loài từ kết quả 
Tophit BLASTX
Phân bố kết quả có độ tương đồng cao 
nhất từ cơ sở dữ liệu NR của NCBI được xây 
dựng thành cây phân loài, chỉ ra rằng loài 
Daphnia pulex chiếm đa số và cũng đứng gần 
chiếm 21,1%. Trong khi đó 99,9% transcript 
có độ tương đồng lớn hơn 40% và 0,01% tran-
script có độ tương đồng từ 40% đến 15%.
Tổng số 
transcript
Transcript 
ngắn nhất
Transcript 
dài nhất
Average N50 N10 %GC Tổng số base % trình tự đọc sử 
dụng
Mô tim 51.638 201 15.659 531,24 726 3.273 49,81 27.432.242 37.760.643 
(93,66%)
Bảng 2. Thống kê chất lượng transcript sau khi lắp ráp de novo
tôm sú trên cây phân loài của NCBI trong khi 
đó kết quả ứng với tôm sú Penaeus monodon 
đứng thứ 6 với 330 kết quả (Hình 3).
VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2
TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015 13
tính theo công thức như sau:
RPKM =
(Độ dài transcript) x (Tổng số read)
Số lượng read bám vào transcript
Do đó, chúng tôi đưa ra sơ đồ phân bố 
biểu hiện cho toàn bộ các transcript của mô 
tim trong Hình 4. Những transcript có mức 
độ biểu hiện cao trong mô tim (6,22% toàn bộ 
transcript) là những transcript tiềm năng đặc 
hiệu cho riêng mô tim và sẽ được nghiên cứu 
sâu hơn.
3.3.	Khai	phá	dữ	liệu	microsatellite	và	SNP
Toàn bộ transcript trong hệ phiên mã mô 
tim tôm sú được khai phá để tìm các locus đa 
hình bao gồm microsatellite và SNP, 18.838 
microsatellite được tìm thấy trong 13.965 
transcript trong đó có 3.551 transcript có nhiều 
hơn một microsatellite và 2.759 microsatellite 
ở dạng compound (Bảng 3). Trong số các 
microsatellite được tìm thấy chiếm số lượng 
nhiều nhất là dinucleotide (42%) và trinucleotide 
(52,8%), theo sau đó là tetra- (4,97%), hexa- 
(0,16%) và pentanucleotide (0,06%) (Bảng 
4). Trong dinucleotide microsatellite, miền lặp 
nhiều nhất là AG/CT (45,6%), theo sau là miền 
lặp là AC/GT (35,52%). Còn với trinucleotide 
microsatellite, miền lặp nhiều nhất là AGG/
CCT (21,3%), theo sau là miền lặp AGC/CTG 
(16,95%).
Tổng số transcript thực hiện 51.638
Độ dài tổng số của toàn bộ transcript 27.432.242
Tổng số microsatellite được phát hiện 7.016
Số lượng transcript có microsatellite 5.711
Số lượng transcript có nhiều hơn 1 micro-
satelltite
883
Số lượng microsatellite ở dạng compound 710
Bảng 3. Kết quả tìm kiếm microsatellite
Hình 4. Thống kê mức độ biểu hiện giữa các 
transcript trong mô tim
Hình 5. Thống kê các miền lặp trong hệ phiên 
mã mô tim tôm sú
Miền lặp Số lượng microsatellite
2 2.947
3 3.705
4 349
5 4
6 11
Bảng 4. Phân bố miền lặp microsatellite
3.2.	Phân	tích	biểu	hiện	trong	mô	tim
RPKM là một đơn vị biểu hiện thể hiện 
mức độ biểu hiện của từng transcript/contig 
đối với một hệ phiên mã hoàn chỉnh và được 
VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2
14 TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015
SNP) (Hình 6). Phân bố của tần số thay đổi alen 
cũng cho thấy phần lớn SNP tiềm năng có tần 
số nằm trong khoảng từ 30 đến 50% (Hình 7).
3.4.	Phần	mềm	quản	lý	ngân	hàng	transcript
Chúng tôi đã xây dựng phần mềm quản 
lý hệ phiên mã tôm sú hoạt động trực tuyến tại 
địa chỉ  Phần mềm cho 
phép duyệt và xem chi tiết từng transcript cũng 
như các microsatellite và SNP của chúng.
Các tham số được điều chỉnh trong các 
phần mềm Bowtie2, SAMtools và VarScan, 
cùng với đó do hệ phiên mã được xây dựng từ 
một cá thể tôm nên chúng tôi nhắm đến các vị 
trí có tần số thay đổi alen là 50% được coi là 
các vị trí dị hợp về alen. Dựa vào đó chúng tôi 
tìm ra được 17.783 SNP tiềm năng trong 6.683 
transcript với mật độ trung bình là 0,648 SNP 
mỗi một kb. Hầu hết các SNP tiềm năng này 
đều được phân loại vào transition (2/3 tổng số 
Hình 8. Giao diện phần mềm quản lý hệ phiên mã tôm sú
Hình 6. Tỉ lệ transition (AG hoặc CT) 
và transversion (AT, CG) trong các 
SNP tiềm năng
Hình 7. Phân bố tần số thay đổi alen trên các 
SNP tiềm năng
VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2
TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015 15
cắt nối intron, sản phẩm gene mới hay phân 
tích biểu hiện gene.
Việc tìm ra một số lượng lớn các vùng 
microsatellite và SNP sẽ là nguồn chỉ thị phân 
tử hữu ích cho những nghiên cứu trong tương 
lai để sàng lọc các tính trạng số lượng trong 
phân tích quần thể và phả hệ. Hệ gene của tôm 
sú được coi là có số lượng microsatellite rất 
lớn, lớn hơn cả nhiều động vật có xương sống 
và nhiều gấp 4 lần so với hệ gene cá lóc Fugu 
(Huang và ctv., 2011; Maneeruttanarungroj và 
ctv., 2006). Lý do vì sao số lượng microsatellite 
trong tôm sú lại nhiều như vậy thì chưa được 
giải thích rõ ràng nhưng có những giả thiết cho 
rằng chắc chắn microsatellite trong tôm sú có 
liên quan đến vai trò bảo toàn những chức 
năng quan trọng trong tôm sú. Như vậy cần có 
những nghiên cứu sâu hơn về việc kết hợp các 
vùng lặp lại microsatellite trong gene đã biểu 
hiện với các tính trạng số lượng đã biết của 
tôm sú. Nhằm hướng đến việc thiếp lập bản 
đồ di truyền và khai phá được những thông 
tin đa hình của tôm sú một cách chính xác, ở 
những nghiên cứu tiếp theo, chúng tôi sẽ tăng 
số lượng mẫu và số lượng mô dùng để tách 
chiết RNA cũng như lấy mẫu ở những vùng 
địa lý khác nhau.
V.	KẾT	LUẬN
Trong nghiên cứu này, từ dữ liệu giải 
trình tự thế hệ mới của mô tim tôm sú nuôi ở 
Việt Nam, chúng tôi đã lắp ráp được hệ phiên 
mã bằng phương pháp de novo. Từ dữ liệu đã 
lắp ráp, trình tự được so sánh trên các cơ sở dữ 
liệu protein của thế giới như Nr NCBI. Cuối 
cùng đã xây dựng được website trực quan 
quản lý dữ liệu trình tự, dữ liệu chú giải và 
dữ liệu phân tích biểu hiện cho tôm sú nuôi ở 
Việt Nam. Những dữ liệu này rất có ích cho 
những phân tích tiếp theo đặc biệt là truy tìm 
những chỉ thị tiềm năng liên kết với các tính 
trạng quan trọng trên tôm sú như tăng trưởng 
và kháng bệnh.
IV.	THẢO	LUẬN
Trên thế giới thì tôm sú là loài chưa được 
xây dựng bản đồ hệ gen hoàn chỉnh từ trước 
đến nay mặc dù đã có những thông tin về EST 
trên ngân hàng Genbank của NCBI, do vậy 
giải trình tự hệ phiên mã (RNA-seq) là một 
hướng đi đúng đắn cho việc khai phá de novo 
những thông tin về hệ gene bên trong tôm sú. 
Với phương pháp RNA-seq, chúng ta chỉ cần 
một lượng mẫu RNA rất nhỏ là đã đảm bảo 
chất lượng giải trình tự cho những phân tích 
tin sinh tiếp theo. Sự tiến bộ của công nghệ 
giải trình tự thế hệ mới đi kèm với đó là độ dài 
trình tự đọc tăng lên cũng như các phần mềm 
lắp ráp tin sinh học được phát triển sâu hơn 
đã giúp các kết quả phân tính chính xác hơn 
rất nhiều so với trước kia. Lắp ráp de novo hệ 
phiên mã đã thực sự tạo nên sự đột phá với rất 
nhiều trình tự được giải mã trên rất nhiều các 
loài khác mà cũng không hề có thông tin hệ 
gene tham chiếu như tôm sú (Meyer và ctv., 
2009; Nielsen và ctv., 2010; Novaes và ctv., 
2008; Wheat, 2010). 
Chúng tôi thực hiện phân tích ước chừng 
số lượng gene và chú giải chức năng những 
gene này cho hệ phiên mã tôm sú bằng công 
cụ BLAST, kết quả có 71,72% số lượng 
transcript không được chú giải chức năng vì 
không thể tìm thấy các trình tự tương đồng với 
chúng trên ngân hàng dữ liệu. Để có thể tìm ra 
được một trình tự tương đồng có ý nghĩa trên 
ngân hàng dữ liệu có một phần phụ thuộc vào 
độ dài của trình tự cần tìm kiếm, chủ yếu các 
trình tự không tìm thấy trên cơ sở dữ liệu có 
độ dài nhỏ hơn 300 bp, các trình tự có độ dải 
nhỏ thế này rất thường xuyên xuất hiện trong 
các nghiên cứu của giải trình tự thế hệ mới và 
việc chú giải chức năng cho chúng vẫn còn 
rất khó khăn với các phần mềm tin sinh hiện 
nay (Novaes và ctv., 2008). Tuy nhiên thì các 
transcipt không được tìm thấy trên ngân hàng 
dữ liệu được coi là nguồn thông tin quý giá 
cho những nghiên cứu tiếp theo về quá trình 
VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2
16 TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015
Alignment/Map format and SAMtools. 
Bioinforma. Oxf. Engl. 25, 2078–2079.
Maneeruttanarungroj, C., Pongsomboon, S., 
Wuthisuthimethavee, S., Klinbunga, S., 
Wilson, K.J., Swan, J., Li, Y., Whan, V., 
Chu, K.-H., Li, C.P., Tong, J., Glenn, K., 
Rothschild, M., Jerry, D., Tassanakajon, A., 
2006. Development of polymorphic expressed 
sequence tag-derived microsatellites for 
the extension of the genetic linkage map of 
the black tiger shrimp (Penaeus monodon). 
Anim. Genet. 37, 363–368. 
Meyer, E., Aglyamova, G.V., Wang, S., Buchanan-
Carter, J., Abrego, D., Colbourne, J.K., Willis, 
B.L., Matz, M.V., 2009. Sequencing and de 
novo analysis of a coral larval transcriptome 
using 454 GSFlx. BMC Genomics 10, 219.
Nielsen, C.B., Cantor, M., Dubchak, I., Gordon, 
D., Wang, T., 2010. Visualizing genomes: 
techniques and challenges. Nat. Methods 7, 
S5–S15.
Novaes, E., Drost, D.R., Farmerie, W.G., Pappas, 
G.J., Grattapaglia, D., Sederoff, R.R., 
Kirst, M., 2008. High-throughput gene and 
SNP discovery in Eucalyptus grandis, an 
uncharacterized genome. BMC Genomics 9, 
312. 
Thiel, T., Michalek, W., Varshney, R.K., Graner, 
A., 2003. Exploiting EST databases for the 
development and characterization of gene-
derived SSR-markers in barley (Hordeum 
vulgare L.). TAG Theor. Appl. Genet. Theor. 
Angew. Genet. 106, 411–422.
Wheat, C.W., 2010. Rapidly developing functional 
genomics in ecological model systems via 
454 transcriptome sequencing. Genetica 
138, 433–451.
You, E.M., Liu, K.F., Huang, S.W., Chen, M., 
Groumellec, M.L., 2010. Construction 
of integrated genetic linkage maps of the 
tiger shrimp (Penaeus monodon) using 
microsatellite and AFLP markers. Anim 
Genet 41, 365–376.
TÀI	LIỆU	THAM	KHẢO
Andriantahina, F., Liu, X., Feng, T., Xiang, J., 2013. 
Current status of genetics and genomics 
of reared penaeid shrimp: information 
relevant to access and benefit sharing. Mar. 
Biotechnol. N. Y. N 15, 399–412. 
Conesa, A., Götz, S., García-Gómez, J.M., Terol, 
J., Talón, M., Robles, M., 2005. Blast2GO: 
a universal tool for annotation, visualization 
and analysis in functional genomics research. 
Bioinforma. Oxf. Engl. 21, 3674–3676. 
FAO, 2010. Food and Agriculture Organisation 
of the United Nations. The state ofworld 
fisheries and aquaculture.
Grabherr, M.G., Haas, B.J., Yassour, M., Levin, 
J.Z., Thompson, D.A., Amit, I., Adiconis, 
X., Fan, L., Raychowdhury, R., Zeng, 
Q., Chen, Z., Mauceli, E., Hacohen, N., 
Gnirke, A., Rhind, N., di Palma, F., Birren, 
B.W., Nusbaum, C., Lindblad-Toh, K., 
Friedman, N., Regev, A., 2011. Full-length 
transcriptome assembly from RNA-Seq data 
without a reference genome. Nat. Biotechnol. 
29, 644–652. 
Huang, S.-W., Lin, Y.-Y., You, E.-M., Liu, T.-T., 
Shu, H.-Y., Wu, K.-M., Tsai, S.-F., Lo, C.-F., 
Kou, G.-H., Ma, G.-C., others, 2011. Fosmid 
library end sequencing reveals a rarely 
known genome structure of marine shrimp 
Penaeus monodon. BMC Genomics 12, 242.
Koboldt, D.C., Zhang, Q., Larson, D.E., Shen, 
D., McLellan, M.D., Lin, L., Miller, C.A., 
Mardis, E.R., Ding, L., Wilson, R.K., 2012. 
VarScan 2: Somatic mutation and copy 
number alteration discovery in cancer by 
exome sequencing. Genome Res. 22, 568–
576.
Langmead, B., Salzberg, S.L., 2012. Fast gapped-
read alignment with Bowtie 2. Nat. Methods 
9, 357–359. 
Li, H., Handsaker, B., Wysoker, A., Fennell, T., 
Ruan, J., Homer, N., Marth, G., Abecasis, 
G., Durbin, R., 1000 Genome Project Data 
Processing Subgroup, 2009. The Sequence 
VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2
TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015 17
ASSEMBLING, ANNOTATING AND ANALYZING 
THE TRANSCRIPTOME OF Penaeus monodon
Nguyen Cuong1*, Pham Quang Huy1, Nguyen Van Lam1, Ha Thi Thu1, Pham Thi Hoa1, 
Nguyen Hai Trieu1, Dau Huy Tung1, Nguyen Giang Thu2, Nguyen Huu Ninh3, 
Dong Van Quyen1, Chu Hoang Ha1, Dinh Duy Khang1
ABSTRACT
Despite black tiger shrimp (Penaeus monodon) is the important aquaculture species in our 
country and contributes significantly to the export revenues in the recent years, the data 
of the black tiger shrimp genome and transcriptome are not well documented until now. 
Although domestication and genetic improvement can be implemented through traditional 
breeding programs, the molecular markers and other data generated from genome and 
transcriptome sequencing will greatly improve the efficiency and effectiveness of selection. 
In this paper, the transcriptome of P. monodon was sequenced using the Next Generation 
Sequencing technology with the raw data size of 9 Gb. The raw reads were de novo 
assembled to get 51.638 transcripts. Those transcripts were annotated and analyzed to find 
7.016 microsatellites and 17.783 SNPs. A website with helpful utilities had been developed 
to manage the transcripts. These results would be useful for further research on P. monodon.
Keywords: transcriptome, assembling de novo, next generation sequencing, annotating, 
gene display, microsatellite, SNP.
Người phản biện: TS. Nguyễn Văn Sáng
Ngày nhận bài: 29/5/2015
Ngày thông qua phản biện: 03/8/2015
Ngày duyệt đăng: 07/8/2015
1Institute of Biotechnology
*Email: cuongnguyen@ibt.ac.vn
2Sub-Department of Environment and Technology Science
3Research Institute for Aquaculture No 1

File đính kèm:

  • pdflap_rap_chu_giai_va_phan_tich_he_phien_ma_tom_su_penaeus_mon.pdf