Lắp ráp, chú giải và phân tích hệ phiên mã tôm sú Penaeus monodon

TÓM TẮT

Tôm sú (Penaeus monodon) là loài thủy sản đem lại nguồn lợi lớn cho quốc gia trong những năm

gần đây. Tuy nhiên, các dữ liệu về hệ gene và hệ phiên mã của chúng còn hạn chế. Mặc dù công

việc gia hóa sử dụng các biện pháp di truyền chọn giống đã nâng cao chất lượng tôm sú. Tuy

nhiên, nhu cầu giải mã và phân tích hệ gene, hệ phiên mã của của tôm sú để tìm ra các chỉ thị phân

tử cũng như các dữ liệu quan trọng khác sẽ giúp tăng hiệu suất cho quá trình chọn giống. Trong

bài báo này, chúng tôi công bố kết quả giải trình tự hệ phiên mã của tôm sú bằng công nghệ đọc

trình tự thế hệ mới. Với 9 Gb dữ liệu thu được từ máy Illumina MiSeq, chúng tôi tiến hành lắp ráp

de novo để tạo ra ngân hàng với 51.638 transcript, từ đó thực hiện chú giải chức năng transcript,

phát hiện được 7.016 chỉ thị phân tử microsatellite và 17.783 SNP. Chúng tôi xây dựng hệ thống

website quản lý các ngân hàng transcript cũng như các công cụ phân tích cần thiết. Kết quả của

bài báo là tiền đề cho các nghiên cứu chuyên sâu hơn về loài tôm sú mang lại nguồn lợi lớn này

Download

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

9 trang xuanhieu 27720

Download

Bạn đang xem tài liệu "Lắp ráp, chú giải và phân tích hệ phiên mã tôm sú Penaeus monodon", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Lắp ráp, chú giải và phân tích hệ phiên mã tôm sú Penaeus monodon

trường hợp microsatellite là mononucleotide
thì không được nghiên cứu vì rất khó để có
thế phân biệt được mononucleotide thật sự
từ những vùng polyadenylation hay đó chỉ là
mononucleotideđược tạo ra do lỗi giải trình tự.
Các trình tự transcript bên cạnh đó cũng
sẽ được khai phá các marker đa hình đơn
nucleotide SNP. Chúng tôi ánh xạ các trình
tự đọc ngược trở lại vào hệ phiên mã tham
chiếu vừa lắp ráp bằng phần mềm Bowtie2.
Kết quả ánh xạ sẽ được 2 công cụ SAMtools
và VarScan (
(Koboldt và ctv., 2012) xử lý để tìm ra các loci
tiềm năng bị thay đổi nucleotide. Để sàng lọc
kết quả dương tính giả do lỗi giải trình tự hoặc
Bảng 1. Thống kê số liệu dữ liệu thô và sau khi tiền xử lý
Số lượng trình tự đọc Độ dài %GC % Tiền xử lý
Mô tim 45.063.432 35-200 59
Mô tim – tinh sạch 40.313.722 70-200 59 89,46%
Chú giải chức năng cho hệ phiên mã
Sử dụng công cụ BLAST với chế độ
BLASTX tìm kiếm những transcript vừa lắp
ráp trên cơ sở dữ liệu nr NCBI với tham số
E-value 1e-6, chúng tôi đã tìm được 14.601
transcript được chú giải chức năng (Hình 2).
Vì độ dài trung bình của transcript sau khi lắp
ráp khá ngắn (độ dài N50 dài 726 bp) và không
có hệ gene tham chiếu tôm sú nên sẽ có một
lượng lớn transcript không thể chú giải chức
VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2
12 TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015
năng. Phân bố E-value cho những kết quả tin
cậy nhất thể hiện các transcript được chú giải
có độ tin cậy rất cao (E-value nhỏ hơn 1e-
15) và dải E-value phân bố từ 1e-15 đến 1e-5
Hình 1. Phân bố độ dài của toàn bộ tran-
script sau khi lắp ráp
Hình 2. Thống kê kết quả chú giải lên cơ
sở dữ liệu NCBI
Hình 3. Thống kê loài từ kết quả
Tophit BLASTX
Phân bố kết quả có độ tương đồng cao
nhất từ cơ sở dữ liệu NR của NCBI được xây
dựng thành cây phân loài, chỉ ra rằng loài
Daphnia pulex chiếm đa số và cũng đứng gần
chiếm 21,1%. Trong khi đó 99,9% transcript
có độ tương đồng lớn hơn 40% và 0,01% tran-
script có độ tương đồng từ 40% đến 15%.
Tổng số
transcript
Transcript
ngắn nhất
Transcript
dài nhất
Average N50 N10 %GC Tổng số base % trình tự đọc sử
dụng
Mô tim 51.638 201 15.659 531,24 726 3.273 49,81 27.432.242 37.760.643
(93,66%)
Bảng 2. Thống kê chất lượng transcript sau khi lắp ráp de novo
tôm sú trên cây phân loài của NCBI trong khi
đó kết quả ứng với tôm sú Penaeus monodon
đứng thứ 6 với 330 kết quả (Hình 3).
VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2
TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015 13
tính theo công thức như sau:
RPKM =
(Độ dài transcript) x (Tổng số read)
Số lượng read bám vào transcript
Do đó, chúng tôi đưa ra sơ đồ phân bố
biểu hiện cho toàn bộ các transcript của mô
tim trong Hình 4. Những transcript có mức
độ biểu hiện cao trong mô tim (6,22% toàn bộ
transcript) là những transcript tiềm năng đặc
hiệu cho riêng mô tim và sẽ được nghiên cứu
sâu hơn.
3.3. Khai phá dữ liệu microsatellite và SNP
Toàn bộ transcript trong hệ phiên mã mô
tim tôm sú được khai phá để tìm các locus đa
hình bao gồm microsatellite và SNP, 18.838
microsatellite được tìm thấy trong 13.965
transcript trong đó có 3.551 transcript có nhiều
hơn một microsatellite và 2.759 microsatellite
ở dạng compound (Bảng 3). Trong số các
microsatellite được tìm thấy chiếm số lượng
nhiều nhất là dinucleotide (42%) và trinucleotide
(52,8%), theo sau đó là tetra- (4,97%), hexa-
(0,16%) và pentanucleotide (0,06%) (Bảng
4). Trong dinucleotide microsatellite, miền lặp
nhiều nhất là AG/CT (45,6%), theo sau là miền
lặp là AC/GT (35,52%). Còn với trinucleotide
microsatellite, miền lặp nhiều nhất là AGG/
CCT (21,3%), theo sau là miền lặp AGC/CTG
(16,95%).
Tổng số transcript thực hiện 51.638
Độ dài tổng số của toàn bộ transcript 27.432.242
Tổng số microsatellite được phát hiện 7.016
Số lượng transcript có microsatellite 5.711
Số lượng transcript có nhiều hơn 1 micro-
satelltite
883
Số lượng microsatellite ở dạng compound 710
Bảng 3. Kết quả tìm kiếm microsatellite
Hình 4. Thống kê mức độ biểu hiện giữa các
transcript trong mô tim
Hình 5. Thống kê các miền lặp trong hệ phiên
mã mô tim tôm sú
Miền lặp Số lượng microsatellite
2 2.947
3 3.705
4 349
5 4
6 11
Bảng 4. Phân bố miền lặp microsatellite
3.2. Phân tích biểu hiện trong mô tim
RPKM là một đơn vị biểu hiện thể hiện
mức độ biểu hiện của từng transcript/contig
đối với một hệ phiên mã hoàn chỉnh và được
VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2
14 TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015
SNP) (Hình 6). Phân bố của tần số thay đổi alen
cũng cho thấy phần lớn SNP tiềm năng có tần
số nằm trong khoảng từ 30 đến 50% (Hình 7).
3.4. Phần mềm quản lý ngân hàng transcript
Chúng tôi đã xây dựng phần mềm quản
lý hệ phiên mã tôm sú hoạt động trực tuyến tại
địa chỉ Phần mềm cho
phép duyệt và xem chi tiết từng transcript cũng
như các microsatellite và SNP của chúng.
Các tham số được điều chỉnh trong các
phần mềm Bowtie2, SAMtools và VarScan,
cùng với đó do hệ phiên mã được xây dựng từ
một cá thể tôm nên chúng tôi nhắm đến các vị
trí có tần số thay đổi alen là 50% được coi là
các vị trí dị hợp về alen. Dựa vào đó chúng tôi
tìm ra được 17.783 SNP tiềm năng trong 6.683
transcript với mật độ trung bình là 0,648 SNP
mỗi một kb. Hầu hết các SNP tiềm năng này
đều được phân loại vào transition (2/3 tổng số
Hình 8. Giao diện phần mềm quản lý hệ phiên mã tôm sú
Hình 6. Tỉ lệ transition (AG hoặc CT)
và transversion (AT, CG) trong các
SNP tiềm năng
Hình 7. Phân bố tần số thay đổi alen trên các
SNP tiềm năng
VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2
TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015 15
cắt nối intron, sản phẩm gene mới hay phân
tích biểu hiện gene.
Việc tìm ra một số lượng lớn các vùng
microsatellite và SNP sẽ là nguồn chỉ thị phân
tử hữu ích cho những nghiên cứu trong tương
lai để sàng lọc các tính trạng số lượng trong
phân tích quần thể và phả hệ. Hệ gene của tôm
sú được coi là có số lượng microsatellite rất
lớn, lớn hơn cả nhiều động vật có xương sống
và nhiều gấp 4 lần so với hệ gene cá lóc Fugu
(Huang và ctv., 2011; Maneeruttanarungroj và
ctv., 2006). Lý do vì sao số lượng microsatellite
trong tôm sú lại nhiều như vậy thì chưa được
giải thích rõ ràng nhưng có những giả thiết cho
rằng chắc chắn microsatellite trong tôm sú có
liên quan đến vai trò bảo toàn những chức
năng quan trọng trong tôm sú. Như vậy cần có
những nghiên cứu sâu hơn về việc kết hợp các
vùng lặp lại microsatellite trong gene đã biểu
hiện với các tính trạng số lượng đã biết của
tôm sú. Nhằm hướng đến việc thiếp lập bản
đồ di truyền và khai phá được những thông
tin đa hình của tôm sú một cách chính xác, ở
những nghiên cứu tiếp theo, chúng tôi sẽ tăng
số lượng mẫu và số lượng mô dùng để tách
chiết RNA cũng như lấy mẫu ở những vùng
địa lý khác nhau.
V. KẾT LUẬN
Trong nghiên cứu này, từ dữ liệu giải
trình tự thế hệ mới của mô tim tôm sú nuôi ở
Việt Nam, chúng tôi đã lắp ráp được hệ phiên
mã bằng phương pháp de novo. Từ dữ liệu đã
lắp ráp, trình tự được so sánh trên các cơ sở dữ
liệu protein của thế giới như Nr NCBI. Cuối
cùng đã xây dựng được website trực quan
quản lý dữ liệu trình tự, dữ liệu chú giải và
dữ liệu phân tích biểu hiện cho tôm sú nuôi ở
Việt Nam. Những dữ liệu này rất có ích cho
những phân tích tiếp theo đặc biệt là truy tìm
những chỉ thị tiềm năng liên kết với các tính
trạng quan trọng trên tôm sú như tăng trưởng
và kháng bệnh.
IV. THẢO LUẬN
Trên thế giới thì tôm sú là loài chưa được
xây dựng bản đồ hệ gen hoàn chỉnh từ trước
đến nay mặc dù đã có những thông tin về EST
trên ngân hàng Genbank của NCBI, do vậy
giải trình tự hệ phiên mã (RNA-seq) là một
hướng đi đúng đắn cho việc khai phá de novo
những thông tin về hệ gene bên trong tôm sú.
Với phương pháp RNA-seq, chúng ta chỉ cần
một lượng mẫu RNA rất nhỏ là đã đảm bảo
chất lượng giải trình tự cho những phân tích
tin sinh tiếp theo. Sự tiến bộ của công nghệ
giải trình tự thế hệ mới đi kèm với đó là độ dài
trình tự đọc tăng lên cũng như các phần mềm
lắp ráp tin sinh học được phát triển sâu hơn
đã giúp các kết quả phân tính chính xác hơn
rất nhiều so với trước kia. Lắp ráp de novo hệ
phiên mã đã thực sự tạo nên sự đột phá với rất
nhiều trình tự được giải mã trên rất nhiều các
loài khác mà cũng không hề có thông tin hệ
gene tham chiếu như tôm sú (Meyer và ctv.,
2009; Nielsen và ctv., 2010; Novaes và ctv.,
2008; Wheat, 2010).
Chúng tôi thực hiện phân tích ước chừng
số lượng gene và chú giải chức năng những
gene này cho hệ phiên mã tôm sú bằng công
cụ BLAST, kết quả có 71,72% số lượng
transcript không được chú giải chức năng vì
không thể tìm thấy các trình tự tương đồng với
chúng trên ngân hàng dữ liệu. Để có thể tìm ra
được một trình tự tương đồng có ý nghĩa trên
ngân hàng dữ liệu có một phần phụ thuộc vào
độ dài của trình tự cần tìm kiếm, chủ yếu các
trình tự không tìm thấy trên cơ sở dữ liệu có
độ dài nhỏ hơn 300 bp, các trình tự có độ dải
nhỏ thế này rất thường xuyên xuất hiện trong
các nghiên cứu của giải trình tự thế hệ mới và
việc chú giải chức năng cho chúng vẫn còn
rất khó khăn với các phần mềm tin sinh hiện
nay (Novaes và ctv., 2008). Tuy nhiên thì các
transcipt không được tìm thấy trên ngân hàng
dữ liệu được coi là nguồn thông tin quý giá
cho những nghiên cứu tiếp theo về quá trình
VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2
16 TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015
Alignment/Map format and SAMtools.
Bioinforma. Oxf. Engl. 25, 2078–2079.
Maneeruttanarungroj, C., Pongsomboon, S.,
Wuthisuthimethavee, S., Klinbunga, S.,
Wilson, K.J., Swan, J., Li, Y., Whan, V.,
Chu, K.-H., Li, C.P., Tong, J., Glenn, K.,
Rothschild, M., Jerry, D., Tassanakajon, A.,
2006. Development of polymorphic expressed
sequence tag-derived microsatellites for
the extension of the genetic linkage map of
the black tiger shrimp (Penaeus monodon).
Anim. Genet. 37, 363–368.
Meyer, E., Aglyamova, G.V., Wang, S., Buchanan-
Carter, J., Abrego, D., Colbourne, J.K., Willis,
B.L., Matz, M.V., 2009. Sequencing and de
novo analysis of a coral larval transcriptome
using 454 GSFlx. BMC Genomics 10, 219.
Nielsen, C.B., Cantor, M., Dubchak, I., Gordon,
D., Wang, T., 2010. Visualizing genomes:
techniques and challenges. Nat. Methods 7,
S5–S15.
Novaes, E., Drost, D.R., Farmerie, W.G., Pappas,
G.J., Grattapaglia, D., Sederoff, R.R.,
Kirst, M., 2008. High-throughput gene and
SNP discovery in Eucalyptus grandis, an
uncharacterized genome. BMC Genomics 9,
312.
Thiel, T., Michalek, W., Varshney, R.K., Graner,
A., 2003. Exploiting EST databases for the
development and characterization of gene-
derived SSR-markers in barley (Hordeum
vulgare L.). TAG Theor. Appl. Genet. Theor.
Angew. Genet. 106, 411–422.
Wheat, C.W., 2010. Rapidly developing functional
genomics in ecological model systems via
454 transcriptome sequencing. Genetica
138, 433–451.
You, E.M., Liu, K.F., Huang, S.W., Chen, M.,
Groumellec, M.L., 2010. Construction
of integrated genetic linkage maps of the
tiger shrimp (Penaeus monodon) using
microsatellite and AFLP markers. Anim
Genet 41, 365–376.
TÀI LIỆU THAM KHẢO
Andriantahina, F., Liu, X., Feng, T., Xiang, J., 2013.
Current status of genetics and genomics
of reared penaeid shrimp: information
relevant to access and benefit sharing. Mar.
Biotechnol. N. Y. N 15, 399–412.
Conesa, A., Götz, S., García-Gómez, J.M., Terol,
J., Talón, M., Robles, M., 2005. Blast2GO:
a universal tool for annotation, visualization
and analysis in functional genomics research.
Bioinforma. Oxf. Engl. 21, 3674–3676.
FAO, 2010. Food and Agriculture Organisation
of the United Nations. The state ofworld
fisheries and aquaculture.
Grabherr, M.G., Haas, B.J., Yassour, M., Levin,
J.Z., Thompson, D.A., Amit, I., Adiconis,
X., Fan, L., Raychowdhury, R., Zeng,
Q., Chen, Z., Mauceli, E., Hacohen, N.,
Gnirke, A., Rhind, N., di Palma, F., Birren,
B.W., Nusbaum, C., Lindblad-Toh, K.,
Friedman, N., Regev, A., 2011. Full-length
transcriptome assembly from RNA-Seq data
without a reference genome. Nat. Biotechnol.
29, 644–652.
Huang, S.-W., Lin, Y.-Y., You, E.-M., Liu, T.-T.,
Shu, H.-Y., Wu, K.-M., Tsai, S.-F., Lo, C.-F.,
Kou, G.-H., Ma, G.-C., others, 2011. Fosmid
library end sequencing reveals a rarely
known genome structure of marine shrimp
Penaeus monodon. BMC Genomics 12, 242.
Koboldt, D.C., Zhang, Q., Larson, D.E., Shen,
D., McLellan, M.D., Lin, L., Miller, C.A.,
Mardis, E.R., Ding, L., Wilson, R.K., 2012.
VarScan 2: Somatic mutation and copy
number alteration discovery in cancer by
exome sequencing. Genome Res. 22, 568–
576.
Langmead, B., Salzberg, S.L., 2012. Fast gapped-
read alignment with Bowtie 2. Nat. Methods
9, 357–359.
Li, H., Handsaker, B., Wysoker, A., Fennell, T.,
Ruan, J., Homer, N., Marth, G., Abecasis,
G., Durbin, R., 1000 Genome Project Data
Processing Subgroup, 2009. The Sequence
VIEÄN NGHIEÂN CÖÙU NUOÂI TROÀNG THUÛY SAÛN 2
TAÏP CHÍ NGHEÀ CAÙ SOÂNG CÖÛU LONG - 6 - THAÙNG 8/2015 17
ASSEMBLING, ANNOTATING AND ANALYZING
THE TRANSCRIPTOME OF Penaeus monodon
Nguyen Cuong1*, Pham Quang Huy1, Nguyen Van Lam1, Ha Thi Thu1, Pham Thi Hoa1,
Nguyen Hai Trieu1, Dau Huy Tung1, Nguyen Giang Thu2, Nguyen Huu Ninh3,
Dong Van Quyen1, Chu Hoang Ha1, Dinh Duy Khang1
ABSTRACT
Despite black tiger shrimp (Penaeus monodon) is the important aquaculture species in our
country and contributes significantly to the export revenues in the recent years, the data
of the black tiger shrimp genome and transcriptome are not well documented until now.
Although domestication and genetic improvement can be implemented through traditional
breeding programs, the molecular markers and other data generated from genome and
transcriptome sequencing will greatly improve the efficiency and effectiveness of selection.
In this paper, the transcriptome of P. monodon was sequenced using the Next Generation
Sequencing technology with the raw data size of 9 Gb. The raw reads were de novo
assembled to get 51.638 transcripts. Those transcripts were annotated and analyzed to find
7.016 microsatellites and 17.783 SNPs. A website with helpful utilities had been developed
to manage the transcripts. These results would be useful for further research on P. monodon.
Keywords: transcriptome, assembling de novo, next generation sequencing, annotating,
gene display, microsatellite, SNP.
Người phản biện: TS. Nguyễn Văn Sáng
Ngày nhận bài: 29/5/2015
Ngày thông qua phản biện: 03/8/2015
Ngày duyệt đăng: 07/8/2015
1Institute of Biotechnology
*Email: cuongnguyen@ibt.ac.vn
2Sub-Department of Environment and Technology Science
3Research Institute for Aquaculture No 1

File đính kèm:

lap_rap_chu_giai_va_phan_tich_he_phien_ma_tom_su_penaeus_mon.pdf