Nghiên cứu phương pháp mô hình hóa dữ liệu mẫu ngẫu nhiên bằng ngôn ngữ lập trình Python

Tóm tắt: Trong thời đại 4.0, công nghệ thông tin có vai trò rất quan trọng trong tự động hóa và

trao đổi dữ liệu. Đáp ứng với xu hướng đó, việc áp dụng kiến thức công nghệ thông tin để giải quyết các

bài toán rất quan trọng, cụ thể là bài toán xác suất thống kê. Vì vậy, đề tài này chọn phương pháp lập

trình với ngôn ngữ python để mô hình hóa mẫu dữ liệu mẫu ngẫu nhiên. Việc mô tả dữ liệu bằng

phương pháp này có vai trò quan trọng, nó giúp cho chúng ta phân tích được những đặc tính của dữ

liệu, mối quan hệ giữa các mẫu khác nhau. Từ đó đưa ra được kết quả chính xác cho mẫu dữ liệu.

Nghiên cứu phương pháp mô hình hóa dữ liệu mẫu ngẫu nhiên bằng ngôn ngữ lập trình Python trang 1

Trang 1

Nghiên cứu phương pháp mô hình hóa dữ liệu mẫu ngẫu nhiên bằng ngôn ngữ lập trình Python trang 2

Trang 2

Nghiên cứu phương pháp mô hình hóa dữ liệu mẫu ngẫu nhiên bằng ngôn ngữ lập trình Python trang 3

Trang 3

Nghiên cứu phương pháp mô hình hóa dữ liệu mẫu ngẫu nhiên bằng ngôn ngữ lập trình Python trang 4

Trang 4

Nghiên cứu phương pháp mô hình hóa dữ liệu mẫu ngẫu nhiên bằng ngôn ngữ lập trình Python trang 5

Trang 5

Nghiên cứu phương pháp mô hình hóa dữ liệu mẫu ngẫu nhiên bằng ngôn ngữ lập trình Python trang 6

Trang 6

pdf 6 trang xuanhieu 7060
Bạn đang xem tài liệu "Nghiên cứu phương pháp mô hình hóa dữ liệu mẫu ngẫu nhiên bằng ngôn ngữ lập trình Python", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Nghiên cứu phương pháp mô hình hóa dữ liệu mẫu ngẫu nhiên bằng ngôn ngữ lập trình Python

Nghiên cứu phương pháp mô hình hóa dữ liệu mẫu ngẫu nhiên bằng ngôn ngữ lập trình Python
KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019 
P a g e 62 | 82 
NGHIÊN CỨU PHƯƠNG PHÁP MÔ HÌNH HÓA DỮ LIỆU MẪU NGẪU NHIÊN 
BẰNG NGÔN NGỮ LẬP TRÌNH PYTHON 
Giảng viên hướng dẫn: ThS. Phạm Thị Kim Thúy 
Sinh viên thực hiện: Nguyễn Phi Thái Lớp: CQ.57.CNTT 
 Trần Xuân Lâm Lớp: CQ.57.CNTT 
Tóm tắt: Trong thời đại 4.0, công nghệ thông tin có vai trò rất quan trọng trong tự động hóa và 
trao đổi dữ liệu. Đáp ứng với xu hướng đó, việc áp dụng kiến thức công nghệ thông tin để giải quyết các 
bài toán rất quan trọng, cụ thể là bài toán xác suất thống kê. Vì vậy, đề tài này chọn phương pháp lập 
trình với ngôn ngữ python để mô hình hóa mẫu dữ liệu mẫu ngẫu nhiên. Việc mô tả dữ liệu bằng 
phương pháp này có vai trò quan trọng, nó giúp cho chúng ta phân tích được những đặc tính của dữ 
liệu, mối quan hệ giữa các mẫu khác nhau. Từ đó đưa ra được kết quả chính xác cho mẫu dữ liệu. 
Từ khóa: Mô hình hóa dữ liệu, phương pháp lập trình, ngôn ngữ python. 
1. ĐẶT VẤN ĐỀ 
Hiện nay, ở Việt Nam, sinh viên chuyên ngành Công Nghệ Thông Tin, Toán – Tin đang 
áp dụng kiến thức toán hoặc thuật toán để làm đề tài tốt nghiệp. Khảo sát các đề tài tốt nghiệp 
năm 2019 của sinh viên CNTT K56 thuộc phân hiệu, có không ít sinh viên chọn Đại số tuyến 
tính, Xác suất Thống kê, làm kiến thức nền cho việc lập trình trong đề tài của sinh viên. Đa 
số sinh viên đều sử dụng Python vì những thuộc tính ưu việt trong việc tính toán: tích phân, 
đạo hàm, giải các phương trình vi phân,  
Có thể thấy, lập trình giúp cho việc giải toán nhanh, chúng ta chỉ cần định nghĩa ra 
phương pháp giải và chúng ta có thể giải được bài toán với bất kì mẫu dữ liệu tương tự nào. 
Cụ thể, việc sử dụng phương pháp lập trình với ngôn ngữ python để mô tả dữ liệu ngẫu nhiên 
giúp chúng ta hình dung được dữ liệu và đưa ra được các nhận xét chính xác, quan trọng. 
2. CÁC NỘI DUNG CHÍNH 
2.1. Phương pháp nghiên cứu 
- Phương pháp thu thập và xử lý số liệu từ thực nghiệm. 
- Phương pháp mô hình hóa dữ liệu thông qua ngôn ngữ python. 
2.2. Phương tiện nghiên cứu 
- Sử dụng ngôn ngữ python để lập trình. 
2.3. Nội dung nghiên cứu đã thực hiện 
Từ việc nghiên cứu về những phương pháp mô tả dữ liệu trong thống kê bao gồm: Mô tả 
dữ liệu bằng phương pháp đồ thị, mô tả dữ liệu bằng phương pháp số và việc nghiên cứu 
phương pháp lập trình với ngôn ngữ Python để mô hình hóa dữ liệu thông qua những dạng đồ 
thị: đồ thị hình cột (histogram), đồ thị chỉ tần số, đồ thị chỉ tần suất, đồ thị hình hộp (boxplot), 
KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019 
P a g e 63 | 82 
phương trình đường thẳng hồi quy tuyến tính và tính toán được các giá trị liên quan đến 
những mô hình: giá trị mode, trung vị, trung bình,  
Trong đó, mô hình hóa dữ liệu với mẫu dữ liệu thực là phần trọng tâm của đề tài. Dữ liệu 
thực mô phỏng trong đề tài là danh sách điểm thi kết thúc học phần và điểm thành phần môn 
Xác suất Thống kê của lớp CNTT-K57. Dữ liệu này được mô phỏng để giải quyết dạng toán: 
Tìm mối tương quan giữa điểm thành phần và điểm cuối kì cụ thể thông qua mô hình hồi quy 
tuyến tính. 
Kết quả là những dạng mô hình dữ liệu được tạo dựa trên ngôn ngữ python: 
Hình 1. Biểu đồ hình thanh 
Hình 2. Biểu đồ hình thanh theo cặp 
KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019 
P a g e 64 | 82 
Hình 3. Biểu đồ đường 
Hình 4. Biểu đồ tần số của điểm thành phần và điểm kết thúc học phần 
Hình 5. Biểu đồ tần suất 
KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019 
P a g e 65 | 82 
Hình 6. Biểu đồ hình hộp 
Hình 7. Biểu đồ tán xạ 
Hình 8. Đường thẳng hồi quy tuyến tính 
KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019 
P a g e 66 | 82 
Từ những mô hình trên, ta có nhận xét: Điểm thành phần thường cao hơn điểm kết thúc 
học phần. Hơn nữa, điểm thành phần, điểm kết thúc học phần có mối tương quan với nhau cụ 
thể: điểm thành phần cao thì điểm kết thúc học phần cũng có xu hướng cao. 
Ngoài ra, thông qua đồ thị hồi quy tuyến tính giữa điểm thành phần và điểm thi kết thúc 
học phần, nhóm có những nhận xét sau: 
- Đường thẳng hồi quy tuyến tính có xu hướng đi lên nên điểm thành phần và điểm kết 
thúc học phần tỉ lệ thuận với nhau, điểm thành phần tăng thì điểm thi kết thúc học phần cũng 
tăng. 
- Các giá trị của điểm kết thúc học phần tương ứng với điểm thành phần phân bố hai bên 
đường thẳng hồi quy. 
- Nhìn vào đồ thị, có thể dự báo được điểm kết thúc học phần khi có điểm thành phần. 
Giả sử điểm thành phần được 3 điểm thì điểm kết thúc học phần có thể dự đoán nằm trong 
khoảng từ [1.8, 2] điểm. 
2.4. Kết quả nghiên cứu 
Đề tài đã đánh giá và mô hình hóa được các đại lượng tiêu biểu của thống kê dữ liệu. 
Trong đó, nhóm nghiên cứu đã sử dụng hồi quy đơn tuyến tính để đưa ra những phân tích đặc 
trưng kết quả thi của một mẫu dữ liệu sinh viên Phân hiệu. Kết quả đó là thông tin bổ ích để 
giảng viên Toán ở Phân hiệu tham khảo để định hướng giảng dạy. 
2.5. Kiến nghị 
Dữ liệu trong thực tế thì thường rất lớn và việc xử lý số liệu có nhiều phương pháp khác 
nhau cũng như kết hợp với các thuật toán phức tạp để có thể xử lý và đưa ra những nhận định 
chính xác cho mẫu dữ liệu. Do đó, trong tương lai đề tài có thể mở rộng với tập dữ liệu quy 
mô lớn hơn và nên chọn mô hình hồi quy đa tuyến. 
3. KẾT LUẬN 
Trong môn học Xác xuất Thống kê, sinh viên sẽ giải và tiếp cận các bài toán bằng cách 
phương pháp thông thường vì vậy phương pháp này thiếu đi tính minh họa, trực quan. Hơn 
nữa, trong lĩnh vực này việc lấy mẫu dự liệu rất quan trọng, do đó với mỗi mẫu dữ liệu khác 
nhau thì sinh viên phải giải nhiều lần khác nhau, điều này tốn rất nhiều thời gian, công sức. 
Vì vậy, việc thực hiện giải các bài toán bằng phương pháp lập trình sẽ giải quyết vấn đề đó. 
Ngôn ngữ python là một trong những công cụ lập trình có tính năng mạnh mẽ của trong 
việc giải các bài toán, đặc biệt là trong lĩnh vực phân tích dữ liệu. Cụ thể python có nhiều thư 
viện được xây dựng giúp chúng ta minh họa được các bài toán thông qua các dạng đồ thị, 
biểu đồ như histogram, tròn, boxplot, ... Điều này giúp cho việc đánh giá dữ liệu dễ dàng. Từ 
đó, nhà thống kê có thể đưa ra những kết luận chính xác cho mẫu dữ liệu. 
Đề tài này đã sử dụng phương pháp lập trình với ngôn ngữ python để xử lý dữ liệu và mô 
hình hóa dữ liệu một cách trực quan hơn. Cụ thể, đề tài đã xây dựng một mô hình để biểu thị 
mỗi tương quan của hai thuộc tính trong dữ liệu đó là phương trình hồi quy tuyến tính. Thông 
qua phương trình hồi quy tuyến tính, khi chúng ta biết một trong hai thuộc tính, chúng ta có 
KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019 
P a g e 67 | 82 
thể dự đoán được giá trị còn lại. Ngoài ra, việc mô phỏng phương trình hồi quy tuyến tính 
bằng phương pháp đồ thị mà sử dụng ngôn ngữ python cho phép chúng ta dễ dàng hình dung 
hơn về sự phân bố của tập dữ liệu cũng như mối tương quan giữa các tập dữ liệu. 
Tài liệu tham khảo 
[1]. TS. Trần Văn Long, TS. Nguyễn Mạnh Hùng, TS. Phí Thị Vân Anh, Xác suất Thống Kê, 
Nhà xuất bản Giao thông vận tải, 2017. 
[2]. PGS. TS. Đặng Đức Trọng, TS. Đinh Ngọc Thanh, Lý thuyết Thống kê, Nhà xuất bản Đại 
học Quốc gia Thành phố Hồ Chí Minh, 2016. 
[3]. C. Burch, S. Guyader, D. Samarov, H. Shen, Experimental estimate of the abundance and 
effects of nearly neutral mutations in the RNA vius 6, Genetics 176, pp. 467-476, 2007. 
[4]. Xavier Gendre, Introduction to Data Mining, France, 2016. 

File đính kèm:

  • pdfnghien_cuu_phuong_phap_mo_hinh_hoa_du_lieu_mau_ngau_nhien_ba.pdf