Nghiên cứu mô hình hệ thống hỗ trợ tư vấn công tác học vụ trong cơ sở giáo dục đại học

Chatbot là một hệ thống giao tiếp tương tác với con người bằng các phương pháp học máy,

thực hiện cuộc trò chuyện thông qua một giao diện dưới dạng tin nhắn hoặc âm thanh. Trong thời kì

chuyển đổi số ngày nay đã tạo điều kiện để chatbot tăng tốc nhanh chóng và tạo ra một hệ thống

nhiều loại bot tương tự hệ sinh thái ứng dụng như trong việc chăm sóc khách hàng như cung cấp

thông tin sản phẩm, đưa ra các thông tin gợi ý; quản lí hàng tồn, sắp xếp lịch, tra cứu dữ liệu y tế,

chăm sóc sức khỏe. Trong bài báo này, chúng tôi nghiên cứu xây dựng một hệ thống chatbot có khả

năng hỗ trợ tư vấn thông tin học vụ cho sinh viên bằng cách tiếp cận kết hợp các kĩ thuật gom cụm

KNN, mạng nơron, mô hình túi từ và phương pháp thống kê TF-IDF. Bằng cách kết hợp các kĩ thuật

máy học cũng như gom cụm, chúng tôi đã xây dựng được một mô hình tính toán cùng với một hệ

thống tương tự chatbot để hiểu và trả lời những câu hỏi về thông tin học vụ.

Nghiên cứu mô hình hệ thống hỗ trợ tư vấn công tác học vụ trong cơ sở giáo dục đại học trang 1

Trang 1

Nghiên cứu mô hình hệ thống hỗ trợ tư vấn công tác học vụ trong cơ sở giáo dục đại học trang 2

Trang 2

Nghiên cứu mô hình hệ thống hỗ trợ tư vấn công tác học vụ trong cơ sở giáo dục đại học trang 3

Trang 3

Nghiên cứu mô hình hệ thống hỗ trợ tư vấn công tác học vụ trong cơ sở giáo dục đại học trang 4

Trang 4

Nghiên cứu mô hình hệ thống hỗ trợ tư vấn công tác học vụ trong cơ sở giáo dục đại học trang 5

Trang 5

Nghiên cứu mô hình hệ thống hỗ trợ tư vấn công tác học vụ trong cơ sở giáo dục đại học trang 6

Trang 6

Nghiên cứu mô hình hệ thống hỗ trợ tư vấn công tác học vụ trong cơ sở giáo dục đại học trang 7

Trang 7

Nghiên cứu mô hình hệ thống hỗ trợ tư vấn công tác học vụ trong cơ sở giáo dục đại học trang 8

Trang 8

Nghiên cứu mô hình hệ thống hỗ trợ tư vấn công tác học vụ trong cơ sở giáo dục đại học trang 9

Trang 9

Nghiên cứu mô hình hệ thống hỗ trợ tư vấn công tác học vụ trong cơ sở giáo dục đại học trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 15 trang xuanhieu 6600
Bạn đang xem 10 trang mẫu của tài liệu "Nghiên cứu mô hình hệ thống hỗ trợ tư vấn công tác học vụ trong cơ sở giáo dục đại học", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Nghiên cứu mô hình hệ thống hỗ trợ tư vấn công tác học vụ trong cơ sở giáo dục đại học

Nghiên cứu mô hình hệ thống hỗ trợ tư vấn công tác học vụ trong cơ sở giáo dục đại học
nh của nơ ron, cấu trúc và sự liên kết giữa các nơ ron. Trong nhiều trường hợp, mạng 
nơ-ron nhân tạo là một hệ thống thích ứng, tự thay đổi cấu trúc của mình dựa trên các thông 
tin bên ngoài hay bên trong chạy qua mạng trong quá trình học. 
 Hình 3. Mạng nơron thần kinh 
 1152 
Tạp chí Khoa học Trường ĐHSP TPHCM Phạm Nguyễn Huy Phương và tgk 
 Kiến trúc chung của một ANN gồm 3 thành phần đó là Input Layer, Hidden Layer và 
Output Layer 
 Một số cách thức thực hiện thuật toán học: Học tham số, học cấu trúc. Hai vấn đề này 
có thể được thực hiện đồng thời hoặc tách biệt. Nếu các mô hình, hàm chi phí và thuật toán 
học được lựa chọn một cách thích hợp thì mạng ANN sẽ cho kết quả có thể vô cùng mạnh 
mẽ và hiệu quả. 
 Hình 4. Các thành phần của ANN 
 Inputs (Đầu vào): Mỗi Input tương ứng với 1 đặc trưng của dữ liệu. Ví dụ như trong 
ứng dụng của ngân hàng xem xét có chấp nhận cho khách hàng vay tiền hay không thì mỗi 
input là một thuộc tính của khách hàng như thu nhập, nghề nghiệp, tuổi, số con... 
 Output (Đầu ra): Kết quả của một ANN là một giải pháp cho một vấn đề, ví dụ như 
với bài toán xem xét chấp nhận cho khách hàng vay tiền hay không thì output là yes/đồng ý 
hoặc no/không đồng ý. 
 Connection Weights (Trọng số liên kết): Đây là thành phần rất quan trọng của một 
ANN, nó thể hiện mức độ quan trọng, độ mạnh của dữ liệu đầu vào đối với quá trình xử lí 
thông tin chuyển đổi dữ liệu từ layer này sang layer khác. Quá trình học của ANN thực ra là 
quá trình điều chỉnh các trọng số Weight của các dữ liệu đầu vào để có được kết quả 
mong muốn. 
 Summation Function (Hàm tổng): Tính tổng trọng số của tất cả các input được đưa 
vào mỗi nơ-ron. Hàm tổng của một nơ-ron đối với n input được tính theo công thức sau: 
 푛
 푌 = ∑ 푖푊푖 
 푖=1
 Transfer Function (Hàm chuyển đổi): Hàm tổng của một nơ-ron cho biết khả năng 
kích hoạt của nơ-ron đó còn gọi là kích hoạt bên trong. Các nơ-ron này có thể sinh ra một 
output hoặc không trong mạng ANN, nói cách khác rằng có thể output của một nơ-ron có 
thể được chuyển đến layer tiếp theo trong mạng nơ-ron hoặc không. Mối quan hệ giữa hàm 
tổng và kết quả output được thể hiện bằng hàm chuyển đổi. 
2.4. Thuật toán KNN cho chatbot 
 Một trong những phương pháp máy học thường được sử dụng để phân lớp và tìm kiếm 
văn bản là k láng giềng. 
 1153 
Tạp chí Khoa học Trường ĐHSP TPHCM Tập 18, Số 6 (2021): 1146-1160 
 Giải thuật k-láng giềng (KNN – K Nearest Neighbors) được Fix và Hodges đề xuất từ 
những năm 1952. Đây là phương pháp rất đơn giản nhưng cũng cho hiệu quả cao trong khai 
mỏ dữ liệu. Giải thuật k láng giềng và phương pháp đánh giá hiệu quả phân lớp được mô tả 
chi tiết trong tài liệu. Phương pháp k-láng giềng (tên khác instance-based, lazy) rất đơn giản, 
dễ hiểu và thường cho kết quả tốt so với các phương pháp học khác. Giải thuật k láng giềng 
không có quá trình học, khi dự đoán lớp (nhãn) của phần tử dữ liệu mới đến, giải thuật đi 
tìm k láng giềng của nó từ tập dữ liệu học, sau đó thực hiện việc phân lớp phần tử mới đến. 
Quá trình phân lớp của k láng giềng mất rất nhiều thời gian. Giải thuật ứng dụng thành công 
trong hầu hết các lĩnh vực tìm kiếm thông tin, nhận dạng, phân tích dữ liệu, hồi quy (Do, 2017). 
 KNN là phương pháp để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa 
đối tượng cần sắp lớp và tất cả các đối tượng trong tập dữ liệu. Do quá trình tìm kiếm k phần 
tử lân cận cho mỗi phần tử mới, sau đó phân loại dựa trên luật bình chọn số đông (hồi quy 
dựa trên giá trị trung bình), độ phức tạp của quá trình phân loại khá lớn và kết quả phụ thuộc 
vào việc lựa chọn khoảng cách sử dụng. 
 Mục tiêu của các bộ máy – hệ thống tìm kiếm thông tin là trả về cho người dùng k tài 
liệu có độ tương đồng cao nhất so với nhu cầu thông tin của họ. Thực tế thì khi người dùng 
thực hiện truy vấn họ không biết được đâu là k tài liệu phù hợp với nhu cầu tìm kiếm của 
mình. Trong trường hợp này, hệ thống tìm kiếm sẽ cố gắng trả về k tài liệu có độ tương đồng 
cao nhất so với truy vấn từ người dùng. Trong bài báo này áp dụng phương pháp KNN để 
rút trích k tài liệu có độ tương đồng cao nhất với truy vấn của người dùng. 
 Ví dụ sau đây minh họa cách thức hoạt động của phương pháp KNN. 
 Hình 5. Minh họa tập dữ liệu gồm 2 lớp 
 Thuật toán KNN áp dụng vào bài báo được mô tả như sau: 
 • Bước 1. Để thực hiện bất kì thuật toán nào, chúng ta cần tập dữ liệu. Vì vậy, trong 
bước đầu tiên của KNN, chúng ta phải tải dữ liệu huấn luyện cũng như kiểm tra. 
 • Bước 2. Tiếp theo, chúng ta cần chọn giá trị của k tức là các điểm dữ liệu gần nhất. k 
có thể là bất kì số nguyên nào. 
 1154 
Tạp chí Khoa học Trường ĐHSP TPHCM Phạm Nguyễn Huy Phương và tgk 
 • Bước 3. Đối với mỗi điểm trong dữ liệu kiểm tra, hãy làm như sau: 
 - Tính toán khoảng cách giữa dữ liệu thử nghiệm và mỗi hàng dữ liệu huấn luyện với 
 sự trợ giúp của bất kì phương pháp nào cụ thể là: Khoảng cách Euclidean, Manhattan 
 hoặc Hamming. Phương pháp phổ biến nhất được sử dụng để tính khoảng cách là 
 Euclidean. 
 - Sắp xếp khoảng cách trên theo thứ tự tăng dần. 
 - Chọn K hàng đầu tiên từ mảng đã sắp xếp. 
 - Chỉ định một lớp cho điểm kiểm tra dựa trên lớp thường xuyên nhất của các hàng này. 
 • Bước 4. Kết thúc 
 Việc tính toán khoảng cách giữa các đối tượng cần phân lớp với tất cả đối tượng trong tập 
dữ liệu huấn luyện thường được sử dụng với công thức tính khoảng cách Euclidean. Cho 2 điểm 
P1(x1, y1) và P2(x2, y2) thì khoảng cách Euclidean distance sẽ được tính theo công thức: 
2.5. Đề xuất mô hình tư vấn học vụ 
 Hệ thống chatbot được xây dựng với mục đích ban đầu là đáp ứng nhu các yêu cầu cơ 
bản của một hệ thống tư vấn học vụ cho sinh viên tại Trường Đại học Công nghiệp Thực 
phẩm Thành phố Hồ Chí Minh hoặc các cơ sở giáo dục đại học. Dựa trên mô hình mạng 
neuron nhân tạo, mô hình túi từ và ứng dụng mô hình học máy này để xây dựng ứng dụng 
Chatbot hỏi-đáp. Kết quả thực nghiệm mô hình với tập dữ liệu thực cho thấy phương pháp 
của bài báo đề xuất là khá hiệu quả. Hệ thống chatbot thực nghiệm hoạt động có hiệu suất 
đúng như kì vọng. 
 Hệ thống chatbot với dữ líệu huấn luyện kịch bản hội thoại có sẵn, xây dựng giúp 
chatbot lấy được thông tin/câu hỏi từ phía người dùng. Chatbot xác định câu trả lời giúp 
người dùng có thể tiếp cận trực quan hơn với những câu hỏi mình muốn tìm kiếm. Cơ chế 
hoạt động của Chatbot như hình 6. 
 Hình 6. Sơ đồ cơ chế hoạt động ChatBot 
 1155 
Tạp chí Khoa học Trường ĐHSP TPHCM Tập 18, Số 6 (2021): 1146-1160 
Chú thích: 
 (1) Người dùng có câu hỏi dạng văn bản cần trả lời 
 (2) Người dùng nhập đoạn câu hỏi trên Chat Client 
 (3) Chatbot gửi đoạn câu hỏi về máy học 
 (4) Sử dụng NLP trích xuất các thông tin cần thiết của người dùng và gửi về cho Chatbot. 
 (5) Yêu cầu dữ liệu câu trả lời từ các thông tin cần thiết đã được xử lí. 
 (6) Dữ liệu câu trả lời được trả về cho Chatbot 
 (7) Chatbot gửi dữ liệu câu trả lời đến Chat Client 
 (8) Chat Client hiển thị câu trả lời cho người dùng. 
3. Kết quả và thảo luận 
3.1. Kết quả thực nghiệm 
3.1.1. Dữ liệu thực nghiệm 
 Giới thiệu bộ dữ liệu: Bộ dữ liệu được thu thập và biên soạn tập dữ liệu từ website 
sinhvien.hufi.edu.vn của trường đại học công nghiệp thực phẩm bao gồm 286 câu hỏi và 293 
câu trả lời liên quan đến các vấn đề như tư vấn học vụ, tham vấn học đường, kĩ năng mềm, 
chương trình đào tạo, sức khỏe, giáo dục 
3.1.2. Môi trường thực nghiệm 
 Để đánh giá hiệu quả của hệ thống chatbot đề xuất, nhóm tác giả cài đặt chương trình 
bằng ngôn ngữ lập trình Python. Để đảm bảo tính chính xác của chương trình, chương trình 
được chạy thực nghiệm trên các IDE Spyder3, Pycharm, Visual Studio Code có môi trường 
là anaconda3. Chương trình có sử dụng thư viện NLTK để thực hiện bước tách từ và biểu 
diễn các câu hỏi theo mô hình túi từ. Thư viện Scikit-learn được sử dụng để tạo bộ phận lớp 
KNN. Chương trình huấn luyện mạng nơron nhiều tầng. Thí nghiệm được chạy trên máy 
tính Acer Aspire 5 với CPU Intel core i5-7200 2.5Ghz 64bit, RAM 8GB, cài đặt hệ điều 
hành Windows 10. 
 - Cài đặt pycharm, spyder3, visual studio code 
 - Môi trường Anaconda 3 
3.1.3. Quá trình thực nghiệm 
 Bước 1. Xử lí dữ liệu văn bản đầu vào 
 Input: Thế nào là các học phần bắt buộc, tự chọn 
 - Tách các từ trong câu thành từng từ đơn sử dụng thuật toán BoW 
 - Sử dụng thư viện nltk để giúp đỡ trong việc xử lí 
 - Bằng các thư viện như nltk.wordtokennize, nltk.stem 
 - Loại bỏ các kí tự không cần thiết 
 - Chuẩn hóa vector. 
 Bước 2. Xử lí phần thuật toán NeuralNet 
 - Sử dụng thư viện của NN để trainning và xác định dữ liệu đầu ra cho bài toán. 
 1156 
Tạp chí Khoa học Trường ĐHSP TPHCM Phạm Nguyễn Huy Phương và tgk 
 Bước 3. Xuất ra output 
3.1.4. Kết quả so sánh số liệu giữa BoW và TF-IDF 
 Để đánh giá mô hình BoW với KNN và TF-IDF với KNN, nhóm tác giả có sử dụng 
các chỉ số: k, Model, Distance Metric, Word Root, Accuracy để so sánh. 
 Bảng 3. Bảng so sánh số liệu thuật toán bow và tfidf [6] 
 K Model Distance Metric Word Root Accuracy 
 1 BoW Jaccard Lem 64,50% 
 1 TF-IDF Cosine Lem 69,50% 
 1 BoW Jaccard Stem 70,50% 
 1 TF-IDF Cosine Stem 72,00% 
 5 BoW Jaccard Lem 71,00% 
 5 TF-IDF Cosine Lem 76,00% 
 5 BoW Jaccard Stem 70,50% 
 5 TF-IDF Cosine Stem 75,00% 
 10 BoW Jaccard Lem 68,00% 
 10 TF-IDF Cosine Lem 77,50% 
 10 BoW Jaccard Stem 69,50% 
 10 TF-IDF Cosine Stem 77,00% 
 Có thể dễ dàng nhận thấy được độ chính xác của giải thuật TF-IDF luôn cao hơn so 
với giải thuật BoW khi có cùng số k. Trong đó khi k bằng 10 thì giải thuật TF-IDF có độ 
chính xác cao nhất là 77,50% khi có word root là Lem. 
3.1.5. Kết quả so sánh số liệu giữa ANN và KNN 
 1157 
Tạp chí Khoa học Trường ĐHSP TPHCM Tập 18, Số 6 (2021): 1146-1160 
 Hình 7. Sơ đồ mô hình hệ thống so sánh văn bản tiếng Việt 
 Hình 8. Sơ đồ mô hình huấn luyện phân lớp 
 Để đánh giá mô hình cho bài toán, chúng tôi sử dụng các chỉ số: 
 Accuracy, k với k=10, hidden layer. 
 Bảng 4. So sánh giữa ANN và KNN 
 Các chỉ số ANN KNN 
 Accuracy 83,22% 76,58% 
 Bảng 4 cho thấy thuật toán ANN hoạt động hiệu quả tốt hơn, có độ chính xác cao hơn 
thuật toán KNN. 
3.2. Thảo luận 
 Kết quả thực nghiệm cho chúng ta thấy độ chính xác của ANN hiệu quả hơn so với 
KNN nhưng vẫn còn có những tình huống mà hệ thống dùng ANN không thể trả lời câu hỏi 
có độ chính xác chưa cao thì hệ thống sẽ thông báo và lưu về hệ thống chờ quản trị viên cập 
nhật câu trả lời cho câu hỏi đó. Khi so sánh với thuật toán phân loại văn bản khác nhau như 
KNN, có thể thấy thuật toán ANN có độ chính xác cao hơn, kết quả thực nghiệm cũng cho 
kết quả tốt hơn. Kết quả vừa trình bày chưa phải là kết quả tối ưu, nhưng hi vọng rằng đây 
 1158 
Tạp chí Khoa học Trường ĐHSP TPHCM Phạm Nguyễn Huy Phương và tgk 
sẽ là bước khởi đầu thuận lợi làm tiền đề nghiên cứu để thực hiện những chương trình trả lời 
tự động văn bản tiếng Việt tốt hơn nữa trong tương lai. 
4. Kết luận 
 Trong bài báo này, nhóm tác giả trình bày nội dung tư vấn công tác học vụ tại cơ sở 
giáo dục đại học bằng phương pháp xây dựng Chatbot trên website trả lời tự động cho sinh 
viên các câu hỏi liên quan đến học vụ, các vấn đề về kĩ năng sống, môi trường, phương pháp 
học tập Chatbot tư vấn học vụ được tạo dựa trên tiếp cận sử dụng máy học kết hợp với mô 
hình BOW và TF-IDF tạo một hệ thống hiệu quả giải quyết kịp thời nhu cầu của sinh viên 
và giảng viên. Hơn thế nữa, nhóm tác giả đã thu thập và biên soạn tập dữ liệu từ website của 
Trường Đại học Công nghiệp Thực phẩm Thành phố Hồ Chí Minh bao gồm 40 bộ dữ liệu 
hơn 286 câu hỏi và 293 câu trả lời khác nhau. Kết quả thực nghiệm cho thấy hệ thống đã có 
thể trả lời các câu hỏi mà người dùng hỏi với độ chính xác cao nhất là 83,45%. 
 ❖ Tuyên bố về quyền lợi: Các tác giả xác nhận hoàn toàn không có xung đột về quyền lợi. 
 ❖ Lời cảm ơn: Nhóm tác giả cảm ơn Trường Đại học Công nghiệp Thực phẩm Thành phố 
 Hồ Chí Minh đã hỗ trợ thực hiện công trình này. 
 TÀI LIỆU THAM KHẢO 
Do, T. N. (2017). Giao trình Khai mo du lieu – minh hoa bang ngon ngu R [Data Mining - Illustrated 
 in R language (Textbook)]. Can Tho University Publishing House. 
Do, T. N., & Pham, N. K. (2013). Phan loai van ban: Mo hinh tui tu va tap hop mo hinh may hoc tu 
 dong [Text classification: a bag of word model and set of automatic machine learning models]. 
 Can Tho Univerisy Journal of Science, 28(2), 9-15. 
Do, T. N., & Tran, C. D. (2014). Ket hop ngu nghia voi mo hinh tui tu de cai tien thuat giai K lang 
 gieng trong phan lop du lieu ngan [Combining semantic method with bag of word model to 
 improve the K-neighbor algorithm in classifying short data]. Can Tho Univerisy Journal of 
 Science, 32(1), 66-73. 
Do, T. N., & Hoang, T. (2019). Chatbot cho sinh vien cong nghe thong tin [Chatbot for information 
 technology students]. Proceedings of conference on Fundamental and Applied IT research, 
 Publishing House for Science and Technology. doi: 10.15625/vap.2019.00012. 
Nguyen, T. N., & Truong, Q. D. (2015). He thong ho tro tuyen sinh dai hoc [A consultancy support 
 system for university entrance test]. Can Tho Univerisy Journal of Science, CNTT (2015), 
 152-159. 
Pham, C. V. (2012). Ung dung khai pha du lieu de tu van hoc tap tai truong cao dang kinh te – ki 
 thuat quang nam [Apply data mining to support academic consulting at Quang Nam College 
 Economics and Technology]. Master’s Thesis in Computer Science of The University of 
 Danang, 1-25. 
 1159 
Tạp chí Khoa học Trường ĐHSP TPHCM Tập 18, Số 6 (2021): 1146-1160 
 A MODEL OF A CONSULTING ASSISTANCE SYSTEM 
 FOR ACADEMIC SERVICE IN HIGHER EDUCATION 
 Pham Nguyen Huy Phuong*, Vu Thanh Nguyen, 
 Nguyen Thi Dieu Hien, Bui Cong Danh 
 Ho Chi Minh City University of Food Industry, Vietnam 
 *Corresponding author: Bui Cong Danh – Email: danhbc@hufi.edu.vn 
 Received: March 15, 2021; Revised: May 17, 2021; Accepted: June 14, 2021 
ABSTRACT 
 A chatbot is a computer program or an artificial intelligence software that can interact with 
users in natural language, automatically simulate a conversation via an interface in the form of a 
message or sound. In the era of digital transformation, it has created conditions for chatbots to 
accelerate quickly and create a system of many types of bots similar to the ecosystem in customer 
care such as providing product information, offering suggestions, inventory management, 
scheduling, and medical data lookup and healthcare. In this article, we built a chatbot system 
capable of supporting academic counsulting for students by combining clustering method KNN, 
neural networks, bag-of-words model, and statistical measure TF-IDF. By combining machine 
learning and clustering techniques, we built a computational model with a chatbot system to 
understand and respond to questions related to academic affairs. 
 Keywords: chatbot; KNN; Natural Language; Neural Networks 
 1160 

File đính kèm:

  • pdfnghien_cuu_mo_hinh_he_thong_ho_tro_tu_van_cong_tac_hoc_vu_tr.pdf