Bài giảng Khai phá dữ liệu - Hà Quang Thụy

1. Tài nguyên KPDL: 9 kiểu công cụ

▪ Data mining suites (DMS): Gói chứa nhiều phương pháp

▪ Business intelligence packages (BIs): Không tập trung chuyên

về KPDL mà hướng tới các chức năng KPDL cơ bản, đặc biệt

thống kê trong ứng dụng kinh doanh

▪ Mathematical packages (MATs): Không tập trung chuyên về

KPDL mà hướng tới một tập lớn và mở rộng các thuật toán và thủ

tục trực quan hóa.

▪ Integration packages (INTs): gói mở rộng nhiều thuật toán nguồn

mở khác nhau/phần mềm độc lập (chủ yếu là dựa trên Java).

▪ EXT: tiện ích bổ sung nhỏ cho các công cụ khác như Excel,

Matlab, R với chức năng hạn chế song rất hữu dụng.

▪ Data mining libraries (LIBs): thực thi các phương pháp KPDL

như một gói chức năng.

▪ Specialties (SPECs): tương tự như LIB song gồm chỉ một nhóm

phương pháp chuyên biệt (mạng nơron, )

▪ RES: thường là sự thi hành lần đầu tiên thuật toán mới, cách tân.

▪ Solutions (SOLs): một nhóm các công cụ được tùy biến cho các

lĩnh vực ứng dụng hẹp như khai phá văn bản (GATE), xử lý hình

ảnh (ITK, ImageJ) .

Download

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10

Tải về để xem bản đầy đủ

102 trang xuanhieu 15060

Download

Bạn đang xem 10 trang mẫu của tài liệu "Bài giảng Khai phá dữ liệu - Hà Quang Thụy", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Bài giảng Khai phá dữ liệu - Hà Quang Thụy

trong lấy mẫu
Gibbs
▪ Sử dụng mô hình Multi-generated Pólya Urn cho cannot-links
78
Một mô hình đề xuất [ACIIDS2018]
Quang-Thuy Ha,
Thi-Cham Nguyen et al.
⚫ Giải thích
▪ Dựa trên AMC
▪ Thiên vị mức “miền dữ liệu”: chỉ lấy miền dữ liệu gần S*
▪ Định nghĩa độ gần nhau: mức chủ đề và mức miền
▪ Mức miền: tập từ vựng, tập từ tốp đầu, lượng chủ đề gần nhau
▪ Mức chủ đề: độ đo cosine cho hai túi từ có trọng số
79
Áp dụng phân lớp đa nhãn văn bản
Kiểm thử
một mẫu
cho kỳ vọng
giả thuyết
quần thể
với phương
sai chưa
biết: kết
quả tăng
thực sự so
với AMC
80
WordNet và mô hình chủ đề suốt đời
⚫ WordNet chung: Thành phần kho tri thức
[Chen16]
▪ Đề cập cơ sở tri thức KB khởi đầu:  | WordNet
▪ Tiếp theo: chỉ đề cập tới KB khởi đầu 
⚫ Vấn đề
▪ ? Sử dụng WordNet: tính đa nghĩa của từ, đồng nghĩa/nghịch
nghĩa có ngư cảnh các từ.
▪ Đồng nghĩa: mustlinks, nghịch nghĩa: Cannotlinks
▪ Vấn đề: “ngữ cảnh” đồng nghĩa/nghịch nghĩa
▪ Wordnet chung hay WordNet tự xây dựng ?
▪ Wordnet chung: sẵn có VietWordNet từ KC.01.02/06-10
▪ Wordnet tự xây dựng: liên quan tới từng miền
81
Học sâu suốt đời: một chủ đề nghiên cứu
⚫ Các chủ đề nghiên cứu về học suốt đời
▪ Học suốt đời phân lớp và hồi quy (Lifelong Learning for
Classification and Regression)
▪ Học tăng cường suốt đời (Lifelong Reinforcement Learning)
▪ Học suốt đời với chuyển giao tri thức mức cao (Few-Shot
Transfer in Lifelong Learning). David Isele.
trier.de/pers/hd/i/Isele:David . ACIIDS 2018?
▪ Học sâu suốt đời (Deep Lifelong Learning)
▪ Học suốt đời mô hình người dùng và cung cấp đám đông
(Lifelong Learning for User Modeling and Crowdsourcing)
▪ Học suốt đời người máy (Lifelong Robot Learning)
▪ Học suốt đời thông tin cấu trúc (Lifelong Learning of
Structured Information)
82
Học sâu: Nhận định của François Chollet
⚫ An Interview with François Chollet
▪ François Chollet, ít thông tin cá nhân
https://research.google.com/pubs/105096.html
https://www.linkedin.com/in/fchollet https://www.kaggle.com/rankings
Công bố không nhiều
trier.de/pers/hd/c/Chollet:Fran=ccedil=ois
▪ Hạng Kaggle cao nhất đạt được: 17th toàn cầu
▪ AI và học sâu của Google
▪ Tác giả: (i) Keras: khung học sâu Python hàng
đầu nguồn mở: Google Scholar Cited 1060, (ii)
Sách "Deep Learning with Python“
▪ https://www.datacamp.com/community/blog/int
erview-francois-chollet
▪ https://www.datacamp.com/community/tutorials
/deep-learning-python
▪ [Chollet18] François Chollet. Deep Learning
with Python. Manning, 2018
83
Học sâu: Hạn chế [Chollet18]
⚫ Giới thiệu
▪ Hạn chế của học sâu
▪ Học sâu suốt đời: Một chủ đề nghiên cứu thời sự
⚫ Học sâu và hạn chế
▪ Học sâu “vô hạn” ứng dụng
▪  nhiều ứng dụng ngoài tầm học sâu dù có rất nhiều ví dụ mẫu
▪ X={mô tả sản phẩm phần mềm do một người quản lý viết}
▪ Y={mã nguồn đáp ứng mô tả do một đội viết}
▪ Cho 105 (106) cặp (x, y) X Y. Không thể sinh một mô hình học
sâu ánh xạ X → Y
▪ Giải thích: học xâu = chuỗi các phép biến đổi hình học đơn giản
và liên tục: X → Y (hai không gian vector) ngầm định  dãy biến
đổi liên tục từ X sang Y.
▪ Một mô hình học sâu là một chương trình song hầu hết chương
trình không thể biểu diễn bằng mô hình học sâu
▪ Chồng lấp mô hình chỉ giảm thiểu mà không giải quyết
https://blog.keras.io/the-limitations-of-deep-learning.html
84
Hạn chế học sâu: ví dụ1
“Cậu bé đang cầm cây gậy phân loại ảnh gấu trúc thành vượn
bóng chày”
⚫ Rủi ro nhân cách hóa mô hình học máy
▪ anthropomorphizing
▪ Nhận dạng ảnh: chỉ một thay đổi nhỏ cho kết quả khác biệt
▪ Giải thích: mô hình học sâu không hiểu gì về đầu vào như con người
▪ Con người hiểu biết về hình ảnh, âm thanh, ngôn ngữ
[Chollet18] François Chollet. Deep Learning with Python. Manning, 2018
85
Hạn chế học sâu: Ảnh mờ trong gương
Trải nghiệm Tóm tắt khái Dữ liệu có Mô hình
Thế giới thực con người niệm vào tâm nhãn minh học máy
trí người hoạ khái niệm
Không phải lúc nào Không khớp với mô Khớp với dữ
hình tâm trí người
cũng chuyển tốt tới thế liệu học
giới thực dẫn xuất
⚫ Lưu ý chuyên gia học máy
▪ Tránh rơi vào bẫy miền tin “mạng nơ-ron hiểu được bài toán cần làm”
▪ Thực hiện nhiệm vụ hẹp hơn so với mong muốn con người
▪ Dữ liệu khác ví dụ học: mạng nơ-ron phá vỡ một cách vô lý
[Chollet18] François Chollet. Deep Learning with Python. Manning, 2018
86
Học sâu khác biệt với người học
⚫ Khái quát hóa cục bộ  khái quát hóa tới cực
▪ Học sâu: biến dạng hình học đơn giản từ đầu vào tới đầu ra.
Khái quát hóa cục bộ (local generalization)
▪ “Con” người học: qua trải nghiệm bản thân thay vì được trình
diễn qua ví dụ học
▪ Năng lực cao > ánh xạ kích thích trực tiếp để đáp ứng trực tiếp
▪ Duy trì các mô hình phức tạp, tóm tắt các mô hình cho tình
huống hiện thời, dùng mô hình cho tương lai
▪ Khái quát hóa “cận biên” (extreme generalization)
[Chollet18] François Chollet. Deep Learning with Python. Manning, 2018
87
Tương lai học sâu: suy đoán [Chollet18]
⚫ Mô hình như là một chương trình máy tính
▪ Từ khái quát hóa cục bộ tới khái quát hóa cận biên (lập luận
và trừu tượng hóa)
▪ Hiện tại: thành phần học của hệ thống chỉ xảy ra ở mô đun
chuyên dụng. Tương lai: hệ thống học đầy đủ, không có sự
tham gia của con người
algorithmic primitives
geometric primitives
[Chollet18] François Chollet. Deep Learning with Python. Manning, 2018
88
Truyền ngược, phân biệt và học tự động
⚫ Vượt qua tầng lan truyền ngược, sự phân biệt
▪ “Chương trình” mô hình vẫn sử dụng chương trình con hình học
(phân biệt) song toàn bộ chương trình là không phân biệt
▪ Lan truyền ngược là cách thức không nên chọn
▪ Không phân biệt toàn bộ song phân biệt cục bộ
⚫ Học máy tự động
▪ Tương lai: học kiến trúc mô hình
▪ Tìm kiếm kiến trúc phù hợp dựa trên học tăng cường và học di
truyền
▪ Học kiến trúc mô hình đồng thời với trọng số mô hình
▪ Thay thế công việc của kỹ sư học máy → kỹ sư học máy hướng
mô hình tới mục tiêu kinh doanh, mô hình tác động tới hệ sinh
thái kỹ thuật số
[Chollet18] François Chollet. Deep Learning with Python. Manning, 2018
89
Học sâu suốt đời: tái sử dụng mô-đun
▪ Chương trình con thuật toán (Algorithmic subroutine): tri thức
mức miền, được tổ chức vào thư viện
▪ Chương trình con hình học (Geometric subroutine): tri thức mức
dữ liệu cụ thể liên quan tới thuật toán học sâu
[Chollet18] François Chollet. Deep Learning with Python. Manning, 2018
90
Học sâu suốt đời
⚫ Nhận diện thực thể
▪ Lei Shu, Hu Xu, Bing Liu. Lifelong Learning CRF for Supervised Aspect
Extraction. ACL (2) 2017:148-154. Học suốt đời nhận diện thực thể
▪ Lei Shu, Bing Liu, Hu Xu, Annice Kim. Lifelong-RL: Lifelong Relaxation
Labeling for Separating Entities and Aspects in Opinion Targets.
EMNLP 2016: 225-235. Học suốt đời nhận diện thực thể
▪ Chen Tessler, Shahar Givony, Tom Zahavy, Daniel J. Mankowitz, Shie
Mannor. A Deep Hierarchical Approach to Lifelong Learning in
Minecraft. AAAI 2017: 1553-1561. Học sâu dữ liệu ảnh
⚫ Học sâu suốt đời phân lớp đa nhãn
▪ Lei Shu, Hu Xu, Bing Liu. DOC: Deep Open Classification of Text
Documents. EMNLP 2017: 2911-2916. Học sâu
▪ Geli Fei, Shuai Wang, Bing Liu. Learning Cumulatively to Become More
Knowledgeable. KDD 2016: 1565-1574. Phân lớp sâu suốt đời = học
tích lũy + học sâu (trên)
▪ Quang-Thuy Ha, Thi-Ngan Pham, Van-Quang Nguyen, Thi-Cham
Nguyen, Thi-Hong Vuong, Minh-Tuoi Tran and Tri-Thanh Nguyen. A
New Lifelong Topic Modeling Method and Its Application to Vietnamese
Text Multi-label Classification. ACIIDS 2018 (in press). Phân lớp đa
nhãn dựa trên mô hình chủ đề suốt đời.
91
Một dự án học sâu suốt đời
⚫ Giới thiệu
▪ Do Eric Eaton chủ trì, được AFRL và DARPA tài trợ
▪ https://www.grasp.upenn.edu/projects/lifelong-deep-
learning
▪ Xem [Isele17]
92
Học sâu suốt đời
⚫ Một vài tham khảo khác
▪ David Isele. Thesis Proposal: Representations for Continuous Learning.
Proceedings of the Thirty-First AAAI Conference on Artificial
Intelligence (AAAI-17).
https://www.grasp.upenn.edu/people/david-isele
https://www.grasp.upenn.edu/labs/lifelong-machine-learning
▪ Simon Stiebellehner, Jun Wang, Shuai Yuan. Learning Continuous
User Representations through Hybrid Filtering with doc2vec.
arXiv:1801.00215.
▪ Andrei A. Rusu, Neil C. Rabinowitz, Guillaume Desjardins, Hubert
Soyer, James Kirkpatrick, Koray Kavukcuoglu, Razvan Pascanu, Raia
Hadsell. Progressive Neural Networks. CoRR abs/1606.04671, 2016
▪ Irina Higgins, Arka Pal, Andrei A. Rusu, Loïc Matthey, Christopher
Burgess, Alexander Pritzel, Matthew Botvinick, Charles Blundell,
Alexander Lerchner. DARLA: Improving Zero-Shot Transfer in
Reinforcement Learning. ICML 2017: 1480-1490
▪ James Kirkpatrick et al. Overcoming catastrophic forgetting in neural
networks. CoRR abs/1612.00796, 2016.
▪ v.v.
93
GIỚI THIỆU VỀ HỌC MÁY THẾ GIỚI MỞ
94
Tài liệu nghiên cứu
⚫ [Chen18] Zhiyuan Chen, Bing Liu. Lifelong
Machine Learning (2nd edittion). Morgan &
Claypool, 2018
▪ CHAPTER 5. Open-World Learning
▪ [Bendale15] Abhijit Bendale and Terrance E Boult. Towards open world
recognition. IEEE Conference on Computer Vision and Pattern
Recognition, pages 1893–1902, 2015.
▪ [Fei16] Geli Fei and Bing Liu. Breaking the closed world assumption in
text classification. NAACL-HLT, pages 506–514, 2016.
▪ [Fei16a] Geli Fei, Shuai Wang, Bing Liu. Learning Cumulatively to
Become More Knowledgeable. KDD 2016: 1565-1574.
▪ [Shu17] Lei Shu, Hu Xu, Bing Liu. DOC: Deep Open Classification of
Text Documents. EMNLP 2017: 2911-2916.
▪ Lei Shu, Hu Xu, Bing Liu. Unseen Class Discovery in Open-world
Classification. CoRR abs/1801.05609, 2018
▪ CHAPTER 8. Continuous Knowledge Learning in Chatbots
▪ [Mazumder18] Sahisnu Mazumder, Nianzu Ma, and Bing Liu. Towards
a continuous knowledge learning engine for chatbots.
ArXiv:1802.06024, 2018
95
Ví dụ minh họa 1: Người máy chào hỏi
⚫ Người máy chào đón khách hàng ở cửa ra-vào
▪ Với mỗi khách hàng quen: Có ảnh, tên khách hàng, thông tin
khác và mô hình đoán nhận khách hàng từ ảnh
▪ Một khách hàng tới cửa ra –vào. Người máy chụp ảnh, sử dụng
mô hình đoán nhận khách hàng để biết tên khách hàng.
⚫ Tiếp cận học máy thế giới đóng
▪ Số lớp = số lượng khách hàng quen + 01 “lớp chưa biết”
▪ Khách quen: phát hiện, chào hỏi theo tên
▪ Khách lạ: phân vào lớp chưa biết và đợi người quản lý nạp mô
hình phân lớp mới.
⚫ Tiếp cận học máy thế giới đóng
▪ Số lớp = số lượng khách hàng quen + k “lớp chưa biết”
▪ Khách quen: phát hiện lớp, chào hỏi theo tên
▪ Khách lạ: bổ sung dữ liệu về khách như chụp thêm ảnh nhận
diện, đàm thoại với khách hàng hoặc người quản lý để biết tên
và các thông tin khác về khách hàng. Chào hỏi theo tên. Xây
dựng mô hình đoán nhận khách hàng theo ảnh.
96
Ví dụ minh họa 2: Chatbot với chủ đề mới
⚫ Đàm thoạichatbot
▪ Chatbot đã nhận biết được một số chủ đề cho trước theo mô
hình phân lớp từ ví dụ học liên quan tới mỗi chủ đề
▪ Khởi động một đàm thoại mới: Sử dụng các mô hình phân lớp
để nhận diện chủ đề của đàm thoại hiện thời
⚫ Tiếp cận thế giới đóng
▪ Người đàm thoại nêu câu đàm thoại, dùng các mô hình phân
lớp phát hiện chủ đề người đàm thoại nêu ra.
▪ Sử dụng cơ sở tri thức cho chủ đề chưa biết: suy luận tuy nhiên
không tự nhiên
⚫ Tiếp cận thế giới mở
▪ Số lớp = số chủ đề đã biết + k lớp “khác đi”
▪ Câu đàm thoại thuộc chủ đề: tiếp tục trợ giúp
▪ Câu đàm thoại không thuộc chủ đề đã biết. Sử dụng Cơ sở tri
thức, đàm thoại người dùng để thêm tri thức dữ kiện.
▪ Xây dựng mô hình phân lớp theo các chủ đề liên quan với đàm
thoại bổ sung.
97
Ví dụ minh họa 3: Xe tự lái trên đường
⚫ Xe tự lái
▪ Muôn màu “vật” có thể gặp trên đường
▪ Có mô hình liên quan tới các kiểu đối tượng “đã biết”
▪ Xuất hiện không ngừng các đối tượng “chưa biết”
⚫ Chỉ có thể tiếp cận thế giới mở
▪ Bài toán rất phức tạp
▪ Ghi nhận dữ liệu đối tượng chưa biết và tương tác để có thêm
thông tin về đối tượng chưa biết
▪ Tương tác: (i) người giám sát, (2) khách hàng, (3) đa tác tử: kết
nối với các xe đang vận hành “láng giềng” bổ sung tri thức về
đối tượng chưa biết
⚫ Qua ba ví dụ
▪ Nhận ra một “cái mới chưa biết” nào đõ xuất hiện
▪ Tự động học để hiểu về “cái mới chưa biết” đó
98
Học thế giới mở
⚫ Định nghĩa
N
1) Bộ học có một mô hình phân lớp đa lớp F ={f1, f2,..., fN} từ N
N
tập dữ liệu lớp quá khứ D = {D1, D2, , DN} với các nhãn lớp
N
tương ứng Y = {l1, l2, , lN}.  thể hiện mới x, FN hoặc gán
N
nhãn li Y hoặc từ chối và đưa x vào tập chưa biết R.
2) Hệ thống/người sử dụng xác định các lớp chưa biết ẩn C trong
R và thu thập dữ liệu học cho các lớp chưa biết
3) Giả sử có k lớp mới đã đủ dữ liệu học, bộ học học gia tăng k
lớp mới theo dữ liệu học. Bộ học cập nhật là (FN+k, DN+k, YN+k).
⚫ Học thế giới mở là một dạng học suốt đời
▪ Bài toán TN+1: xây dựng bộ phân lớp mở đa lớp dựa trên các lớp
đã biết và các lớp mới
▪ Cơ sở tri thức: mọi mô hình thuộc FN+k và mọi dữ liệu thuộc
DN+k.
▪ 3) học gia tăng truyền thống (không từ chối thể hiện lớp chưa
biết) dù có bổ sung lớp mới gia tăng mà không cần học lại toàn
bộ mô hình
99
Học không gian tương tự theo tâm [Fei16]
⚫ Tư tưởng
▪ Học khái niệm mới của con người thông qua các khái niệm
tương tự đã biết
▪ Đã biết {“phim”, “đồ nội thất”, “bóng đá”} cần học khái niệm mới
chưa biết “bóng rổ”. “Bóng rổ” tương tự “bóng đá” và rất khác
biệt “phim” và “đồ nội thất”
▪ Hai bước (1) tìm kiếm tập SC các lớp đã biết tương tự lớp mới
chưa biết lN+1, (2) học phân biệt tách lớp mới chưa biết lN+1 với
các lớp đã biết tương tự trong SC
▪ center-based similarity: tương tự theo tâm
⚫ Giải pháp
▪ (1) Tìm SC: Chạy từng bộ phân lớp nhị phân “1-vs-rest” trong FN
với mỗi x DN+1. Lớp “tương tự” với lớp “mới chưa biết” có một
tỷ lệ đoán nhận các x DN+1 vượt qua một ngưỡng cho trước.
▪ (2) gồm hai nội dung: (i) xây dựng phân lớp nhị phân đoán nhận
lớp N+1 với DN+1 tập ví dụ dương và SCDi là tập ví dụ âm (2)
cập nhật các phân lớp thuộc SC với tập ví dụ dương đã biết còn
tập ví dụ âm là tập ví dụ âm đã biết bổ sung thêm DN+1.
100
Thuật toán học gia tăng CBS khái quát
⚫ N
⚫ H
[Fei16] mô tả cụ thể
thuật toán CL-cbsSVM
với “tương tự theo
tâm”
101
Đánh giá thuật toán học gia tăng CBS
⚫ Nhận biết một ví dụ là chưa biết
N+1
▪ Bộ học cập nhật F = {f1, f2, , fN, fN+1}, một thể hiện x, cần xác
định x thuộc một lớp đã biết nào hoặc thuộc một lớp chưa biết.
▪ f1 là các bộ phân lớp nhị phân SVM “1-vs-còn lại” mà điểm đầu
ra SVM khó so sánh
▪ Chuyển điểm đầu ra SVM thành một xác suất P(li|x) theo thuật
toán [Platt99] (có sẵn trong LIBSVM)
⚫ Quyết định
▪ y* : nhãn quyết định cho x
▪ : ngưỡng quyết định, chọn =0.5
▪ Co: “nhãn” lớp mới chưa biết.
102

File đính kèm:

bai_giang_khai_pha_du_lieu_ha_quang_thuy.pdf