Bài giảng Nhập môn khai phá dữ liệu - Chương 1: Giới thiệu chung về khai phá dữ liệu - Hà Quang Thụy
1. Tại sao khai phá dữ liệu (KPDL)?
2. Khái niệm KPDL và phát hiện tri thức trong CSDL
3. KPDL và xử lý CSDL truyền thống
4. Kiểu dữ liệu trong KPDL
5. Kiểu mẫu được khai phá
6. Công nghệ KPDL điển hình
7. Một số ứng dụng điển hình
8. Các vấn đề chính trong KPDL
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Bài giảng Nhập môn khai phá dữ liệu - Chương 1: Giới thiệu chung về khai phá dữ liệu - Hà Quang Thụy", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Bài giảng Nhập môn khai phá dữ liệu - Chương 1: Giới thiệu chung về khai phá dữ liệu - Hà Quang Thụy
áy, thống kê, trực quan hóa, . ⚫ Ứng dụng phù hợp ▪ Bán lẻ, viễn thông, ngân hàng, phân tích gian lận, KPDL sinh học, phân tích thị trường chứng khoán, KP văn bản, KP Web, July 12, 2021 60 Mọi mẫu khai phá được đều hấp dẫn? ⚫ KPDL có thể sinh ra tới hàng nghìn mẫu: Không phải tất cả đều hấp dẫn ▪ Tiếp cận gợi ý: KPDL hướng người dùng, dựa trên câu hỏi, hướng đích ⚫ Độ đo hấp dẫn ▪ Mẫu là hấp dẫn nếu dễ hiểu, có giá trị theo dữ liệu mới/kiểm tra với độ chắc chắn, hữu dụng tiềm năng, mới lạ hoặc xác nhận các giả thiết mà người dùng tìm kiếm để xác thực. ⚫ Độ đo hấp dẫn khách quan và chủ quan ▪ Khách quan: dựa trên thống kê và cấu trúc của mẫu, chẳng hạn, dộ hỗ trợ, độ tin cậy, ▪ Chủ quan: dựa trên sự tin tưởng của người dùng đối với dữ liệu, chẳng hạn, sự không chờ đón, tính mới mẻ, tác động được... July 12, 2021 61 Tìm được tất cả và chỉ các mẫu hấp dẫn? ⚫ Tìm được mọi mẫu hấp dẫn: Về tính đầy đủ ▪ Hệ thống KHDL có khả năng tìm mọi mẫu hấp dẫn? ▪ Tìm kiếm mày mò (heuristic) tìm kiếm đầy đủ ▪ Kết hợp phan lớp phân cụm ⚫ Tìm chỉ các mẫu hấp dẫn: Về tính tối ưu ▪ Hệ thống KPDL có khả năng tìm ra đúng các mẫu hấp dẫn? ▪ Tiếp cận ➢ Đầu tiên tìm tổng thể tất cả các mẫu sau đó lọc bỏ các mẫu không hấp dẫn. ➢ Sinh ra chỉ các mẫu hấp dẫn—tối ưu hóa câu hỏi khai phá July 12, 2021 62 KPDL: Các công nghệ chính Hội tụ của nhiều ngành [HKP11] July 12, 2021 Kho dữ liệu và khai phá dữ liệu: Chương 1 63 5. CSDL và KPDL: kiểu dữ liệu ⚫ CSDL quan hệ ⚫ Kho dữ liệu ⚫ CSDL giao dịch ⚫ CSDL mở rộng và kho chứa thông tin ▪ CSDL quan hệ-đối tượng ▪ Dữ liệu không gian và thời gian ▪ Dữ liệu chuỗi thời gian ▪ Dữ liệu dòng ▪ Dữ liệu đa phương tiện ▪ Dữ liệu không đồng nhất và thừa kế ▪ CSDL Text & WWW July 12, 2021 64 Phân tích/khai phá: Kiểu đa dạng dữ liệu 264 answers Xử lý CSDL: dữ liệu thuộc hệ quản trị CSDL Không có thống kê cập nhật hơn ⚫ Nhận xét: ▪ Dữ liệu (cơ sở dữ liệu) quan hệ: bảng: Hầu hết 203/264 ▪ Chuỗi thời gian, giao dịch, văn bản, ẩn danh, mạng xã hội July 12, 2021 65 KPDL: Dung lượng dữ liệu lớn 2013 Xử lý about 320 answers CSDL: dữ liệu kích thước bất kỳ July 12, 2021 CSDL với KPDL:Truy vấn CSDL ⚫ Truy vấn hệ quản trị CSDL ▪ Hãy hiển thị số tiền Ông Smith trong ngày 5 tháng Giêng ? ghi nhận riêng lẻ do xử lý giao dịch trực tuyến (on-line transaction processing – OLTP) ▪ Có bao nhiêu nhà đầu tư nước ngoài mua cổ phiếu X trong tháng trước ? ghi nhận thống kê do hệ thống hỗ trợ quyết định thống kê (stastical decision suppport system - DSS) ▪ Hiển thị mọi cổ phiếu trong CSDL với mệnh giá tăng ? ghi nhận dữ liệu đa chiều do xử lý phân tích trực tuyến (on-line analytic processing - OLAP). ⚫ Cần giả thiết ▪ Tính “đầy đủ” về tri thức miền phức tạp! ▪ Câu trả lời chính xác July 12, 2021 67 CSDL với KPDL:Truy vấn KPDL ⚫ Ví dụ truy vấn ▪ Các cổ phiếu tăng giá có đặc trưng gì ? ▪ Tỷ giá US$ - DMark có đặc trưng gì ? ▪ Hy vọng gì về cổ phiếu X trong tuần tiếp theo ? ▪ Trong tháng tiếp theo, sẽ có bao nhiêu đoàn viên công đoàn không trả được nợ của họ ? ▪ Những người mua sản phẩm Y có đặc trưng gì ? ⚫ Nhận xét ▪ Giả thiết tri thức “đầy đủ” không còn có tính cốt lõi, cần bổ sung tri thức cho hệ thống → Cải tiến (nâng cấp) miền tri thức ! ▪ Câu trả lời có tính xấp xỉ, gần đúng July 12, 2021 68 Khai phá dữ liệu : Mục tiêu kinh doanh ⚫ Ví dụ ▪ Giảm 3% lượng khách hàng hiện thời rời bỏ (duy trì khách hàng) ▪ Tăng 2% số hợp đồng của khách hàng mới (thu hút KH) ▪ Tăng 5% doanh thu từ việc bán chéo cho khách hàng hiện có (phát triển khách hang) ▪ Dự báo thị phần khán giả truyền hình với xác suất 70% (dự báo kênh tiếp thị) ▪ Dự báo với độ chính xác 75% lượng khách hang ký hợp đồng với sản phẩm mới (dự báo thu hút khách hàng) ▪ Xác định phân lớp mới khách hàng và sản phẩm (đặc trưng KH) ▪ Tạo một mô hình phân khúc khách hang mới (phân khúc KH) ⚫ Nhận xét ▪ Cần hiểu được bài toán và mục tiêu kinh doanh ▪ Các ví dụ trên liên quan tới quản lý quan hệ khách hàng July 12, 2021 69 Thống kê toán học với KPDL ⚫ Nhiều điểm chung giữa KPDL với thống kê: ▪ Đặc biệt như phân tích dữ liệu thăm dò (EDA: Exploratory Data Analysis) cũng như dự báo [Fied97, HD03]. ▪ Hệ thống KDD thường gắn kết với các thủ tục thống kê đặc biệt đối với mô hình dữ liệu và nắm bắt nhiễu trong một khung cảnh phát hiện tri thức tổng thể. ▪ Các phương pháp KPDL dựa theo thống kê nhận được sự quan tâm đặc biệt. July 12, 2021 70 Thống kê toán học với KPDL ⚫ Phân biệt giữa bài toán thống kê và bài toán khai phá dữ liệu ▪ Kiểm định giả thiết TK: một mô hình giả thiết + tập dữ liệu quan sát được. Kiểm tra: tập dữ liệu có phù hợp với giả thiết thống kê hay không/ giả thiết thống kê có đúng trên toàn bộ dữ liệu quan sát được hay không. ▪ Bài toán học KPDL: Cho tập dữ liệu (mô hình chưa có). Mô hình kết quả phải phù hợp với tập toàn bộ dữ liệu -> đảm bảo các tham số mô hình không phụ thuộc vào cách chọn tập dữ liệu học. Học KPDL đòi hỏi tập dữ liệu học/tập dữ liệu kiểm tra cần "đại diện" cho toàn bộ dữ liệu trong miền ứng dụng và cần độc lập nhau. Một số trường hợp: hai tập dữ liệu này (hoặc tập dữ liệu kiểm tra) được công bố dưới dạng chuẩn. ▪ Về thuật ngữ: KPDL: biến ra/biến mục tiêu, thuật toán khai phá dữ liệu, thuộc tính/đặc trưng, bản ghi... XLDLTK: biến phụ thuộc, thủ tục thống kê, biến giải thích, quan sát... Tham khảo thêm từ Nguyễn Xuân Long July 12, 2021 71 Học máy với KPDL ⚫ Học máy ▪ Machine Learning ▪ Cách máy tính học (nâng cao năng lực) dựa trên dữ liệu. ▪ Chương trình máy tính tự động học được mẫu phức tạp và ra quyết định thông minh dựa trên dữ liệu, ví dụ, “học được chữ viết tay trên thư thông qua một tập ví dụ”. ▪ Học máy là lĩnh vực nghiên cứu phát triển nhanh ⚫ Một số nội dung học máy với khai phá dữ liệu ▪ Nhiều nội dung đã được trình bày tại mục trước ▪ Học giám sát (supervised learning) đồng nghĩa với phân lớp (classification) ▪ Học không giám sát (unsupervised) phân cụm (clustering), ▪ Học bán giám sát (semi-supervised learning) sử dụng cả ví dụ có nhãn và ví dụ không có nhãn ▪ Học tích cực (Active learning) còn được gọi là học tương tác (interactive learning) có tương tác với người dùng. ▪ Học tăng cường (incremental learning) mẫu đầu vào là liên tục và mô hình học phù hợp với ví dụ cập nhật. ▪ Các khung học máy khác July 12, 2021 72 Tìm kiếm thông tin với KPDL ⚫ Tìm kiếm thông tin ▪ Information Retrieval. “Truy hồi thông tin” ▪ Tìm kiếm tài liệu hoặc tìm kiếm thông tin trong tài liệu theo một truy vấn. Tài liệu: văn bản, đa phương tiện, web ▪ Hai giả thiết: (i) Dữ liệu tìm kiếm là không cấu trúc; (ii) Truy vấn dưới dạng từ khóa/cụm từ khóa mà không phải cấu trúc phức tạp ⚫ Tìm kiếm thông tin với KPDL ▪ Kết hợp mô hình tìm kiếm với kỹ thuật KPDL tìm thấy các chủ đề chính trong tập tài liệu, từng tài liệu bổ sung thuộc tính dữ liệu quan trọng ▪ KPDL văn bản, web, phương tiện xã hội liên quan mật thiết với tìm kiếm thông tin. July 12, 2021 73 7. Ứng dụng cơ bản của KPDL ⚫ Phân tích dữ liệu và hỗ trợ quyết định ⚫ Phân tích và quản lý thị trường ⚫ Tiếp thị định hướng, quản lý quan hệ khách hàng (CRM), phân tích thói quen mua hàng, bán hàng chéo, phân đoạn thị trường ⚫ Phân tích và quản lý rủi ro ⚫ Dự báo, duy trì khách hàng, cải thiện bảo lãnh, kiểm soát chất lượng, phân tích cạnh tranh ⚫ Phát hiện gian lận và phát hiện mẫu bất thường (ngoại lai) ⚫ Ứng dụng khác ⚫ Khai phá Text (nhóm mới, email, tài liệu) và khai phá Web ⚫ Khai phá dữ liệu dòng ⚫ Phân tích DNA và dữ liệu sinh học July 12, 2021 74 Phân tích và quản lý thị trường ⚫ Nguồn dữ liệu có từ đâu ? ⚫ Giao dịch thẻ tín dụng, thẻ thành viên, phiếu giảm giá, các phàn nàn của khách hàng, các nghiên cứu phong cách sống (công cộng) bổ sung ⚫ Tiếp thị định hướng ⚫ Tìm cụm các mô hình khách hàng cùng đặc trưng: sự quan tâm, mức thu nhập, thói quen chi tiêu... ⚫ Xác định các mẫu mua hàng theo thời gian ⚫ Phân tích thị trường chéo ⚫ Quan hệ kết hợp/đồng quan hệ giữa bán hàng và dự báo dựa theo quan hệ kết hợp ⚫ Hồ sơ khách hàng ⚫ Kiểu của khách hàng mua sản phẩm gì (phân cụm và phân lớp) ⚫ Phân tích yêu cầu khách hàng ⚫ Định danh các sản phẩm tốt nhất tới khách hàng (khác nhau) ⚫ Dự báo các nhân tố sẽ thu hút khách hàng mới ⚫ Cung cấp thông tin tóm tắt ⚫ Báo cáo tóm tắt đa chiều ⚫ Thông tin tóm tắt thống kê (xu hướng trung tâm dữ liệu và biến đổi) July 12, 2021 75 Phân tích kinh doanh: Ba kiểu điển hình https://www.mckinsey.com/business-functions/mckinsey-analytics/our- insights/an-executives-guide-to-ai July 12, 2021 76 Chương trình ĐT Phân tích kinh doanh ⚫ Trường tính toán, ĐHQG Singapore ⚫ Business Analytics, ⚫ Các môn chung ĐHQGHN July 12, 2021 77 NUS-SoC: CTĐT Phân tích kinh doanh Chọn từ trường khác July 12, 2021 78 NUS-SoC: CTĐT Phân tích kinh doanh July 12, 2021 79 Phân tích doanh nghiệp & Quản lý rủi ro ⚫ Lên kế hoạch tài chính và đánh giá tài sản ▪ Phân tích và dự báo dòng tiền mặt ▪ Phân tích yêu cầu ngẫu nhiên để đánh giá tài sản ▪ Phân tích lát cắt ngang và chuỗi thời gian (tỷ số tài chính, phân tích xu hướng) ⚫ Lên kế hoạch tài nguyên ▪ Tóm tắt và so sánh các nguồn lực và chi tiêu ⚫ Cạnh tranh ▪ Theo dõi đối thủ cạnh tranh và định hướng thị trường ▪ Nhóm khách hàng thành các lớp và định giá dựa theo lớp khách ▪ Khởi tạo chiến lược giá trong thị trường cạnh tranh cao July 12, 2021 80 Phân tích kinh doanh: Khai phá quy trình [Aalst16] WMP Van der Aalst. Process Mining: Data Science in Action (2nd edition). Springer, 2016 July 12, 2021 81 Phát hiện gian lận và khai phá mẫu hiếm ⚫ Tiếp cận: Phân cụm & xây dựng mô hình gian lận, phân tích bất thường ⚫ Ứng dụng: Chăm sóc sức khỏe, bán lẻ, dịch vụ thẻ tín dụng, viễn thông. ▪ Bảo hiểm tự động: vòng xung đột ▪ Rửa tiền: giao dịch tiền tệ đáng ngờ ▪ Bảo hiểm y tế ⚫ Bệnh nghề nghiệp, nhóm bác sỹ, và nhóm chỉ dẫn ⚫ Xét nghiệm không cần thiết hoặc tương quan ▪ Viến thông: cuộc gọi gian lận ⚫ Mô hình cuộc gọi: đích cuộc gọi, độ dài, thời điểm trong ngày hoặc tuần. Phân tích mẫu lệch một dạng chuẩn dự kiến ▪ Công nghiệp bán lẻ ⚫ Các nhà phân tích ước lượng rằng 38% giảm bán lẻ là do nhân viên không trung thực ▪ Chống khủng bố July 12, 2021 82 Ứng dụng khác ⚫ Khai phá web và khai phá phương tiện xã hội ▪ Trợ giúp IBM áp dụng các thuật toán KPDL biên bản truy nhập Web đối với các trang liên quan tới thị trường để khám phá ưu đãi khách hàng và các trang hành vi, phân tích tính hiệu quả của tiếp thị Web, cải thiệ cách tổ chức Website ⚫ Thể thao ▪ IBM Advanced Scout phân tích thống kế môn NBA (chặn bóng, hỗ trợ và lỗi) để đưa tới lợi thế cạnh trang cho New York Knicks và Miami Heat ⚫ Thiên văn học ▪ JPL và Palomar Observatory khám phá 22 chuẩn tinh (quasar) với sự trợ giúp của KPDL July 12, 2021 83 8. Tham chiếu tài nguyên KPDL Nguồn chỉ dẫn về KPDL ⚫ Data mining and KDD (SIGKDD: CDROM) ⚫ Conferences: ACM-SIGKDD, IEEE-ICDM, SIAM-DM, PKDD, PAKDD, etc. ⚫ Journal: Data Mining and Knowledge Discovery, KDD Explorations ⚫ Database systems (SIGMOD: CD ROM) ⚫ Conferences: ACM-SIGMOD, ACM-PODS, VLDB, IEEE-ICDE, EDBT, ICDT, DASFAA ⚫ Journals: ACM-TODS, IEEE-TKDE, JIIS, J. ACM, etc. ⚫ AI & Machine Learning ⚫ Conferences: Machine learning (ML), AAAI, IJCAI, COLT (Learning Theory), etc. ⚫ Journals: Machine Learning, Artificial Intelligence, etc. ⚫ Statistics ⚫ Conferences: Joint Stat. Meeting, etc. ⚫ Journals: Annals of statistics, etc. ⚫ Visualization ⚫ Conference proceedings: CHI, ACM-SIGGraph, etc. ⚫ Journals: IEEE Trans. visualization and computer graphics, etc. July 12, 2021 84 https://www.kdnuggets.com/2020/index.html. Ngày 06/09/2020 July 12, 2021 85 Sơ lược cộng đồng KPDL ⚫ 1989 IJCAI Workshop on Knowledge Discovery in Databases (Piatetsky-Shapiro) ⚫ Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991) ⚫ 1991-1994 Workshops on Knowledge Discovery in Databases ⚫ Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) ⚫ 1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining (KDD’95-98) ⚫ Journal of Data Mining and Knowledge Discovery (1997) ⚫ 1998 ACM SIGKDD, SIGKDD’1999-2001 conferences, and SIGKDD Explorations ⚫ More conferences on data mining ⚫ PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM (2001), v.v. July 12, 2021 86 KPDL: tốp từ nghiên cứu khóa hàng đầu July 12, 2021 09/2016 87 Khảo sát trên trang web KDD, 06-09-2020 July 12, 2021 88 Vấn đề chính trong KPDL ⚫ Phương pháp luận khai phá ⚫ Khai phá các kiểu tri thức khác nhau từ dữ liệu hỗn tạp như sinh học, dòng, web ⚫ Hiệu năng: Hiệu suất, tính hiệu quả, và tính mở rộng ⚫ Đánh giá mẫu: bài toán về tính hấp dẫn ⚫ Kết hợp tri thức miền: ontology ⚫ Xử lý dữ liệu nhiễu và dữ liệu không đầy đủ ⚫ Tính song song, phân tán và phương pháp KP gia tăng ⚫ Kết hợp các tri thức được khám phá với tri thức hiện có: tổng hợp tri thức ⚫ Tương tác người dùng ⚫ Ngôn ngữ hỏi KPDL và khai phá “ngẫu hứng” ⚫ Biểu diễn và trực quan kết quả KPDL ⚫ Khai thác tương tác tri thức ở các cấp độ trừu tượng ⚫ Áp dụng và chỉ số xã hội ⚫ KPDL đặc tả miền ứng dụng và KPDL vô hình ⚫ Bảo đảm bí mật dữ liệu, toàn vẹn và tính riêng tư July 12, 2021 89 Một số yêu cầu ban đầu ⚫ Sơ bộ về một số yêu cầu để dự án KPDL thành công ▪ Cần có kỳ vọng về một lợi ích đáng kể về kết quả KPDL ❖ Hoặc trực tiếp nhận được “trái cây treo thấp” (“low-hanging fruit”) dễ thu lượm (như Mô hình mở rộng khách hàng qua tiếp thị và bán hàng) ❖ Hoặc gián tiếp tạo ra đòn bẩy cao khi tác động vào quá trình sống còn có ảnh hưởng sóng ngầm mạnh (Giảm các nợ khoản khó đòi từ 10% còn 9,8% có số tiền lớn). ▪ Cần có một đội dự án thi hành các kỹ năng theo yêu cầu: chọn dữ liệu, tích hợp dữ liệu, phân tích mô hình hóa, lập và trình diễn báo cáo. Kết hợp tốt giữ người phân tích và người kinh doanh ▪ Nắm bắt và duy trì các dòng thông tin tích lũy (chẳng hạn, mô hình kết quả từ một loạt chiến dịch tiếp thị) ▪ Quá trình học qua nhiều chu kỳ, cần “chạy đua với thực tiễn” (mô hình mở rộng khách hàng ban đầu chưa phải đã tối ưu). ⚫ Một tổng hợp về các bài học KPDL thành công, thất bại [NEM09] Robert Nisbet, John Elder, and Gary Miner (2009). Handbook of Statistical Analysis and Data Mining, Elsevier, 2009. July 12, 2021 90 Ngôn ngữ lập trình nền tảng leader-analytics-data-science.html July 12, 2021 91 Công cụ phân tích, KHDL và học máy https://www.kdnuggets.com/2018/05/poll-tools-analytics- data-science-machine-learning-results.html July 12, 2021 92
File đính kèm:
- bai_giang_nhap_mon_khai_pha_du_lieu_chuong_1_gioi_thieu_chun.pdf