Bài giảng Nhập môn khai phá dữ liệu - Chương 1: Giới thiệu chung về khai phá dữ liệu - Hà Quang Thụy

1. Tại sao khai phá dữ liệu (KPDL)?

2. Khái niệm KPDL và phát hiện tri thức trong CSDL

3. KPDL và xử lý CSDL truyền thống

4. Kiểu dữ liệu trong KPDL

5. Kiểu mẫu được khai phá

6. Công nghệ KPDL điển hình

7. Một số ứng dụng điển hình

8. Các vấn đề chính trong KPDL

Bài giảng Nhập môn khai phá dữ liệu - Chương 1: Giới thiệu chung về khai phá dữ liệu - Hà Quang Thụy trang 1

Trang 1

Bài giảng Nhập môn khai phá dữ liệu - Chương 1: Giới thiệu chung về khai phá dữ liệu - Hà Quang Thụy trang 2

Trang 2

Bài giảng Nhập môn khai phá dữ liệu - Chương 1: Giới thiệu chung về khai phá dữ liệu - Hà Quang Thụy trang 3

Trang 3

Bài giảng Nhập môn khai phá dữ liệu - Chương 1: Giới thiệu chung về khai phá dữ liệu - Hà Quang Thụy trang 4

Trang 4

Bài giảng Nhập môn khai phá dữ liệu - Chương 1: Giới thiệu chung về khai phá dữ liệu - Hà Quang Thụy trang 5

Trang 5

Bài giảng Nhập môn khai phá dữ liệu - Chương 1: Giới thiệu chung về khai phá dữ liệu - Hà Quang Thụy trang 6

Trang 6

Bài giảng Nhập môn khai phá dữ liệu - Chương 1: Giới thiệu chung về khai phá dữ liệu - Hà Quang Thụy trang 7

Trang 7

Bài giảng Nhập môn khai phá dữ liệu - Chương 1: Giới thiệu chung về khai phá dữ liệu - Hà Quang Thụy trang 8

Trang 8

Bài giảng Nhập môn khai phá dữ liệu - Chương 1: Giới thiệu chung về khai phá dữ liệu - Hà Quang Thụy trang 9

Trang 9

Bài giảng Nhập môn khai phá dữ liệu - Chương 1: Giới thiệu chung về khai phá dữ liệu - Hà Quang Thụy trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 92 trang xuanhieu 5400
Bạn đang xem 10 trang mẫu của tài liệu "Bài giảng Nhập môn khai phá dữ liệu - Chương 1: Giới thiệu chung về khai phá dữ liệu - Hà Quang Thụy", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Bài giảng Nhập môn khai phá dữ liệu - Chương 1: Giới thiệu chung về khai phá dữ liệu - Hà Quang Thụy

Bài giảng Nhập môn khai phá dữ liệu - Chương 1: Giới thiệu chung về khai phá dữ liệu - Hà Quang Thụy
áy, thống kê, trực quan 
 hóa, .
⚫ Ứng dụng phù hợp
 ▪ Bán lẻ, viễn thông, ngân hàng, phân tích gian lận, KPDL sinh học, phân 
 tích thị trường chứng khoán, KP văn bản, KP Web, 
July 12, 2021 60
 Mọi mẫu khai phá được đều hấp dẫn?
⚫ KPDL có thể sinh ra tới hàng nghìn mẫu: Không phải tất cả 
 đều hấp dẫn
 ▪ Tiếp cận gợi ý: KPDL hướng người dùng, dựa trên câu hỏi, 
 hướng đích
⚫ Độ đo hấp dẫn
 ▪ Mẫu là hấp dẫn nếu dễ hiểu, có giá trị theo dữ liệu mới/kiểm tra 
 với độ chắc chắn, hữu dụng tiềm năng, mới lạ hoặc xác nhận các 
 giả thiết mà người dùng tìm kiếm để xác thực. 
⚫ Độ đo hấp dẫn khách quan và chủ quan
 ▪ Khách quan: dựa trên thống kê và cấu trúc của mẫu, chẳng hạn, 
 dộ hỗ trợ, độ tin cậy, 
 ▪ Chủ quan: dựa trên sự tin tưởng của người dùng đối với dữ liệu, 
 chẳng hạn, sự không chờ đón, tính mới mẻ, tác động được...
 July 12, 2021 61
 Tìm được tất cả và chỉ các mẫu hấp dẫn?
⚫ Tìm được mọi mẫu hấp dẫn: Về tính đầy đủ
 ▪ Hệ thống KHDL có khả năng tìm mọi mẫu hấp dẫn?
 ▪ Tìm kiếm mày mò (heuristic) tìm kiếm đầy đủ
 ▪ Kết hợp phan lớp phân cụm
⚫ Tìm chỉ các mẫu hấp dẫn: Về tính tối ưu
 ▪ Hệ thống KPDL có khả năng tìm ra đúng các mẫu hấp dẫn?
 ▪ Tiếp cận
 ➢ Đầu tiên tìm tổng thể tất cả các mẫu sau đó lọc bỏ các mẫu 
 không hấp dẫn.
 ➢ Sinh ra chỉ các mẫu hấp dẫn—tối ưu hóa câu hỏi khai phá
 July 12, 2021 62
 KPDL: Các công nghệ chính
 Hội tụ của nhiều ngành [HKP11]
July 12, 2021 Kho dữ liệu và khai phá dữ liệu: Chương 1 63
 5. CSDL và KPDL: kiểu dữ liệu
⚫ CSDL quan hệ
⚫ Kho dữ liệu
⚫ CSDL giao dịch
⚫ CSDL mở rộng và kho chứa thông tin
 ▪ CSDL quan hệ-đối tượng
 ▪ Dữ liệu không gian và thời gian
 ▪ Dữ liệu chuỗi thời gian
 ▪ Dữ liệu dòng
 ▪ Dữ liệu đa phương tiện
 ▪ Dữ liệu không đồng nhất và thừa kế
 ▪ CSDL Text & WWW
July 12, 2021 64
 Phân tích/khai phá: Kiểu đa dạng dữ liệu
264 answers
 Xử lý CSDL: dữ liệu thuộc 
 hệ quản trị CSDL
 Không có thống kê cập nhật hơn
⚫ Nhận xét:
 ▪ Dữ liệu (cơ sở dữ liệu) quan hệ: bảng: Hầu hết 203/264
 ▪ Chuỗi thời gian, giao dịch, văn bản, ẩn danh, mạng xã hội
 July 12, 2021 65
 KPDL: Dung lượng dữ liệu lớn
 2013 Xử lý 
 about 320 answers CSDL: 
 dữ 
 liệu 
 kích 
 thước 
 bất kỳ
 July 12, 2021
 CSDL với KPDL:Truy vấn CSDL
 ⚫ Truy vấn hệ quản trị CSDL
 ▪ Hãy hiển thị số tiền Ông Smith trong ngày 5 tháng Giêng ? ghi
 nhận riêng lẻ do xử lý giao dịch trực tuyến (on-line transaction
 processing – OLTP)
 ▪ Có bao nhiêu nhà đầu tư nước ngoài mua cổ phiếu X trong
 tháng trước ? ghi nhận thống kê do hệ thống hỗ trợ quyết định
 thống kê (stastical decision suppport system - DSS)
 ▪ Hiển thị mọi cổ phiếu trong CSDL với mệnh giá tăng ? ghi nhận
 dữ liệu đa chiều do xử lý phân tích trực tuyến (on-line analytic
 processing - OLAP).
 ⚫ Cần giả thiết
 ▪ Tính “đầy đủ” về tri thức miền phức tạp!
 ▪ Câu trả lời chính xác
July 12, 2021 67
 CSDL với KPDL:Truy vấn KPDL
 ⚫ Ví dụ truy vấn
 ▪ Các cổ phiếu tăng giá có đặc trưng gì ?
 ▪ Tỷ giá US$ - DMark có đặc trưng gì ?
 ▪ Hy vọng gì về cổ phiếu X trong tuần tiếp theo ?
 ▪ Trong tháng tiếp theo, sẽ có bao nhiêu đoàn viên công đoàn
 không trả được nợ của họ ?
 ▪ Những người mua sản phẩm Y có đặc trưng gì ?
 ⚫ Nhận xét
 ▪ Giả thiết tri thức “đầy đủ” không còn có tính cốt lõi, cần bổ sung
 tri thức cho hệ thống → Cải tiến (nâng cấp) miền tri thức !
 ▪ Câu trả lời có tính xấp xỉ, gần đúng
July 12, 2021 68
 Khai phá dữ liệu : Mục tiêu kinh doanh
 ⚫ Ví dụ
 ▪ Giảm 3% lượng khách hàng hiện thời rời bỏ (duy trì khách hàng)
 ▪ Tăng 2% số hợp đồng của khách hàng mới (thu hút KH)
 ▪ Tăng 5% doanh thu từ việc bán chéo cho khách hàng hiện có
 (phát triển khách hang)
 ▪ Dự báo thị phần khán giả truyền hình với xác suất 70% (dự báo
 kênh tiếp thị)
 ▪ Dự báo với độ chính xác 75% lượng khách hang ký hợp đồng
 với sản phẩm mới (dự báo thu hút khách hàng)
 ▪ Xác định phân lớp mới khách hàng và sản phẩm (đặc trưng KH)
 ▪ Tạo một mô hình phân khúc khách hang mới (phân khúc KH)
 ⚫ Nhận xét
 ▪ Cần hiểu được bài toán và mục tiêu kinh doanh
 ▪ Các ví dụ trên liên quan tới quản lý quan hệ khách hàng
July 12, 2021 69
 Thống kê toán học với KPDL
⚫ Nhiều điểm chung giữa KPDL với thống kê:
 ▪ Đặc biệt như phân tích dữ liệu thăm dò (EDA: Exploratory 
 Data Analysis) cũng như dự báo [Fied97, HD03].
 ▪ Hệ thống KDD thường gắn kết với các thủ tục thống kê đặc
 biệt đối với mô hình dữ liệu và nắm bắt nhiễu trong một
 khung cảnh phát hiện tri thức tổng thể.
 ▪ Các phương pháp KPDL dựa theo thống kê nhận được sự
 quan tâm đặc biệt.
 July 12, 2021 70
 Thống kê toán học với KPDL
⚫ Phân biệt giữa bài toán thống kê và bài toán khai phá dữ liệu
 ▪ Kiểm định giả thiết TK: một mô hình giả thiết + tập dữ liệu quan sát được.
 Kiểm tra: tập dữ liệu có phù hợp với giả thiết thống kê hay không/ giả thiết
 thống kê có đúng trên toàn bộ dữ liệu quan sát được hay không.
 ▪ Bài toán học KPDL: Cho tập dữ liệu (mô hình chưa có). Mô hình kết quả
 phải phù hợp với tập toàn bộ dữ liệu -> đảm bảo các tham số mô hình
 không phụ thuộc vào cách chọn tập dữ liệu học. Học KPDL đòi hỏi tập dữ
 liệu học/tập dữ liệu kiểm tra cần "đại diện" cho toàn bộ dữ liệu trong miền
 ứng dụng và cần độc lập nhau. Một số trường hợp: hai tập dữ liệu này
 (hoặc tập dữ liệu kiểm tra) được công bố dưới dạng chuẩn.
 ▪ Về thuật ngữ: KPDL: biến ra/biến mục tiêu, thuật toán khai phá dữ liệu,
 thuộc tính/đặc trưng, bản ghi... XLDLTK: biến phụ thuộc, thủ tục thống kê,
 biến giải thích, quan sát... Tham khảo thêm từ Nguyễn Xuân Long
July 12, 2021 71
 Học máy với KPDL
⚫ Học máy
 ▪ Machine Learning
 ▪ Cách máy tính học (nâng cao năng lực) dựa trên dữ liệu.
 ▪ Chương trình máy tính tự động học được mẫu phức tạp và ra quyết
 định thông minh dựa trên dữ liệu, ví dụ, “học được chữ viết tay trên
 thư thông qua một tập ví dụ”.
 ▪ Học máy là lĩnh vực nghiên cứu phát triển nhanh
⚫ Một số nội dung học máy với khai phá dữ liệu
 ▪ Nhiều nội dung đã được trình bày tại mục trước
 ▪ Học giám sát (supervised learning) đồng nghĩa với phân lớp
 (classification)
 ▪ Học không giám sát (unsupervised) phân cụm (clustering),
 ▪ Học bán giám sát (semi-supervised learning) sử dụng cả ví dụ có
 nhãn và ví dụ không có nhãn
 ▪ Học tích cực (Active learning) còn được gọi là học tương tác
 (interactive learning) có tương tác với người dùng.
 ▪ Học tăng cường (incremental learning) mẫu đầu vào là liên tục và
 mô hình học phù hợp với ví dụ cập nhật.
 ▪ Các khung học máy khác
 July 12, 2021 72
 Tìm kiếm thông tin với KPDL
⚫ Tìm kiếm thông tin
 ▪ Information Retrieval. “Truy hồi thông tin”
 ▪ Tìm kiếm tài liệu hoặc tìm kiếm thông tin trong tài liệu theo một truy
 vấn. Tài liệu: văn bản, đa phương tiện, web
 ▪ Hai giả thiết: (i) Dữ liệu tìm kiếm là không cấu trúc; (ii) Truy vấn
 dưới dạng từ khóa/cụm từ khóa mà không phải cấu trúc phức tạp
⚫ Tìm kiếm thông tin với KPDL
 ▪ Kết hợp mô hình tìm kiếm với kỹ thuật KPDL tìm thấy các chủ đề
 chính trong tập tài liệu, từng tài liệu  bổ sung thuộc tính dữ liệu
 quan trọng
 ▪ KPDL văn bản, web, phương tiện xã hội liên quan mật thiết với tìm
 kiếm thông tin.
 July 12, 2021 73
 7. Ứng dụng cơ bản của KPDL
⚫ Phân tích dữ liệu và hỗ trợ quyết định
 ⚫ Phân tích và quản lý thị trường
 ⚫ Tiếp thị định hướng, quản lý quan hệ khách hàng (CRM), phân tích thói 
 quen mua hàng, bán hàng chéo, phân đoạn thị trường
 ⚫ Phân tích và quản lý rủi ro
 ⚫ Dự báo, duy trì khách hàng, cải thiện bảo lãnh, kiểm soát chất lượng, 
 phân tích cạnh tranh
 ⚫ Phát hiện gian lận và phát hiện mẫu bất thường (ngoại lai)
⚫ Ứng dụng khác
 ⚫ Khai phá Text (nhóm mới, email, tài liệu) và khai phá Web
 ⚫ Khai phá dữ liệu dòng
 ⚫ Phân tích DNA và dữ liệu sinh học
 July 12, 2021 74
 Phân tích và quản lý thị trường
 ⚫ Nguồn dữ liệu có từ đâu ?
 ⚫ Giao dịch thẻ tín dụng, thẻ thành viên, phiếu giảm giá, các phàn nàn 
 của khách hàng, các nghiên cứu phong cách sống (công cộng) bổ sung
 ⚫ Tiếp thị định hướng
 ⚫ Tìm cụm các mô hình khách hàng cùng đặc trưng: sự quan tâm, mức thu 
 nhập, thói quen chi tiêu...
 ⚫ Xác định các mẫu mua hàng theo thời gian
 ⚫ Phân tích thị trường chéo
 ⚫ Quan hệ kết hợp/đồng quan hệ giữa bán hàng và dự báo dựa theo quan 
 hệ kết hợp
 ⚫ Hồ sơ khách hàng
 ⚫ Kiểu của khách hàng mua sản phẩm gì (phân cụm và phân lớp)
 ⚫ Phân tích yêu cầu khách hàng
 ⚫ Định danh các sản phẩm tốt nhất tới khách hàng (khác nhau)
 ⚫ Dự báo các nhân tố sẽ thu hút khách hàng mới
 ⚫ Cung cấp thông tin tóm tắt
 ⚫ Báo cáo tóm tắt đa chiều
 ⚫ Thông tin tóm tắt thống kê (xu hướng trung tâm dữ liệu và biến đổi)
July 12, 2021 75
 Phân tích kinh doanh: Ba kiểu điển hình
https://www.mckinsey.com/business-functions/mckinsey-analytics/our-
insights/an-executives-guide-to-ai
July 12, 2021 76
 Chương trình ĐT Phân tích kinh doanh
 ⚫ Trường tính toán, ĐHQG Singapore
 ⚫ Business Analytics, 
 ⚫ 
 Các môn chung ĐHQGHN
July 12, 2021 77
 NUS-SoC: CTĐT Phân tích kinh doanh
 Chọn từ trường khác
July 12, 2021 78
 NUS-SoC: CTĐT Phân tích kinh doanh
July 12, 2021 79
 Phân tích doanh nghiệp & Quản lý rủi ro
⚫ Lên kế hoạch tài chính và đánh giá tài sản
 ▪ Phân tích và dự báo dòng tiền mặt
 ▪ Phân tích yêu cầu ngẫu nhiên để đánh giá tài sản
 ▪ Phân tích lát cắt ngang và chuỗi thời gian (tỷ số tài chính, phân 
 tích xu hướng)
⚫ Lên kế hoạch tài nguyên
 ▪ Tóm tắt và so sánh các nguồn lực và chi tiêu
⚫ Cạnh tranh
 ▪ Theo dõi đối thủ cạnh tranh và định hướng thị trường
 ▪ Nhóm khách hàng thành các lớp và định giá dựa theo lớp khách
 ▪ Khởi tạo chiến lược giá trong thị trường cạnh tranh cao
July 12, 2021 80
 Phân tích kinh doanh: Khai phá quy trình
 [Aalst16] WMP Van der Aalst. Process Mining: Data Science in Action (2nd edition).
 Springer, 2016
July 12, 2021
 81
 Phát hiện gian lận và khai phá mẫu hiếm
⚫ Tiếp cận: Phân cụm & xây dựng mô hình gian lận, phân tích bất thường
⚫ Ứng dụng: Chăm sóc sức khỏe, bán lẻ, dịch vụ thẻ tín dụng, viễn 
 thông.
 ▪ Bảo hiểm tự động: vòng xung đột
 ▪ Rửa tiền: giao dịch tiền tệ đáng ngờ
 ▪ Bảo hiểm y tế
 ⚫ Bệnh nghề nghiệp, nhóm bác sỹ, và nhóm chỉ dẫn
 ⚫ Xét nghiệm không cần thiết hoặc tương quan
 ▪ Viến thông: cuộc gọi gian lận
 ⚫ Mô hình cuộc gọi: đích cuộc gọi, độ dài, thời điểm trong ngày hoặc 
 tuần. Phân tích mẫu lệch một dạng chuẩn dự kiến
 ▪ Công nghiệp bán lẻ
 ⚫ Các nhà phân tích ước lượng rằng 38% giảm bán lẻ là do nhân viên 
 không trung thực
 ▪ Chống khủng bố
 July 12, 2021 82
 Ứng dụng khác
⚫ Khai phá web và khai phá phương tiện xã hội
 ▪ Trợ giúp IBM áp dụng các thuật toán KPDL biên bản truy nhập 
 Web đối với các trang liên quan tới thị trường để khám phá ưu 
 đãi khách hàng và các trang hành vi, phân tích tính hiệu quả của 
 tiếp thị Web, cải thiệ cách tổ chức Website 
⚫ Thể thao
 ▪ IBM Advanced Scout phân tích thống kế môn NBA (chặn bóng, 
 hỗ trợ và lỗi) để đưa tới lợi thế cạnh trang cho New York Knicks 
 và Miami Heat
⚫ Thiên văn học
 ▪ JPL và Palomar Observatory khám phá 22 chuẩn tinh (quasar) 
 với sự trợ giúp của KPDL
July 12, 2021 83
 8. Tham chiếu tài nguyên KPDL
 Nguồn chỉ dẫn về KPDL
 ⚫ Data mining and KDD (SIGKDD: CDROM)
 ⚫ Conferences: ACM-SIGKDD, IEEE-ICDM, SIAM-DM, PKDD, 
 PAKDD, etc.
 ⚫ Journal: Data Mining and Knowledge Discovery, KDD Explorations
 ⚫ Database systems (SIGMOD: CD ROM)
 ⚫ Conferences: ACM-SIGMOD, ACM-PODS, VLDB, IEEE-ICDE, 
 EDBT, ICDT, DASFAA
 ⚫ Journals: ACM-TODS, IEEE-TKDE, JIIS, J. ACM, etc.
 ⚫ AI & Machine Learning
 ⚫ Conferences: Machine learning (ML), AAAI, IJCAI, COLT (Learning 
 Theory), etc.
 ⚫ Journals: Machine Learning, Artificial Intelligence, etc.
 ⚫ Statistics
 ⚫ Conferences: Joint Stat. Meeting, etc.
 ⚫ Journals: Annals of statistics, etc.
 ⚫ Visualization
 ⚫ Conference proceedings: CHI, ACM-SIGGraph, etc.
 ⚫ Journals: IEEE Trans. visualization and computer graphics, etc.
July 12, 2021 84
 https://www.kdnuggets.com/2020/index.html. Ngày 06/09/2020
July 12, 2021 85
 Sơ lược cộng đồng KPDL
 ⚫ 1989 IJCAI Workshop on Knowledge Discovery in Databases 
 (Piatetsky-Shapiro)
 ⚫ Knowledge Discovery in Databases (G. Piatetsky-Shapiro 
 and W. Frawley, 1991)
 ⚫ 1991-1994 Workshops on Knowledge Discovery in Databases
 ⚫ Advances in Knowledge Discovery and Data Mining (U. 
 Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 
 1996)
 ⚫ 1995-1998 International Conferences on Knowledge Discovery 
 in Databases and Data Mining (KDD’95-98)
 ⚫ Journal of Data Mining and Knowledge Discovery (1997)
 ⚫ 1998 ACM SIGKDD, SIGKDD’1999-2001 conferences, and 
 SIGKDD Explorations
 ⚫ More conferences on data mining
 ⚫ PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), 
 (IEEE) ICDM (2001), v.v.
July 12, 2021 86
 KPDL: tốp từ nghiên cứu khóa hàng đầu
July 12, 2021  09/2016
 87
 Khảo sát trên trang web KDD, 06-09-2020
July 12, 2021 88
 Vấn đề chính trong KPDL
⚫ Phương pháp luận khai phá
 ⚫ Khai phá các kiểu tri thức khác nhau từ dữ liệu hỗn tạp như sinh học, dòng, web
 ⚫ Hiệu năng: Hiệu suất, tính hiệu quả, và tính mở rộng
 ⚫ Đánh giá mẫu: bài toán về tính hấp dẫn
 ⚫ Kết hợp tri thức miền: ontology
 ⚫ Xử lý dữ liệu nhiễu và dữ liệu không đầy đủ
 ⚫ Tính song song, phân tán và phương pháp KP gia tăng
 ⚫ Kết hợp các tri thức được khám phá với tri thức hiện có: tổng hợp tri thức
⚫ Tương tác người dùng
 ⚫ Ngôn ngữ hỏi KPDL và khai phá “ngẫu hứng”
 ⚫ Biểu diễn và trực quan kết quả KPDL
 ⚫ Khai thác tương tác tri thức ở các cấp độ trừu tượng
⚫ Áp dụng và chỉ số xã hội
 ⚫ KPDL đặc tả miền ứng dụng và KPDL vô hình
 ⚫ Bảo đảm bí mật dữ liệu, toàn vẹn và tính riêng tư
 July 12, 2021 89
 Một số yêu cầu ban đầu
⚫ Sơ bộ về một số yêu cầu để dự án KPDL thành công
 ▪ Cần có kỳ vọng về một lợi ích đáng kể về kết quả KPDL
 ❖ Hoặc trực tiếp nhận được “trái cây treo thấp” (“low-hanging fruit”) dễ thu lượm
 (như Mô hình mở rộng khách hàng qua tiếp thị và bán hàng)
 ❖ Hoặc gián tiếp tạo ra đòn bẩy cao khi tác động vào quá trình sống còn có ảnh
 hưởng sóng ngầm mạnh (Giảm các nợ khoản khó đòi từ 10% còn 9,8% có số
 tiền lớn).
 ▪ Cần có một đội dự án thi hành các kỹ năng theo yêu cầu: chọn dữ liệu, 
 tích hợp dữ liệu, phân tích mô hình hóa, lập và trình diễn báo cáo. Kết
 hợp tốt giữ người phân tích và người kinh doanh
 ▪ Nắm bắt và duy trì các dòng thông tin tích lũy (chẳng hạn, mô hình kết
 quả từ một loạt chiến dịch tiếp thị)
 ▪ Quá trình học qua nhiều chu kỳ, cần “chạy đua với thực tiễn” (mô hình
 mở rộng khách hàng ban đầu chưa phải đã tối ưu).
⚫ Một tổng hợp về các bài học KPDL thành công, thất bại
 [NEM09] Robert Nisbet, John Elder, and Gary Miner (2009). Handbook of
 Statistical Analysis and Data Mining, Elsevier, 2009.
 July 12, 2021 90
 Ngôn ngữ lập trình nền tảng
leader-analytics-data-science.html
July 12, 2021 91
 Công cụ phân tích, KHDL và học máy
https://www.kdnuggets.com/2018/05/poll-tools-analytics-
data-science-machine-learning-results.html
July 12, 2021 92

File đính kèm:

  • pdfbai_giang_nhap_mon_khai_pha_du_lieu_chuong_1_gioi_thieu_chun.pdf