Bài giảng Tin học nhóm ngành Nông-Lâm-Ngư & Môi trường - Chương 5: Xử lý phân tích số liệu thống kê Bằng MS Excel 2010
Nội dung chính
Một số kiến thức dữ liệu thống kê
Công cụ phân tích dữ liệu thống kê trong Excel
Phân tích số liệu thống kê
Thống kê mô tả
Tổ chức đồ
Tính hệ số tương quan và phương trình hồi quy
So sánh 2 mẫu (Kiểm định giả thuyết)Một số kiến thức dữ liệu thống kê
Một đề cương nghiên cứu
oGiả thuyết
oThiết kế một thí nghiệm hay cuộc điều tra
oQuy trình chọn mẫu
oPhương pháp và cách thức điều tra
oPhân tích số liệu
oBáo cáo kết quả
Tư tưởng chính của thống kê suy rộng là lấy mẫu từ
một tổng thể và sau đó sử dụng kết quả phân tích
các thông tin từ mẫu này để suy rộng ra cho tổng
thể nghiên cứu.
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Bài giảng Tin học nhóm ngành Nông-Lâm-Ngư & Môi trường - Chương 5: Xử lý phân tích số liệu thống kê Bằng MS Excel 2010", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Bài giảng Tin học nhóm ngành Nông-Lâm-Ngư & Môi trường - Chương 5: Xử lý phân tích số liệu thống kê Bằng MS Excel 2010
ệu Input Bin: miền phân tổ Labels : nhãn ở hàng đầu nếu có Output range: miền kết quả Pareto: tần số sắp xếp giảm dần Cumulative Percentage: tần suất cộng dồn % Chart output: biểu đồ OK Ví dụ: Dựa trên 30 số liệu về chiều dài cá, tạo miền phân tổ (Bin) từ ô D2 tới ô D12 (kể cả nhãn), giá trị cận dưới là 10, cận trên là 55, giá trị bước tăng 5. Ví dụ: Chọn Tools> Data Analysis> Histogram Ví dụ: Kết quả Phân tích kết quả Tần số số liệu rơi vào từng khoảng được ghi ở cận trên của khoảng. Chẳng hạn, có 2 số liệu thuộc vào khoảng (10, 15], vì vậy số 2 được ghi tương ứng với số 15 là cận trên Nhìn vào hình 5 ta có thể thấy trong khoảng nào số liệu xuất hiện nhiều nhất Tính hệ số tương quan Excel cho phép tính hệ số tương quan đơn giữa các biến với các số liệu mẫu thu thập được sắp xếp thành một bảng gồm n hàng, n cột (trên mỗi cột là số liệu mẫu của một biến) Thao tác: Chọn Tools>Data Analysis>Correlation và khai báo các mục: Input range: miền dữ liệu kể cả nhãn Grouped by: Column (số liệu theo cột) Labels in first row: tích chọn nếu có nhãn ở hàng đầu Output range: miền xuất kết quả OK Ví dụ: Đánh giá mối tương quan giữa các đặc tính dài bông, số hạt, số bông với năng suất lúa Thao tác: Tools>Data analysis>Correlation Khai báo các mục Ví dụ: Kết quả Dài bông P1000 Số bông Năng suất Dài bông 1 P1000 0.233314 1 Số bông −0.22056 0.340772 1 Năng suất 0.200805 0.66632 0.661379 1 Phân tích kết quả Hệ số tương quan của hàng và cột ghi ở ô giao giữa hàng và cột Hệ số tương quan âm (< 0) thể hiện mối tương quan nghịch biến (chẳng hạn tương quan giữa “dài bông” và “số bông” là nghịch biến) Các hệ số tương quan có giá trị tuyệt đối xấp xỉ 0.75 trở lên thể hiện mối tương quan tuyến tính mạnh giữa hai biến (tương quan giữa “năng suất” và “P1000” có thể tạm coi là tương quan tuyến tính mạnh). Tìm phương trình hồi quy Excel cho phép tìm PT hồi quy tuyến tính đơn: = + và hồi quy tuyến tính bội: = 0 + 1 1 + ⋯ + 푛 푛 Các biến độc lập chứa trong 푛 cột, biến phụ thuộc để trong một cột, các giá trị tương ứng giữa biến độc lập và biến phụ thuộc được xếp trên cùng một hàng Tìm phương trình hồi quy Thao tác: Chọn Tools>Data Analysis>Regression và khai báo các mục: Input y range: miền dữ liệu biến y Input x range: miền dữ liệu các biến x Label: tích chọn nếu có nhãn ở hàng đầu Confidence level: 95% ( độ tin cậy 95%) Constant in zero: tích chọn nếu hệ số tự do a = 0 Output range: miền xuất kết quả Residuals: tích chọn để hiện phần dư hay sai lệch giữa y thực nghiệm và y theo hồi quy Standardized residuals: tích chọn để hiện phần dư đã chuẩn hoá Residuals plot: tích chọn để hiện đồ thị phần dư Line fit plots: tích chọn để hiện đồ thị các đường dự báo Normal probability plot: tích chọn để hiện đồ thị phần dư đã chuẩn hoá OK Ví dụ: Tìm phương trình hồi qui: = 0 + 1 1 + 2 2 + 3 3 của năng suất lúa y phụ thuộc tuyến tính vào độ dài bông ( 1), trọng lượng 1000 hạt ( 2) và số bông/một cây ( 3) với các số liệu Ví dụ: Kết quả Ví dụ: Phân tích kết quả Nếu hệ số tương quan bội xấp xỉ 0.75 hoặc lớn hơn thì mô hình hồi quy tuyến tính là thích hợp (ngược lại nên tìm mô hình khác) Trong ví dụ này hệ số tương quan bội là 0.8375 nên mô hình tuyến tính được coi là thích hợp Hệ số tương quan R square trong ví dụ là 0.7014 cho biết 70.14% sự biến động của y là do các yếu tố x1, x2, x3 gây nên. Hệ số Adjusted R square là 62.00% không sát gần với R square chứng tỏ không phải tất cả các biến đưa vào là thực sự cần thiết F thực nghiệm là 8.6142 ứng với xác suất 0.00316 nhỏ hơn mức xác suất { nghĩa 0.05 nên phương trình hồi quy tuyến tính được chấp nhận Nhìn vào các hệ số của các biến ta viết được đường hồi quy dự báo. Trong ví dụ phương trình hồi quy là: y =− 3.61899 + 0.085345x1 + 0.081163x2 + 0.02083x3 Tuy nhiên căn cứ vào các xác suất cho ở cột P-value thì hệ số của x1 là không đáng tin cậy, vì xác suất tương ứng > 0.05 (mức { nghĩa đã chọn). Trong trường hợp này, cần tiến hành lọc bớt biến x1 để được đường hồi quy với các hệ số đều có { nghĩa So sánh mẫu Bài toán ở đây cần so sánh hai mẫu thông qua việc kiểm định giả thuyết 0: 1 = 2(Kz vọng của biến X và biến Y bằng nhau) với đối thuyết 1: 1 ≠ 2 ở mức { nghĩa 훼 trong trường hợp kiểm định hai phía. Nếu kiểm định một phía thì đối thuyết . 1: 1 < 2 ( < ) . 1: 1 > 2 ( > ) So sánh 2 mẫu độc lập khi biết phương sai Thao tác: Data >Data Analysis > z-Test: Two Sample for Means, Input Variable 1 Range: miền chứa số liệu biến 1, kể cả tên hàng đầu của mẫu quan sát Input Variable 2 Range: miền chứa số liệu biến 2, kể cả tên hàng đầu của mẫu quan sát Labels: tích chọn nếu chứa tên biến Hypothesized means difference: giả thuyết về hiệu hai trung bình của hai tổng thể. Nếu lấy giả thuyết H0: m1 = m2 thì ghi 0. Nếu lấy giả thuyết H1: m1 = m2+d (d là 1 số nào đó) thì ghi d. 2 Variable 1 variance: phương sai của biến 1 (nhập 휎1 ) 2 Variable 2 variance: phương sai của biến 2 (nhập 휎2 ) Output Range: chọn miền trống để đưa ra kết quả Ví dụ: Thực hiện thí nghiệm với mẫu 1 có 10 số liệu quan sát được, mẫu 2 có 12 quan sát ta có bảng số liệu sau, biết phương sai của biến 1 là 2.7, của biến 2 là 2.6. Cho biết kết quả so sánh 2 mẫu độc lập. Ví dụ: Kết quả Phân tích kết quả Trung bình của mẫu Phương sai đã cho Số quan sát n1 và n2 Giá trị z thực nghiệm: Giá trị P một phía và giá trị P hai phía Giá trị z l{ thuyết (tới hạn) một phía và hai phía Trong ví dụ 5 ta thấy: giá trị z thực nghiệm 0.14335 nhỏ hơn z lý thuyết (tới hạn) một phía 1.64485 cũng như z lý thuyết hai phía 1.95996 (giá trị P một phía và hai phía đều lớn hơn mức ý nghĩa α = 0.05). Kết luận: kỳ vọng của hai biến không khác nhau So sánh 2 mẫu kiểu cặp đôi Ví dụ: Nếu mỗi một ổ chim cân trọng lượng chim cái, trọng lượng chim đực, lúc đó với n ổ chim ta được hai mẫu quan sát kiểu cặp đôi của hai tổng thể chim cái và chim đực. Nếu lấy một số chim đực ngẫu nhiên trong nhiều chim đực từ nhiều ổ và lấy một số chim cái ngẫu nhiên trong nhiều chim cái từ nhiều ổ thì có hai mẫu quan sát độc lập. Nếu ta đem 10 mẫu đất, mỗi mẫu chia đôi, một nửa giao cho phòng phân tích A thực hiện, nửa kia giao cho phòng phân tích B thì thu được số liệu cặp đôi để so sánh kết quả của hai phòng phân tích. Nếu ta đem hai giống lúa cấy trên một số ruộng, mỗi ruộng chia đôi, một nửa cấy giống A, một nửa cấy giống B thì cũng có hai mẫu cặp đôi để so sánh. So sánh 2 mẫu kiểu cặp đôi Thao tác Data >Data Analysis > t-Test: Paired Two Sample for Means Điền tham số Input Variable 1 Range: miền chứa số liệu của biến 1 (kể cả tên) Input Variable 2 Range: miền chứa số liệu của biến 2 (kể cả tên) Labels: Tích chọn nếu hàng đầu chứa tên biến Hypothesized means difference: giả thiết về hiệu hai trung bình của hai tổng thể. Nếu lấy giả thuyết H0: m1 = m2 thì ghi 0. Nếu lấy giả thuyết H0: m1 = m+ d (d là một số nào đó) thì ghi d. Output Range: Chọn miền trống để hiện kết quả OK Ví dụ: Phân tích mẫu cặp đôi sau Ví dụ: Do t thực nghiệm lớn hơn t lý thuyết một phía cũng như hai phía (giá trị P một phía và hai phía đều nhỏ hơn mức ý nghĩa α = 0.05), nên trong ví dụ trên ta chấp nhận giả thuyết H1 So sánh 2 mẫu độc lập Giả thiết 2 phương sai bằng nhau Chọn Data>Data Analysis > t-Test: Two-Sample Assuming Equal Variances Giả thiết 2 phương sai khác nhau Chọn Data>Data Analysis > t-Test: Two-Sample Assuming Unequal Variances Nhập các tham số tương tự Phân tích kết quả? Ví dụ: Phân tích kết quả Phân tích phương sai Phân tích phương sai là công cụ chủ yếu để phân tích các số liệu khi theo dõi ảnh hưởng của các nhân tố (factor) trong thí nghiệm và ảnh hưởng tương tác của chúng lên một (hay nhiều) chỉ số đầu ra. o Phân tích một nhân tố: Thí nghiệm ngẫu nhiên, mỗi mức lặp lại một số lần o Phân tích 2 nhân tố: Thí nghiệm trực giao Phân tích phương sai một nhân tố PT ảnh hưởng của các mức của nhân tố tới kết quả Ví dụ: ảnh hưởng của các công thức cho ăn đến năng suất thịt lợn, ảnh hưởng của các công thức phun thuốc sâu đến tỷ lệ sâu bệnh ... Thao tác: Tools>Data Analysis > Anova: Single Factor Nhập tham số Input range: miền dữ liệu vào (bao trùm toàn bộ các ô chứa tên mức và các số liệu) Grouped by: Columns (theo cột) hoặc Rows (theo hàng) Label in First column: nhãn hàng đầu Alpha: 0.05 (mức { nghĩa α) Output range: miền xuất kết quả ra Phân tích phương sai một nhân tố Phân tích kết quả: Kết quả là các thống kê cơ bản cho từng mức (trung bình, độ lệch chuẩn...) và bảng phân tích phương sai Nếu giá trị xác suất P-value F l{ thuyết) thì các công thức có tác động khác nhau tới kết quả, ngược lại các công thức không có khác biệt đáng kể Nếu kết luận các công thức có tác động khác nhau tới kết quả thì phải tiến hành bước tiếp theo là so sánh các công thức để rút ra công thức nào tốt nhất Phân tích phương sai một nhân tố Số liệu được điền theo cột hoặc theo hàng (nếu vào theo hàng thì mỗi hàng ứng với một mức của nhân tố), ô đầu tiên ghi tên mức, các ô tiếp theo ghi số liệu. Chọn Tools>Data Analysis > Anova: Single Factor Nhập các tham số: Input range: khai báo miền dữ liệu vào (một chữ nhật bao trùm toàn bộ các ô chứa tên mức và toàn bộ các số liệu). Grouped by: Columns (số liệu theo cột) hoặc Rows (số liệu theo hàng). Label in First column: nhãn hàng đầu. Alpha: 0.05 (mức { nghĩa α) Output range: miền xuất kết quả Phương tích phương sai một nhân tố: Phân tích kết quả Kết quả in ra gồm các thống kê cơ bản cho từng mức (trung bình, độ lệch chuẩn...) và bảng phân tích phương sai. Nếu giá trị xác suất P-value F lý thuyết) thì các công thức có tác động khác nhau tới kết quả, ngược lại các công thức không có khác biệt đáng kể. Nếu kết luận các công thức có tác động khác nhau tới kết quả thì phải tiến hành bước tiếp theo là so sánh các công thức để rút ra công thức nào tốt nhất. Ví dụ: Thí nghiệm ảnh hưởng của các loại thuốc đến năng suất lúa (11 loại thuốc là T1 đến T11, 4 cột số liệu là năng suất thu được), số liệu thu được cho trong bảng Ví dụ: Kết quả Chương 6: Biểu diễn kết quả thống kê trong báo cáo khoa học Nội dung chính Báo cáo phân tích số liệu Danh mục Bảng biểu Biểu đồ Các thao tác trên biểu đồ Hiệu chỉnh và định dạng biểu đồ Các thao tác với chuỗi số liệu trong biểu đồ Báo cáo phân tích số liệu Giải thích rõ các thông tin Lựa chọn cách trình bày Báo cáo đó nộp cho ai? Ai là người sẽ đọc nó? Báo cáo phân tích số liệu Bố cục: (1) Tên của báo cáo, người/đơn vị báo cáo, nơi và ngày viết. Tên bản báo cáo súc tích, ngắn gọn, nhưng rõ ràng (2) Phần giới thiệu: chỉ ra vấn đề đặt ra cần phải giải quyết và những câu hỏi nghiên cứu vấn đề, những giả thuyết cần kiểm tra (3) Danh mục các đặc trưng của cuộc điều tra: Kiểu điều tra; công cụ sử dụng trong điều tra; bao nhiêu câu hỏi; bao nhiêu mẫu/quan sát; các vấn đề liên quan khác (4) Giải thích phương pháp điều tra: Thiết kế điều tra; lựa chọn mẫu; phân tích (5) Các kết quả liên quan đến vấn đề nghiên cứu (6) Các kết luận (7) Các kiến nghị rút ra từ nghiên cứu Báo cáo phân tích số liệu Việc phân tích số liệu là để hiểu được quá khứ, hiện tại nhằm mục đích phục vụ cho tương lai do vậy một lời giải thích, phân tích rõ ràng sẽ giúp cho người đọc thấy được điều gì sẽ có thể diễn ra trong tương lai. Đối với một báo cáo khoa học cách thức trình bày kết quả phân tích phải hết sức linh hoạt giữa bảng biểu và đồ thị để tránh sự nhàm chán và để thể hiện tốt nhất những { tưởng mà số liệu có thể thông tin cho ta biết. Danh mục Danh mục là công cụ đơn giản và rất hữu dụng trong việc báo cáo kết quả o (1) Chỉ sử dụng một vài từ để thể hiện { chính, không nên sử dụng cả đoạn văn dài o (2) Đảm bảo sự thống nhất trước sau, tránh việc khi thì sử dụng một vài từ khi thì sử dụng cả câu o (3) Để khoảng trống giữa các mục của danh mục o (4) Sử dụng thống nhất các kí hiệu hay gạch đầu dòng o (5) Trong cùng một bản báo cáo nên sử dụng cùng một loại k{ hiệu Bảng biểu Dạng bảng thường được dùng để thể hiện kết quả của một hoặc một vài chỉ tiêu nghiên cứu tương ứng với các tiêu chí khác nhau. Lưu {: (1) Đầu mục của các cột cần phải xác định là các tiêu chí quan trọng cho việc so sánh (2) Không nên có quá nhiều cột hay dòng trong một bảng (3) Nên sử dụng các k{ hiệu để minh hoạ cho mức độ tin cậy/{ nghĩa thống kê (4) Nên có nguồn trích dẫn của số liệu trong bảng (5) Trong cùng một bảng các số liệu cần phải có sự liên hệ với nhau Biểu đồ Biểu đồ là phương pháp trình bày số liệu nhằm giúp người đọc dễ hiểu và nắm bắt vấn đề nhanh nhất Các dạng biểu đồ Dạng bánh Dạng cột Dạng đồ thị Dạng tọa độ v.v... Biểu đồ Các thao tác trên biểu đồ Hiệu chỉnh và định dạng biểu đồ Các thao tác với chuỗi số liệu trong biểu đồ Biểu đồ Các thao tác Chọn Insert > Chart > [Loại biểu đồ] > OK Ví dụ biểu đồ hình cột (Column) Microsoft Office tự động tạo một mẫu biểu đồ và bật chương trình Excel để chỉnh sửa số liệu Biểu đồ Ta cũng có thể chỉnh số liệu bằng cách: ấn chuột phải trên biểu đồ > chọn Edit data Hiển thị nhãn số liệu bằng cách: ấn chuột phải > chọn Add data labels 6 5 5 4.3 4.4 4.5 4 3.5 3 2.8 Loại A 3 2.4 2.5 2 2 Loại B 2 1.8 Loại C 1 0 Mẫu 1 Mẫu 2 Mẫu 3 Mẫu 4 Biểu đồ Biểu đồ hình bánh (Pie) Tên biểu đồ 10 Loại 1 20 44 Loại 2 Loại 3 Loại 4 26 Biểu đồ Biểu đồ dạng đồ thị (Line) 6 5 4.4 4 Series 1 3 2.8 2.4 Series 2 2 1.8 Series 3 1 0 Nhãn 1 Nhãn 2 Nhãn 3 Nhãn 4 Biểu đồ Biểu đồ dạng Area 50 40 30 Series 2 20 Series 1 10 0 01/05/2002 01/06/2002 01/07/2002 01/08/2002 01/09/2002 Biểu đồ Biểu đồ dạng tọa độ Y-Values 3.5 3 2.5 2 1.5 Y-Values 1 0.5 0 0 1 2 3 Biểu đồ Biểu đồ dạng bóng Y-Values 4 3.5 3 2.5 2 Y-Values 1.5 1 0.5 0 0 1 2 3 4 Biểu đồ Biểu đồ dạng mạng (Radar) 01/05/2002 40 30 20 01/09/2002 01/06/2002 10 Series 1 0 Series 2 01/08/2002 01/07/2002
File đính kèm:
- bai_giang_tin_hoc_nhom_nganh_nong_lam_ngu_moi_truong_chuong.pdf