Khi nào thì dữ liệu hành chính đủ tốt để thay thế thông tin thống kê? Chỉ tiêu chất lượng dựa trên so sánh tổng điều tra
Thống kê Bồ Đào Nha đang xem xét việc sử dụng dữ liệu hành chính trong Tổng điều
tra năm 2021. Để đối mặt với thách thức này, chất lượng của dữ liệu hành chính có sẵn được
đo lường bằng cách so sánh dữ liệu hành chính với dữ liệu vi mô tổng điều tra. Mục đích là để
đánh giá rủi ro của việc thay thế một phần thông tin thu thập của tổng điều tra bằng thông
tin thu được từ các nguồn hành chính. Các phương pháp liên kết bản ghi đã được áp dụng và
15 biến từ 7 bộ dữ liệu hành chính (cụ thể là Bảo hiểm an sinh xã hội hoặc đăng ký sinh viên)
được lựa chọn dựa trên tiềm năng thay thế thông tin thu thập tổng điều tra. Đối với mỗi cặp
bản ghi phù hợp, thông tin từ các biến hành chính tương ứng được so sánh, tạo ra ước tính tỷ
lệ bình đẳng. Kết quả cho thấy tỷ lệ bình đẳng rất cao khi so sánh thông tin từ mỗi cặp bản
ghi phù hợp với cả các biến địa lý và nhân khẩu học (thành phố cư trú, giới tính, ngày sinh,
tình trạng hôn nhân hợp pháp, nơi sinh, quốc tịch). Khi so sánh các biến kinh tế xã hội, kết
quả giống nhau ít hơn (tuy nhiên, dữ liệu thu được từ các nguồn liên quan đến lực lượng lao
động, cũng có tỷ lệ tương quan cao đối với các cặp bản ghi được so sánh). Xét rằng một số số
liệu thống kê có thể được thu thập từ các nguồn khác, một số dữ liệu vi mô của Tổng điều tra
(liên quan đến đặc điểm kinh tế và giáo dục của tổng thể) đã được so sánh với dữ liệu từ Điều
tra lực lượng lao động quốc gia. Các kết quả này tổng hợp với kết quả so sánh chung của bài
viết này. Cuối cùng, kết quả của cuộc Điều tra mẫu thực địa sau (phúc tra) Tổng điều tra năm
2011 được sử dụng để xác minh độ tin cậy của kết quả so sánh
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Tóm tắt nội dung tài liệu: Khi nào thì dữ liệu hành chính đủ tốt để thay thế thông tin thống kê? Chỉ tiêu chất lượng dựa trên so sánh tổng điều tra
ành chính Thông tin có sẵn về các chủ đề dân số BDIC Nơi cư trú (thành phố), giới tính, ngày sinh, tình trạng hôn nhân hợp pháp, nơi sinh, quốc tịch SEF Nơi sinh, quốc tịch, tình trạng hoạt động hiện tại, nghề nghiệp ISS Tình trạng hoạt động hiện tại, nơi làm việc, tình trạng việc làm QP Nơi làm việc, nghề nghiệp, ngành (cơ sở), tình trạng việc làm, số 42 lượng người làm việc trong doanh nghiệp, giờ làm việc thường xuyên, trình độ học vấn IEFP Tình trạng hoạt động hiện tại CGA Tình trạng hoạt động hiện tại EDUC Tham gia học tập Đối với bài thực hành hiện tại, 9 nguồn dữ liệu đã được lựa chọn xem xét khả năng sử dụng dữ liệu hành chính cho thông tin tổng điều tra (xem Bảng 1). Trong các nguồn dữ liệu hành chính được chọn, đã xác định được 15 biến mục tiêu do Tổng điều tra quốc gia năm 2011 cung cấp: 7 biến liên quan đến đặc điểm địa lý và nhân khẩu học và 8 biến liên quan đến đặc điểm kinh tế và giáo dục (xem Bảng 2). 3. Về phương pháp luận Mục đích của bài viết này là so sánh với mỗi cá nhân, giá trị chính xác của biến mục tiêu trên bộ dữ liệu hành chính, giá trị này gần nhất có thể với khái niệm và định nghĩa thống kê, với dữ liệu vi mô của Tổng điều tra năm 2011. Dân số được so sánh là kết quả của quá trình so khớp trước đó giữa dữ liệu vi mô của Tổng điều tra năm 2011 và hồ sơ hành chính, được chọn từ một số nguồn theo cách thức từng bước (sử dụng kết hợp các thông tin sẵn có - giới tính / tên / ngày sinh / tình trạng hôn nhân / quốc tịch / địa chỉ thường trú - để liên kết dữ liệu vi mô tổng điều tra với từng bộ dữ liệu hành chính, theo tuần tự). Chuẩn bị dữ liệu (bao gồm cả mã hóa) và chuẩn hóa đã được thực hiện trước đó. Không có đặc điểm nào bị thiếu được thêm vào đăng ký và dữ liệu được coi là cập nhật. Có thể so khớp 9 949 599 bản ghi dữ liệu tổng điều tra với hồ sơ hành chính từ các nguồn được chọn, có nghĩa là 94% dân số cư trú vào năm 2011, với tỷ lệ “dương tính giả” là 6% (giá trị đó đại diện cho tổng số bản ghi tổng điều tra phù hợp với ít nhất một bộ dữ liệu hành chính). Xem xét các bản ghi phù hợp, mục đích chính của bài viết này là để đánh giá, lựa chọn các biến, nếu chúng ta nhận được cùng một thông tin từ bộ dữ liệu hành chính về các cá nhân với thông tin được thu thập trong Tổng điều tra năm 2011. Chỉ sau khi phân tích các kết quả này, chúng tôi mới có thể xem xét việc sử dụng dữ liệu hành chính để thay thế thông tin thống kê đã thu thập từ tổng điều tra. Tỷ lệ giống nhau được ước tính dựa trên việc so sánh thông tin chính xác trên từng cặp bản ghi có thể khớp với nhau. Đối với những bản ghi đại diện cho cùng một người, giả thuyết của chúng tôi là, nếu sự giống nhau được xác nhận, chúng tôi có thể dựa vào thông tin hành chính cho mục đích thống kê. Để hỗ trợ cho quyết định này, chúng tôi có hai tiêu chí bổ sung: kết quả từ Chỉ số nhất quán Tổng điều tra của phúc tra năm 2011 và cũng là kết quả từ sự so sánh giữa cuộc Tổng điều tra năm 2011 và dữ liệu vi mô Điều tra lực lượng lao động quý đầu tiên năm 2011. 43 Bảng 3. Dữ liệu vi mô Tổng điều tra năm 2011 và kết quả so sánh hồ sơ hành chính Biến Tổng điều tra dân số 2011 được so sánh Hồ sơ hành chính được so sánh, theo nguồn Số cặp được so sánh Tỷ lệ giống nhau (%) ICG16 (%) Nơi cư trú (thành phố) 10.562.178 BDIC 11.565.714 9.308.384 94,6 97,7 Giới tính 10.562.178 BDIC 11.565.714 9.308.384 99,9 99,0 Ngày sinh 10.562.178 BDIC 11.565.714 9.308.384 92,6 95,7 Tình trạng hôn nhân hợp pháp 10.562.178 BDIC 11.565.714 9.308.384 95,3 97,4 Nơi sinh 10.562.178 BDIC 11.565.714 9.308.384 94,7 84,0 SEF 434.708 107.136 91,3 84,0 Quốc tịch 10.562.178 BDIC 11.565.714 9.308.384 99,4 97,8 SEF 434.708 107.136 90,3 97,8 Tình trạng hoạt động hiện tại 8.989.849 ISS 7.066.838 4.910.073 81,2 - SEF 379.965 107.136 27,1 - CGA 1.103.980 716.264 92,1 - IEFP 702.215 454.479 42,1 - Nơi làm việc (thành phố) 4.361.187 ISS 4.107.425 2.788.758 56,6 77,6 QP 2.736.659 2.045.476 81,6 77,6 Nghề nghiệp 4.361.187 QP 2.736.659 2.045.476 61,9 - SEF 124.721 171.370 52,9 - Ngành nghề 4.361.187 QP 2.736.659 2.045.476 74,1 - Tình trạng việc làm 4.361.187 QP 2.736.659 2.045.476 93,0 82,2 ISS 4.107.425 2.788.758 85,5 82,2 Số người làm việc trong doanh nghiệp 4.361.187 QP 2.736.659 2.045.476 54,4 51,6 Giờ làm việc 4.361.187 QP 2.736.659 2.045.476 56,8 - Trình độ học vấn 10.445.093 QP 2.736.659 2.210.930 59,5 - Tham gia học tập 10.445.093 EDUC 1.965.842 1.359.916 82,2 69,8 16 ICG đo lường lỗi nội dung; nó đại diện cho tỷ lệ phần trăm các đơn vị thống kê (dân số thường trú), có cùng phân loại cả trong TĐTDS 2011 và TĐTDS PES 2011, của tất cả các đơn vị chung cho hai hoạt động thống kê. 44 4. Kết quả và thảo luận Bảng 3 tóm tắt các kết quả thu được từ bài toán so sánh, cho tập hợp các biến tổng điều tra được lựa chọn với thông tin hành chính có sẵn để so sánh. Chúng hiển thị số dân, số lượng hồ sơ hành chính hiện có và số lượng hồ sơ hành chính thực tế so với dữ liệu vi mô tổng điều tra (kết quả từ quá trình đối sánh). Chúng tôi cũng trình bày các giá trị của Chỉ số nhất quán toàn cầu (ICG) từ phúc tra (PES) của Tổng điều tra năm 2011 [1]. Trước khi trình bày kết quả, hai lưu ý: một cho các biến phân loại và một cho các biến có mức độ thông tin chi tiết khác nhau. Trong bài viết này, chúng tôi chỉ hiển thị kết quả cho tất cả các danh mục và thông tin tổng hợp, nhưng nghiên cứu được thực hiện là đầy đủ và được so sánh chi tiết, tạo ra một loạt kết quả. Lưu ý đầu tiên là tăng cường tất cả các biến phân loại cũng được so sánh theo nhóm. Ví dụ, nếu chúng ta lấy tình trạng hoạt động hiện tại, điểm tỷ lệ giống nhau trong Bảng 3 là khoảng81% khi chúng ta so sánh dữ liệu vi mô tổng điều tra với đăng ký an sinh xã hội cá nhân (ISS) cho tất cả các danh mục. Trong trường hợp này, trong các nhóm, so sánh có thể có một số khác biệt. Xem xét lại tình trạng hoạt động hiện tại, 92% những người trả lời trong bảng câu hỏi tổng điều tra đã được tuyển dụng được đăng ký trong hệ thống An sinh xã hội của Bồ Đào Nha với tư cách là người làm việc. Lưu ý thứ hai là xem xét các biến có mức độ thông tin khác nhau. Ví dụ, nếu chúng ta lấy nghề nghiệp, Bảng 3 chỉ ra khoảng 62% tỷ lệ giống nhau khi dữ liệu vi mô tổng điều tra được so sánh với đăng ký việc làm tư nhân (QP). Giá trị đó tương ứng với mức tổng hợp thông tin cao nhất, tức là mức một chữ số. Xu hướng chung đối với loại biến này là sự phân tổ càng cao thì tỷ lệ giống nhau ước tính càng thấp. Bây giờ chúng ta hãy phân tích kết quả so sánh toàn cầu trên Bảng 3. Kết quả so sánh trên các biến nhân khẩu học cho thấy tỷ lệ giống nhau cao từ 90% đến 99% về ngày sinh, giới tính, nơi sinh, quốc tịch và tình trạng hôn nhân hợp pháp. Ngoài ra, nơi thường trú có tỷ lệ giống nhau khá cao: khoảng 95% của tất cả các cặp đăng ký được so sánh có thông tin chính xác giống nhau. Đối với các biến số kinh tế xã hội, các kết quả ít đồng nhất hơn. Chúng tôi xác định ba tình huống: - Tỷ lệ giống nhau cao cho các biến nhất định trên tất cả các nguồn có thông tin sẵn có; ví dụ: tình trạng việc làm với khoảng 86% từ tổng điều tra thông qua an sinh xã hội (ISS) và 93% thông qua việc làm tư nhân (QP); - Tỷ lệ giống nhau với sự thay đổi lớn theo nguồn: các biến số như nghề nghiệp, ngành và tình trạng hoạt động hiện tại; trong lần cuối cùng này, khoảng 92% tương thích thông qua quỹ hưu trí công (CGA), trong khi, nếu xét theo dữ liệu thất nghiệp (IEFP), giá trị này giảm xuống còn 42%; - Tỷ lệ giống nhau được ước tính so với một nguồn duy nhất: từ 50% tương ứng về số người làm việc trong doanh nghiệp (hoặc số giờ làm việc thường xuyên) thông qua việc làm tư nhân (QP) đến hơn 80% về việc đi học qua đăng ký của sinh viên (EDUC). Để hỗ trợ kết quả so sánh bộ dữ liệu điều tra - hành chính, chúng tôi quyết định sử dụng kết quả từ chỉ số chất lượng PES của Tổng điều tra năm 2011, ICG. Đáng ngạc nhiên là tỷ lệ giống nhau ước tính và giá trị ICG rất gần với hầu hết các biến được chọn (mặc dù đối với một số biến, các khái niệm gần giống nhau, nhưng không khớp chính xác). Thực tế này hỗ trợ các kết quả thu được từ bài viết này so sánh chung và làm 45 tăng độ tin cậy của việc sử dụng thông tin hành chính cho mục đích tổng điều tra. Cuối cùng, để có thêm chỉ số xác thực kết quả thu được, chúng tôi cũng đã thực hiện so sánh Tổng điều tra năm 2011 - dữ liệu vi mô LFS21quý đầu tiên năm 2011. Cỡ mẫu LFS là 39.884 cá thể. Đối với bài viết này, cần phải áp dụng đối sánh (giới tính / tên / ngày sinh / tình trạng hôn nhân / địa chỉ thường trú) với hồ sơ tổng điều tra. Chúng tôi đã thu được 17.732 cặp bản ghi để so sánh với dữ liệu vi mô của Tổng điều tra năm 2011 (6.995 từ 15 tuổi trở lên). Bảng 4. Kết quả so sánh dữ liệu vi mô Tổng điều tra năm 2011 và LFS Biến Tỷ lệ giống nhau giữa Tổng điều tra-LFS (%) Tỷ lệ giống nhau giữa Tổng điều tra – các bản ghi theo nguồn dữ liệu hành chính được chọn (%) Tình trạng lực lượng lao động 84,3 81,2 ISS Nghề nghiệp 67,8 61,9 QP Ngành 77,6 74,1 QP Tình trạng việc làm 86,5 93,0 QP Số người làm việc trong doanh nghiệp 60,6 54,4 QP Giờ làm việc 72,6 56,8 QP Trình độ học vấn 80,2 59,5 QP Tham gia học tập 86,5 87,4 EDUC 2 Cuộc điều tra lao động việc làm của Bồ Đào Nha, được tiến hành trên toàn quốc, là một cuộc khảo sát mẫu cung cấp kết quả hàng quý (gần đây là hàng tháng). Trở lại năm 2011, nó đã thu thập thông tin thị trường lao động cho khoảng 40.000 cá nhân. Bảng 4 cho thấy các kết quả so sánh tương ứng, dữ liệu vi mô tổng điều tra so với thông tin hành chính và dữ liệu vi mô tổng điều tra so với dữ liệu vi mô LFS, về 8 biến lực lượng lao động và giáo dục. Với mục đích này, chúng tôi sử dụng kết quả so sánh tỷ lệ giống nhau cao nhất từ Bảng 3, liên quan đến dữ liệu vi mô tổng điều tra so với thông tin hành chính, bất cứ khi nào một số nguồn hành chính có sẵn cho một biến mục tiêu. Ngoại trừ trình độ học vấn, các giá trị tỷ lệ giống nhau từ cả hai so sánh, đối với các biến được chọn, là tương tự nhau. Chúng tôi cho rằng những kết quả này làm tăng tính nhất quán tổng thể của bài viết so sánh giữa dữ liệu vi mô của Tổng điều tra năm 2011 và hồ sơ hành chính. Cuối cùng, một lưu ý cuối về các vấn đề phạm vi. Từ Bảng 3, rõ ràng là một số biến số không bao gồm đầy đủ trong dữ liệu hành chính của Bồ Đào Nha có sẵn cho Nghiên cứu khả thi của Tổng điều tra năm 2021. Trên thực tế, từ nhu cầu thông tin dự đoán ban đầu, chúng tôi biết rằng một số chủ đề cốt lõi cho tổng điều tra dân số và nhà ở (ví dụ: các biến liên quan đến hộ gia đình hoặc giáo dục) không được dữ liệu hành chính của Bồ Đào Nha bao phủ đầy đủ hoặc thậm chí một phần. Đó không phải là vấn đề đối với bài toán hiện tại và cũng không phải là sự mâu thuẫn giữa các nguồn (một bộ quy tắc đã được chuẩn bị cho vấn đề đó). 5. Kết Luận Việc đánh giá chất lượng dữ liệu hành chính cho các mục đích thống kê có thể là một nhiệm vụ rất lớn. Một bước trong quá trình đánh giá này là - sau khi xử lý các khái niệm, phân loại, tính kịp thời, quy trình và xử lý dữ liệu, liên kết và đối sánh dữ liệu và các vấn đề khác - xác minh xem (bất chấp các vấn đề liên quan) thông tin mà chúng tôi nhận được từ các nguồn dữ liệu hành chính 46 có phải là thông tin chúng tôi cần không cho thống kê tổng điều tra và quan trọng hơn, nếu nó hợp lệ và chính xác. Thông thường, sự thỏa hiệp giữa những gì chúng ta có và những gì chúng ta cần là khó đạt được, đặc biệt là khi quá trình này liên quan đến các tài nguyên mà chúng ta không giữ hoặc kiểm soát, như tập dữ liệu hành chính. Trong nhiệm vụ cụ thể này, nhiều quốc gia phải đối mặt với việc chuyển đổi mô hình tổng điều tra từ mô hình truyền thống sang mô hình dựa trên đăng ký, cũng có những vấn đề tương tự như Bồ Đào Nha. Đối với Cơ quan Thống kê Bồ Đào Nha, bài toán so sánh đơn giản này là một phần của một dự án phức tạp đang được tiến hành và sẽ tiếp tục sau Tổng điều tra năm 2021. Chúng tôi cho rằng kết quả có thể là cơ sở để thảo luận về mục đích sử dụng dữ liệu hành chính để thay thế hoặc được sử dụng bổ sung cho việc thu thập dữ liệu tổng điều tra. Tại thời điểm này, chúng tôi chỉ ra một số kết luận/phản ánh về kết quả thu được: - Kết quả cho thấy sự nhất quán rất lớn giữa dữ liệu hành chính và dữ liệu vi mô Tổng điều tra năm 2011; - Chúng tôi đã so sánh các bản ghi dữ liệu hành chính của từng cá nhân với 7 biến nhân khẩu học của Tổng điều tra năm 2011 (tất cả đều được sử dụng trong bài toán đối sánh). Tỷ lệ giống nhau rất cao (90% thông tin của các cặp bản ghi được so sánh là hoàn toàn giống nhau); - Chúng tôi cũng so sánh các đặc điểm liên quan đến lực lượng lao động và trình độ học vấn, từ 8 biến Tổng điều tra năm 2011 được chọn, chúng tôi thu được hơn 80% sự giống nhau đối với một số biến thị trường lao động; - Khi so sánh dữ liệu hành chính với dữ liệu vi mô của Tổng điều tra năm 2011, đăng ký việc làm tư nhân (QP) là nguồn thông tin nhất quán nhất trên tổng thể với tỷ lệ giống nhau cao nhất trong tập hợp các biến có sẵn; - Các chỉ số so sánh chỉ ra sự bất bình đẳng chỉ dựa trên các giá trị không giống nhau (sự khác biệt không phải do không thể chuyển đổi dữ liệu hoặc thiếu mô tả); vì vậy, chúng tôi cho rằng, mặc dù có một vấn đề rõ ràng được đề cập, nhưng dữ liệu hành chính có thể được sử dụng để bổ sung hoặc thay thế thông tin được thu thập bởi tổng điều tra; - Độ trễ thời gian giữa các bộ dữ liệu và một số vấn đề về khái niệm có thể giải thích sự khác biệt về kết quả so sánh. Ngoài ra, chủ sở hữu nguồn dữ liệu cũng đang được liên hệ để biết các luồng dữ liệu mới và chúng tôi tin rằng một số vấn đề gây ra sự khác nhau có thể được giải quyết với thu nhập gần đây hơn; - Độ tin cậy của việc sử dụng dữ liệu hành chính cho mục đích thống kê đã được khẳng định bằng cách sử dụng các tiêu chí thông tin chất lượng bổ sung từ phúc tra Tổng điều tra năm 2011 và Tổng điều tra năm 2011 so với kết quả so sánh Cuộc điều tra lao động việc làm năm 2011; - Đối với công việc trong tương lai, các quy tắc so sánh chéo và phân cấp giữa các nguồn thông tin hành chính đang được nghiên cứu. Tài liệu tham khảo [1] Viện Thống kê Quốc gia. Khảo sát chất lượng của Các cuộc tổng điều tra năm 2011 - Phương pháp và kết quả, Viện Thống kê Quốc gia, INE I.P. Ed., Lisbon, 2013. Đỗ Ngát (dịch) Nguồn: https://content.iospress.com/download/statis tical-journal-of-the- iaos/sji160333?id=statistical-journal-of-the- iaos%2Fsji160333
File đính kèm:
- khi_nao_thi_du_lieu_hanh_chinh_du_tot_de_thay_the_thong_tin.pdf