🔙 Quay lại trang tải sách pdf ebook Giáo trình phân tích số liệu thống kê
Ebooks
Nhóm Zalo
TRƯÒNG ĐẠI HỌC KINH TỂ
VA QUÀN TRỊ KINH DOÀNH THĂI NGUYÊN fs . ĐỖ Anh Tài
GIÁO TRÌNH PHÂN TÍCH SỌ LIẸU
THỐNG KÊ
DẠĨ HỌC THÁI NnLT:tN
TRUKG TÂM KỌC L 'FU
NHÀ XUẤT BẢN THỐNG KÊ
Hà Nội, tháng 8/2008
LỜI NÓI ĐẦU
ột nghiên cứu tốt, một báo cáo khoa học có căn cứ ty w V được người đọc chấp nhận về mặt học thuật đòi hỏi phải có phương pháp tốt, áp dụng các công cụ kỹ thuật để cung cấp các thông tin xác thực. Đặc biệt trong các vấn đề kinh tê - xã hội và khi nghiên cứu số lớn chúng ta cần phải quan tâm đến các công cụ kỹ thuật như thống kê.
Thông kê học là một lĩnh vực khá rộng, do vậy trong phạm vi của môn học này tác giả mong muốn trang bị cho người học những Hen thức cơ bản trong việc phân tích số liệu thống kê nhằm mục đích có thể khai thác hiệu quả các thông tin thu thập được, để phục vụ cho công tác nghiên cứu khoa học của các khoa học về kinh tế - xã hội.
Với mục đích trang bị kiến thức chuyên sãu cho các sinh viên sau đại học có thể triển khai tốt các nghiền cứu của mình, iác giả mong muốn cuốn sách này sẽ trở thành cẩm nang cho các bạn.
Cuốn sách gồm 4 chương chính bao trùm các nội dung từ việc chuẩn bị số liệu cho đến phân tích số liệu và biểu diễn kết quả thành báo cáo khoa học.
Lần đầu tiên cuốn sách được giới thiệu đến bạn đọc, mặc dù đã được cập nhật những thông tin mới nhắt và hiện đại nhất nhưng cuốn sách khó tránh khỏi những thiếu sót nhất định. Tác giả mong nhận được những ỷ ìdến đóng góp của bạn đọc để lần xuất bản sau cuốn sách được hoàn thiện hơn.
Tác giả cũng xin chân thành cảm ơn những ỷ kiến đóng góp quý báu của bạn đọc, các bạn đồng nghiệp và sinh viên để cuốn sách được xuất bản.
TÁC GIẢ
GIỚI THIỆU CHƯNG
Do đặc tìĩù khác nhau của việc ứiu tìiập và xử lý các số liệu thống kê nên trong khuôn khổ của cuốn sách này chúng tôi mong muốn tập trung vào những vấn đề về các số liệu tìiống kê phục vụ cho các nghiên cứu về Knh vực kinh tế - xã hội.
Khái niệm phân tích sổ liệu thống kê: Là sự kết hợp giữa thống kê, sự tư duy và hiểu biết các vấn đề kinh tế.
Yêu cầu: Đe có thể nắm vững kiến thức của môn học này đòi hỏi người học phải có kiến thức sâu về thống kê, về kinh tế cũng như những hiểu biết thực tế của vấn đề nghiên cứu. Ngoài ra, cần phải có kiến thức về tin học và các công cụ lượng hoá khác để kết hợp trong nghiên cứu.
Trước khi bước vào nội dung của chưomg ửiứ nhất chúng tôi muốn ừao đổi sơ lược với các độc giả về tổng quát tiến hành một nghiên cứu ừong các vấn đề ứiuộc về kinh tế - xã hội.
Trong khi tiến hành các nghiên cứu về kữủi tế - xă hội có gì khác so với các vấn đề thuộc về khoa học tự nhiên: điều khác cơ bản đó là đối tượng nghiên cứu ữong các nghiên cứu kinh tế - xã hội thường là con người hoặc là liên quan đến con người, các mối liên hệ với con người. Ngoài ra, nó còn khác nhau ở cách thức tiến hành, khả năng áp dụng và thời gian cho kết quả, phạm vi tác động v.v...
Thiết kế một nghiên cứu về kinh tế - xã hội cần phải làm những gì? Dưới đây là một đề cương sơ bộ hướng dẫn cho các nghiên cứu thuộc về lĩnh vực khoa học kinh tế - xã hội. Nó sẽ được cụ thể hoá cho từng chương trình nghiên cứu cụ thể.
/. Vấn đề đặt ra
A. Trình bày một cách rõ ràng, ngắn ngọn về vẩn đề đặt ra, với việc xác định khái niệm cần thiết như thế nào.
B. Chỉ ra vấn đề là sự giới hạn về ranh giới để giải quyết hoặc kiểm tra vấn đề.
c. Mô tả sự cần thiết và ý nghĩa của vấn đề liên quan đến một trong những chỉ tiêu sau:
1. Thời gian.
2. Liên quan đến vấn đề thực tế.
3. Liên quan đến tổng thể rộng lớn hơn
4. Liên quan đến sự tác động hoặc phản ảnh đến tổng thể. 5. Làm thoả mãn khoảng cách của một nghiên cứu.
6. Cho phép suy rộng ra các hoạt động xã hội hoặc các nguyên lý cơ bản.
1, Làm rõ các khái niệm, mối quan hệ và sự quan trọng. 8. Tìm hiểu phạm vi thực tế của vấn đề trong thực tế.
9. Có thể tạo ra hoặc phát triển những công cụ quan ừọng cho việc quan sát và phân tích thông tin.
10. Cung cấp cơ hội và khả năng thu thập thông tin trong thực trạng của việc hạn chế về thời gian.
11. Trình bày khả năng có thể giải thích hoặc phân tích kết quả một cách tốt nhất, có nhiều ứiông tin nhất dựa trên cơ sở các kỹ thuật phân tích đã có.
II. Cơ sở lý luận
A. Trình bày mối quan hệ của vấn đề đến cơ sở lý luận.
B. Sự liên quan của vấn đề nghiên cứu tới các nghiên cứu trước đây.
c. Trình bày các giả cứ lý luận liên quan.
III. Giả thuyết
A. Làm rõ các giả thuyết lựa chọn cho việc kiểm định.
B. Thể hiện mức độ ý nghĩa của kiểm định các giả thuyết tới sự tiến bộ của nghiên cứu và lý luận.
c. Định nghĩa các khái niệm hoặc các biến sử dụng (tốt nhất nên ở dạng quan hệ phụ thuộc).
Vi dụ: Thu nhập là phần còn lại của doanh thu sau khi trừ đi chi phí trước khi tính công lao động.
1. Các biến độc lập (biến giải thích) và biến phụ thuộc (biến được giải thích) giữa chúng nên được phân biệt rõ.
2 ' Tỷ lệ trên đó các biến được xác định và đo đạc (định lượng, bán định lượng hay định túih) cần được cụ tíiể.
D. Miêu tả những lỗi có thể mắc phải và hậu quả của nó. E. Chú thích các lồi nghiêm ừọng.
IV. Thiết kế một thí nghiệm hay cuộc điều tra
A. Trình bày ý tưởng những thiết kế với những quan tâm cụ thể trong việc đáp ứng tính phức tạp của các biến.
B. Mô tả việc lựa chọn một thiết kế để tiến hành.
1. Mô tả các tác nhân kích thích, chủ đề, môi ừường và câu hỏi của các mục tiêu, các sự kiện, nhu cầu cần thiết về vật lực.
2. Mô tả làm thế nào để điều khiển được tính phức tạp của các biến.
c Cụ thể các công cụ dùng để kiểm định thống kê bao gồm cả các bảng giả định cho mỗi một kiểm định.
Trong đó, cần cụ thể mức độ tin cậy mong muốn. V. Quá trình chọn mẫu
A. Mô tả mẫu được lựa chọn trong thí nghiệm hoặc điều tra.
1. Cụ thể tổng thể có liên quan đến giả thuyết nghiên cứu. 2. Giải thích sự xác định của số lượng và kiểu loại mẫu. B. Cụ thể hoá phưong pháp lựa chọn mẫu.
8
1. Cụ thể hoá mối quan hệ tương đối của sai số ngẫu nhiên và phi ngẫu nhiên.
2. ước lượng chi phí tương đối của các cỡ và kiểu lấy mẫu khác nhau phù hợp với lý thuyết.
VI. Phương pháp và cách thức điều tra
A. Mô tả thước đo của các biến địiứi lượng chỉ ra tính tin cậy và họp lệ của chúng. Mô tả phương tiện để xác định cho các biến định tính.
B. Các mục bao gồm trong bảng câu hỏi điều tra. 1. Số lượng câu hỏi có thể phỏng vấn người được hỏi. 2. Thời gian có thể cho cuộc phỏng vấn.
3. Lịch trình tiến hành ừong thời gian cụ thể.
4. Những kết quả đánh giá, kiểm định trước.
c. Các mục bao gồm trong quá trình điều tra.
1. Các phương tiện thu thập thông tin.
Vi dụ: Phỏng vấn trực tiếp, hoặc một phần bằng thư, điện thoại hay các phương tiện khác.
2. Các đặc trưng riêng mà người điều tra viên phải có hoặc cần phải tập huấn cho họ.
D. Mô tả kết quả sử dụng từ các nghiên cứu đại diện hoặc điều tra tìiử. Trong đó nêu rõ sự quan trọng, các phưcmg tiện để
xử lý tình ừạng ứiông tin kém giá ừỊ, bị loại bỏ hoặc do lỗi người được hỏi.
VII. Hướng dẫn trong quá trình tiến hành
A. Chuẩn bị một hướng dẫn ữong toàn bộ quá ừình tiến hành nghiên cứu, trong đó trình bày cụ thể thời gian và ước tính chi phí.
1. Kế hoạch.
2. Địa điểm nghiên cứu và các kiểm tra trước.
3. Lựa chọn mẫu.
4. Chuẩn bị các trang thiết bị vật chất cho điều tra.
5. Lựa chọn điều tra viên và tiến hành tập huấn.
6. Kế hoạch triển khai thực địa.
7. Chỉnh sửa lại kế hoạch.
8. Thu thập thông tin.
9. Phân tích thông tin (số liệu).
10. Chuẩn bị báo cáo kết quả nghiên cứu.
B. ước tính số lưọng công lao động và chi phí.
VUI. Phân tích số liệu
Cụ thể các phương pháp dùng trong phân tích:
1. Sử dụng bảng biểu, các công cụ tính toán, cách thức phân loại, máy tính v.v...
10
2. Sử dụng các kỹ thuật đồ hoạ.
3. Cụ thể các loại bảng biểu sẽ thiết kế.
DC Giải thích kết quả
Thảo luận kết luận như thế nào sẽ phản hồi cho các giả thuyết đặt ra
X. In quyển hoặc báo cáo kết quả
A. Ket quả được viết và in ấn theo yêu cầu của đơn vị đào tạo hoặc nghiên cứu.
B. Lựa chọn kết quả viết bài báo cho các tạp chí khoa học.
Những hướng dẫn trên đây chỉ mang tính chất gợi ý cho những người nghiên cửu, tuỳ từng trường hợp cụ thể mà người nghiên cứu có thể cụ thể hoá hoặc thay đổi theo thực tế yêu cầu.
Phát triển việc phân tích số liệu thống kê thường song song hoặc nâng cao của các vấn đề nghiên cứu khác mà trong đó việc ứng dụng các công cụ thống kê là cần thiết. Bởi vì, phân tích thống kê thưòmg dùng cho những vấn đề quyết định mà việc áp dụng các công cụ thống kê sẽ giúp đưa ra những quyết định đúng đắn hơn trong những điều kiện không biết trước.
11
Chương I
CHUẨN BỊ SỐ LIỆU
Nội dung của chương này nhằm ữang bị cho sinh viên những kiến thức cơ bản về chuẩn bị, điều ứa thu thập số liệu phục vụ cho nghiên cứu.
Có được số liệu với chất lượng cao và có độ tin cậy cũng như tính đầy đủ phục vụ cho nghiên cứu là điều hết sức quan ữọng, nó quyết định đến kết quả của nghiên cứu đối với mỗi một nhà khoa học kể cả frong lĩnh vực kỹ thuật hay kinh tế - xã hội. Vi vậy, việc thiết kế điều tta như thế nào? Các phưcmg pháp điều tra lựa chọn ra làm sao? Việc chọn mẫu điều tra v.v... sẽ có ảnh hưởng trực tiếp đến kết quả của số liệu mà chúng ta sẽ thu thập được sau này.
Số liệu cho ta biết những gì?
Từ số liệu sẽ cung cấp cho ta những thông tin cần thiết qua đó để vẽ lên được bức tranh thực tế, đây là bức tranh không gian 3 chiều, nó cho ta biết thực tại, quá khứ và cả những điều dự đoán trong tương lai. Từ đó, nó giúp ta xây
dựng và phát triển những hiểu biết.
Có bộ số liệu tốt, có được mô hình phân tích thống kê chính xác sẽ giúp ta đưa ra những quyết định chính xác hơn, phù hợp hơn với thực tế.
13
Mức độ chính xác
của mô hình thống kê Hiểu biết
Thực tế
Thông tm
Số liệu Mức độ chính xác
của quyết định
Hình 1.1: MỐI QUAN HỆ CỦA VIỆC PHÂN TÍCH só LIỆU
VÀ VIỆC RA QUYẾT ĐỊNH
l.ỉ. Thiết kế điều tra nghệ thuật và khoa học
Có thể nói việc thiết kế điều tra vừa mang tính nghệ tíiuật vừa phải có tính khoa học, điều đó có thể lý giải bởi các lý do như sau:
Tính khoa học được thể hiện ở chỗ khi thiết kế điều ữa chúng ta phải sử dụng các nguyên tắc của thống kê mà đã được học như việc chọn mẫu mang tính đại diện về những đặc tính của tổng thể và số lượng của mẫu để có thể suy rộng ra được.
Khi thiết kế điều tra, chúng ta cũng phải dựa vào cảc nguyên lý kinh tế học như các mối quan hệ khi nghiên cứu
14
một vấn đề có liên qiian đến các vấn đề khác v.v... và một điều cũng hết sức quan frọng đó là vấn đề tâm lý học trong điều ữ-a thu thập số liệu: chúng ta sẽ hỏi ai, với những câu hỏi như ứiế nào v.v...
Một ví dụ mà chúng ta sẽ thấy rất rõ là khi chúng ta hỏi về tác động của một chương ừình trợ giúp mà chúng ta hay chính phủ đang tiến hành với câu hỏi tương tự như “Anh/chị thấy chương ừình mà chúng tôi hay chính phủ đang thực hiện như thế nào?” thì thường chúng ta sẽ nhận được câu ừả lời ở dạng tốt vì phần lớn người dân mong muốn sẽ được trợ giúp tiếp theo.
Hoặc khi chúng ta tiến hành điều tra mà đối tượng là các nhóm dân tộc khác nhau thì chúng ta cũng cần phải lưu tâm đến phong tục, tập quán của họ để tránh những vấn đề mà phong tục của họ không cho phép hoặc chúng ta sẽ không thể •
thu thập được thông tin mong muốn.
Do vậy, việc thiết kế điều tra phải hết sức khoa học trong việc vận dụng một cách chặt chẽ những kiến thức đã có về thống kê, tâm lý học và các nguyên lý kinh tế học.
Thiết kế điều tra được coi như một nghệ thuật là vì:
- Thứ nhất, chúng ta không có bất kỳ một sách hướng dẫn chuẩn và tổng quát cho thiết kế điều tra nào mà nó phụ thuộc rất nhiều vào những mục tiêu và câu hỏi nghiên cứu chính mà NHÀ NGHIÊN CÚXJ phải giải quyết trong nghiên cứu của mình.
15
Ví dụ: Nỏ có thể liên quan đến các vấn đề về lao động, việc làm; có thể là các vấn đề về thu nhập và đói nghèo hay các vấn đề về nguồn lực và quản lý các nguồn lực; các số liệu thí nghiệm v.v... nó có thể ở mức độ vi mô nhưng cũng cỏ thể ở cấp độ vĩ mô. Điều này hoàn toàn phụ thuộc vào mục đích nghiên cứu, vấn đề cằn nghiên cứu của người làm nghiên cứu.
- Thứ hai, việc thiết kế điều fra tuỳ thuộc vào mửc độ nguồn lực và các liên quan khách quan khác mà chúng ta thường đánh đổi giữa các mục tiêu khác nhau.
Ví dụ: Đánh đổi giữa kinh phí và số lượng mẫu cần điều tra, giữa sai số chọn mẫu (số lượng mẫu nhiều hay ít) và sai số phi chọn mẫu (số lượng người tham gia điều tra nhiều hay ít với những kinh nghiệm điều tra khác nhau) v.v...
Vì thế, có thể nói ràng thiết kế điều tra là một nghệ ứiuật mà người làm nghệ thuật ở đây không ai khác hơn là chính người làm nghiên cứu, họ sẽ phải lựa chọn, họ sẽ phải tung hứng một cách nghệ thuật để đáp ứng những yêu cầu do mình đặt ra để được người đọc và những người ứng dụng chấp nhận được kết quả mà mình làm ra.
Thông thường các cuộc điều tra được tiến hành theo một trình tự kế hoạch như hình 1.2:
16
Hình 1.2: sơ Đổ KẾ HOẠCH TIẾN HÀNH MỘT cuộc ĐIỀU TRA THU THẬP SỐ LIỆU PHỤC vụ NGHIÊN CỨU
- Bước I: Thiết lập các mục tiêu
Bước đầu tiên trong bất kỳ một cuộc điều ữa nào đều là quyết định bạn muốn tìm hiểu vấn đề gì? Mục tiêu của dự án
DẠI IIỌC THÁI NGUYÊN
17
■i-UNG T Ẵ M K O C L Ĩ Ê Ư
quyết định bạn sẽ điều tra ai và sẽ hỏi họ điều gì? Nếu các mục tiêu của bạn không rõ ràng, kết quả cũng có tliể sẽ không rõ ràng, do vậy, bạn phải luôn làm rõ các mục tiêu của mình để: ứứ nhất, tìiu được số liệu như mong muốn; thứ hai. không bị thiếu những tìiông tin cần ứiiết cho việc nghiên cứu của bạn.
Ví dụ: Trong cuộc điều tra 150 doanh nghiệp dệt may ở Việt Nam do Viện Kinh tế học tiến hành năm 2001, mục tiêu chung mà nhóm nghiên cứu năng suất đặt ra là: Xác (Snh những nhân tố ảnh hưởng đến năng suất của các doanh nghiệp dệt may Việt Nam, và dựa trẽn cơ sở nảy đưa ra những khuyến nghị đối với các nhà hoạch định chính sách để nâng cao năng suất của doanh nghiệp.
Một ví dụ nữa khi chúng ta tiến hành ’điều tra về vấn đề đổi nghèo, chúng ta cần phải xác định rõ là chúng ta muốn nghiên cứu gì? Nếu chúng ta muốn tìm hiểu về nguyên nhân dẫn đến đói nghèo thì mục đích của chúng ta là điều tra xác định các nhân tố ảnh hưởng tới mức sống của các hộ dân cả tích cực và tiêu cực.
Trên cơ sở xác định được các mục tiêu nghiên cứu, chúng ta sẽ tiến hành lựa chọn vùng nghiên cứu phù hợp và mang tính đại diện và tiến hành bước thứ hai.
- Bước thứ hai: Là pha chuẩn bị của một điầí tra phục vụ nghiên cứu
Nội dung của bước này là khâu chuẩn bị các nguồn lực như: nhân lực và vật lực phù hợp theo đòi hỏi và nhu cầu của cuộc điều tra trên cả 2 phương diện: số lượng và chất luợng. Trong đó, đặc biệt phải nhấn mạnh đến việc chuẩn bị về tài
18
chính và vật lực vì nó gần như quyết định đến sự thành công trong quá trình điều ừa sau này.
- Bước thứ 3: Là bước xây dựng phiếu điểu tra và cơ sở dữ liệu
Phiếu điều fra được xây dựng dựa ữên mục tiêu của cuộc điều ữa cũng như đối tượng và cách thức tiến hành điều tra.
Trong đó, mục tiêu của cuộc điều tra quyết địiứi đến nội dung của phiếu điều tra, các thông tin cần thu thập, thời gian của số liệu cũng như thời gian của cuộc điều tra.
Ví dụ: Mục tiêu là điều tra kinh tế hộ nông dân sẽ cần 1 phiếu điều tra khác so với điều tra môt doanh nghiệp hay điều tra năng suất lao động khác với điều ừa tình hình giảng dạy và học tập trong các ừường đại học.
Đối tượng điều tra và cách thức tiến hành điều tra có ảnh hưởng nhiều đến cách thức ra câu hỏi: dạng mở hay dạng có phương án lựa chọn và trong trưòmg hợp nào thì nên để nhiều câu hỏi dạng mở, khi nào thì dùng câu hỏi có gợi ý trước.
Cơ sở dữ liệu (Database) có ứiể định nghĩa là phần thông tin thu thập được từ một cuộc điều tra bất kỳ nào đó và được sắp xếp theo một tt-ật tự nhất định để có thể dễ dàng cho việc xử lý số liệu đó thông qua các phần mềm thống kê, cũng như dễ dàng cho việc kiểm ưa độ chuẩn xác của thông tin thu lượm được. Thông ứiường cơ sờ dữ liệu có thể là một bảng tính trong Excel, Lotus hay 1 tệp ừong Access và đôi khi chúng ta có thể sử dụng
trực tiếp các phần mềm ứiống kê để nhập dữ liệu như SPSS [Statistical Package for the Social Sciences).
19
- Bước thứ 4: Tiếp theo là việc lựa chọn mẫu điểu tra vể số lượng và cách thức chọn mẫu
Việc lựa chọn số lượng mẫu điều fra phụ ứiuộc vào nhiều yếu tố khác nhau như điều kiện tối thiểu của mẫu, tính đại diện của mẫu, khả năng đáp ứng về thời gian, nguồn nhân lực và vật lực (trong đó chủ yếu là nguồn lực tài chính).
Tuy nhiên, mục tiêu của cuộc điều tra đôi khi cũng có ảnh hưởng tới số lượng mẫu, chẳng hạn như mục tiêu là nghiên cứu các trường hợp đặc biệt (case study) thì khi đó số lượng mẫu không cần lớn, còn khi cuộc điều tra để đánh giá chung cho một nhóm đối tượng như nhóm khách hàng hay một vùng như khu vực miền núi chẳng hạn thì số lượng mẫu đòi hỏi phải nhiều hơn và phải đủ để đại diện cho tổng tìiể nghiên cứu.
Số lượng mẫu cũng phụ thuộc vào yêu cầu của độ chính xác của các thông tin phân tích từ kết quả điều tra, nếu đòi hỏi có độ chính xác cao thì số lượng mẫu cũng sẽ tăng lên.
Tuy nhiên, giữa số lượng và chất lượng thông tin cũng có mâu thuẫn với nhau khi ta đề cập đến sai số phi chọn mẫu ở phần sau. Ngoài ra, số lượng mẫu còn phụ thuộc rất nhiều vào các yếu tố khách quan khác trong quá trình điều tra như thời gian cho phép, kinh phí có thể đáp ứng v.v...
Cách thức chọn mẫu rất quan trọng vì nó sẽ ảnh hưởng tới khả năng đại diện của mẫu cho tổng thể. Cách thức chọn mẫu hoàn toàn phụ thuộc vào tính chất của tổng thể đó là đồng nhất hay có sự khác biệt bên trong của tổng thể mẫu đó.
20
Ví dụ: Khi mẫu đó là đồng đều thì ta có ữiể lựa chọn mẫu ngẫu nhiên đơn giản, nhưng khi tnong tổng thể có nhiều nhóm, lớp khác biệt nhau thì việc lựa chọn mẫu ttieo phân lớp hay nhiều cấp sẽ đảm bảo tính đại diện cho tổng ttiẻ hơn.
- Bước thứ 5: Tiến hành điều tra
Việc tiến hành điều tra cũng phải qua nhiều khâu khác ihau như tập huấn cho điều fra viên, điều ữa tìbử và tiến hành tiều tra chính thức.
Khâu quan ứọng nữa là sắp xếp một cách lô gíc các khâu rong cuộc điều fra cũng như tập huấn một cách kỹ lưõng cho 'Ác điều tra viên, những người sẽ ttục tiếp tiến hành việc tìiu hập số liệu, vì chất lượng của số liệu mà ta có sẽ hoàn toàn )hụ thuộc vào những người này. Do vậy, công tác lựa chọn ĩiều fra viên có đủ năng lực, trình độ, ù-ách nhiệm với công ,^iệc là hết sức quan trọng. Đặc biệt quan trọng là chúng ta )hải lựa chọn được những người có mong muốn tham gia :ông tác điều tra, nghiên cứu có như vậy họ mới luôn đề cao inh ứiần trách nhiệm đối với ứiông tin mà họ sẽ thu tíiập.
Việc điều tra ứiử sẽ giúp cho việc chỉnh sửa phiếu điều ừa :ho phù hợp để ứiu được các thông tin cần ứiiết một cách :hính xác nhất, bước này ứiường được tiến hành ữước khi tiến lành điều tra chính ứiửc khoảng 1 ửiáng để có điều kiện hoàn :hinh lại phiếu điều ưa A'à bổ sung tập huấn cho cán bộ điều ra nếu cần ứiiêt.
21
Việc tiến hành điều ữa sẽ tuỳ thuộc vào yêu cẩu của số liệu mà tiến hành điều fra frong cùng 1 ứiời điểm hay chia ra nhiều giai đoạn. Tuy nhiên, nếu có nhiều qxian sát ừong cùng một mẫu thì lên lấy số liệu trong cùng 1 thời điểm để ừánh sự khác biệt của số liệu do tác động của thời gian.
Trong quá trình điều ữa chúng ta cần phải luôn kiểm ừa độ chính xác của thông tin để có thể điều chỉnh kịp thời.
Việc triển khai công tác kiểm tra độ chính xác có thể được sử dụng theo nhiều cách khác nhau, chẳng hạn chúng ta có thể lập ra một đội kiểm tra độc lập với đội đi điều ữa. Sau khi kiểm tra nếu phiếu điều tra có những chỗ chua rõ ràng hoặc thiếu thông tin thì chuyển lại phiếu đó cho điều tra viên. Điều đó có nghĩa là việc kiểm tra này phải tiến hành đồng thời, song song với việc điều ừa.
Để tránh những sai sót hoặc thông tin bị thiếu ừong quá trình điều tra thì một trong những liru ý vô cùng quan trọng là các điều ữa viên cần phải hoàn chỉnh phiếu điều tra ngay tại hộ hoặc tại địa bàn điều fra để kịp thời bổ sung những ứiông tin cần thiết.
Một lưu ý nữa là trong quá trình điều ữa chúng ta nên thường xuyên tổ chức những buổi họp nhóm điều tra (cả điều tra viên, lãnh đạo và kiểm tra viên) để cùng nhau trao đổi những phát sinh cần phải điều chỉnh trong quá trình điều tra.
- Bước thứ 6: Nhập dữ liệu vào cơ sở dữ liệu trong máy tính.
22
Bước này ứiuần tuý là khâu kỹ thuật, song nó khá quan frọng và cũng chiếm nhiều thcri gian, đòi hỏi người nghiên cứu phải kiên nhẫn và tỉ mỉ, có độ chính xác cao, ứánh nhầm lẫn. Người nghiên cứu cũng phải am hiểu về máy tính và các phần mềm sử dụng để xử lý số liệu sau này nhằm xây dựng một cấu frúc cơ sở dữ liệu cho phù hợp.
Để đảm bảo độ chứủi xác cao của tíiông tin có 2 cách làm như sau:
+ Cách thứ nhất: chúng ta có tìiể tiến hành nhập tin hai lần, để kiểm fra cách này tốn nhiều thời gian nhưng đảm bảo ít sai sót ữong quá ttiiứi nhập tin.
+ Cách thứ hai: sau khi nhập xong toàn bộ thông tm cần phải in tất cả ra giấy để kiểm tra, tuy nhiên cách này cũng sẽ gặp một số khó khăn nhất định khi nhiều thông tin và trên định dạng bảng túứi như Excel chẳng hạn.
Để dung hoà cho những điểm hạn chế của cả 2 cách chúng ta có thể sử dụng cách lấy ngẫu nhiên một lượng phiếu khoảng 10% để kiểm tra thông qua việc nhập lại những thông tin này rồi kiểm ừa với những ứiông tin của các phiếu đó đã nhập lần 1 nhằm tìm ra những sai sót (nếu có). Nếu có sai sót ta buộc phải kiểm tra lại toàn bộ cơ sở dữ liệu đã nhập trước đây.
Việc kiểm tra này thường được tiến hành ngay sau khi đã nhập được một phần số phiếu điều tra trong tổng số phiếu của cả đợt, nhằm mục đích phát hiện sớm những sai sót để có thể kịp thời điều chỉnh, tránh hiện tượng sau khi nhập toàn bộ phiếu mới kiểm tra, vì khi đó việc điều chỉnh sẽ rất tốn thời
23
gian và công sức. Nấu việc kiểm tra được tiến hành sau khi đỉ nhập hết các phiếu mà bắt gặp nhiều sai sót thì việc nhập lại tin hay kiểm tra cũng sẽ không có nhiều ý nghĩa như khi mói bắt đầu tiến hành nhập tin. Việc kiểm tra này cũng phải tiến hành thường xuyên ữong quá ừình nhập tin vào máy.
- Bước thứ 7: Kiểm tra và hiệu chỉnh thông tin trong ca sở dữ liệu hay còn gọi là quá trình làm
sạch thông tin
Đây là khâu cuối cùng trước khi tiến hành xử lý số liệu bằng các phần mềm thống kê và cũng là khâu quan ừọng vì nó sẽ quyết định đến độ tin cậy của kết quả phân tích sau này.
Để tiến hành kiểm tìra, chúng ta cần phải qua các bước sau:
+ Thứ nhất là kiểm ữa xem có các giá trị bất thường hoặc bị thiếu hay không (thông thường thông qua sử dụng một số phần mềm thống kê chuyên dụng như SPSS hay Stata).
+ Sau khi kiểm tra thấy có các giá trị bất thường hoặc bị thiếu đó thì kiểm tra lại xem giữa việc nhập số liệu và phiếu điều ữa có chính xác hay không? Nếu quá trình nhập đã chính xác thì câu hỏi đặt ra sẽ là kiểm tra lại ữong quá ừình điều fra được tiến hành như thế nào? Nếu quá trình điều fra có thể khẳng định được là thông tin hoàn toàn chính xác và đã kiểm tra thông tin ngay khi đi điều ừa thì ta có thể chấp nhận được thông tin này. Còn nếu câu trả lời là không thì khi đó ta sẽ phải xử lý theo 2 cách: (1) điều fra lại thông tin đó, nếu điều kiện cho phép hoặc trong trường họp số lượng thông tin đó lớn; (2) dùng các phương pháp xử lý số liệu bị tíiiếu và bất
24
thường trong thống kê nếu lượng số liệu đó so với toàn bộ khối lượng thông tin chiếm tỷ lệ rất nhỏ (thường chỉ một vài phần trăm).
1.2. Chọn mẫu
Phần này nhằm trang bị những kiến thức cơ bản cho người nghiên cứu trong việc lựa chọn phương pháp chọn mẫu thích hợp teong nghiên cứu của minh. Với mục tiêu cụ thể của phần này là:
1. Phân biệt giữa tổng thể và mẫu; xác định rõ câu hỏi nghiên cửu và mục tiêu nghiên cứu; lựa chọn các chi tiêu lựa chọn và loại trừ.
2. Lựa chọn phương pháp chọn mẫu phù hợp giữa ngẫu nhiên và phi ngẫu nhiên.
3. Hiểu những lập luận về ước lượng sai số.
4. Hiểu những lập luận về xác định cỡ mẫu.
5. Hiểu những lập luận về nguồn sai số ữong chọn mẫu. 6. Tính toán trọng số.
1.2.1. Chọn mẫu thống kê trong điều tra chọn mẫu
Trước hết, chúng ta sẽ làm quen với một số khái niệm trong điều fra chọn mẫu cũng như cần phân biệt giữa nhóm đối tượng và mẫu như sau: -
- Tầng thể: Là một nhóm người, chi tiết hoặc đơn vị đối tượng của nghiên cứu sẽ được điều tra. Tổng thể bao gồm 2
25
loại là tổng thể lý thuyét và tống thế có tìié tiếp cận đơợc. Trong đó:
+ Tổng thể lý thuyết: Là những nhóm đối tượng phù hợp trong nghiên cứu và có thể rộng hơn, bao trùm tổng thể có thể tiếp cận được.
Ví dụ: Khi nghiên cứu về hộ nông dân thi tất cả các hộ nông dân là tổng thể lý thuyết.
+ Tổng thể có thể tiếp cận được: Là nhóm đối tượng có thể cho phép tiếp cận tìrong quá ữình nghiên cứu và lựa chọn mẫu.
Với ví dụ trêrii chúng ta không thể tiếp cận được tất cà Gác hộ do việc phân bố rộng, do vậy chỉ những hộ ờ khu vực nghiên cứu mới cho phép ta có thể tiếp cận được. Đây là nhóm tổng thể có thề tiếp cận được.
- Tổng điều tra: Là một cuộc điều tra nhằm thu thập thông tin về mỗi thành viên của tổng thể, do vậy, nó được tiến hành điều fra với tất cả số thành viên có ừong tổng thể của nghiên cứu.
Ví dụ: Cuộc điều tra tổng thể nông nghiệp, nông thôn năm 1994 hay 2006 của Tổng cục Thống kê là tổng điều tra.
- Khung chọn mẫu: Là danh sách những người (từ tổng thể tiếp cận được) để từ đó ta có thể chọn mẫu để điều tra. Danh sách này nên thể hiện toàn diện, hoàn chỉnh và được cập nhật.
26
Ví dụ: Danh sách Đăng ký cử tri, danh sách địa chỉ theo mâ bưu điện, niên giám điện thoại, tổng điều tra công nghiệp, tổng điều tra dân số v.v...
Khung để chọn mẫu là danh sách các đom vị ttong tổng thể (hoặc vạn vật) trong đó một số đom vị này sẽ được chọn để điều tra. Đó có ứiể là một danh sách thực, một bộ thẻ chỉ số, một bàn đồ hoặc dữ liệu lưu trữ trong máy tính. Khung là một tập hợp các tài liệu thực (số liệu tổng điều ừa, các bản đồ, các danh sách, các thư mục, các bản ghi) cho phép chúng ta nam được vạn vật dần dần.
Những vấn đề tiềm tàng với khung chọn mẫu bao gồm; Khung chọn mẫu có thể không chính xác, không đầy đủ hoặc có sự nhân đôi. Do vậy, chúng ta cần phải có chiến lược thay thế ngẫu nhiên trong tầng.
- Mau: Là một phần danh sách hay nhóm các thành viên đại diện của một tổng thể có được tìr các phương pháp lựa chọn khác nhau cho việc thu thập thông tin nghiên cứu.
Ví dụ: Cuộc điều tra thứ nhất;
Mục tiêu: Đánh giá thái độ của các bậc cha mẹ liên quan đến chương trình giới thiệu dinh dưỡng cho học sinh cấp II.
Tổng thể: Là toàn thể các bậc cha mẹ có con đang học cấp II tại địa bàn nghiên cứu.
Mầu: 200 trong tổng số 500 bậc cha mẹ tại xã (lựa chọn ngẫu nhiên).
27
Cuộc điều tra thứ hai:
Mục tiêu chung: So sánh thói quen đọc sách của các sinh viên một trường đại học.
Tổng thể nghiên cứu: Toàn bộ sinh viên trong truờng.
Mầu: Lựa chọn ngẫu nhiên 300 sinh viên của trường đến mượn sách tại thư viện.
Như vậy, trong cuộc điều tra thứ nhất, 200 bậc cha mẹ sẽ là mẫu điều tra và câu trả lời của họ sẽ mang tíiủi chất đại diện cho toàn bộ các bậc cha mẹ có con đang theo học ừường cấp II của khu vực nghiên cứu. Còn trong cuộc điều tta ứiứ hai, câu trả lời của 300 sinh viên sẽ được xem như là đại diện cho tổng thể sinh viên của trường nếu như việc chọn mẫu của
chúng ta là ngẫu nhiên.
Mẩu ừong điều ừa chọn mẫu hết sức quan ừọng vì frong quá ừình nghiên cứu chúng ta không có điều kiện để ứiu thập thông tin tìr toàn bộ tổng thể, do vậy, chúng ta phải thu thâp đươc số liêu ựr những người càng mang tinh đai diên cho nhóm mà chủng ta đang nghiên cửu càng tốt. Thậm chí vói một bảng hỏi hoàn hảo (nếu như nó tồn tại), số liệu điều tra của chúng ta sẽ chỉ được coi là có ích nếu người được điều fra đại diện cho toàn bộ tổng thể nghiên cứu của chúng ta.
Một mẫu tốt là một thực thể thu nhỏ của tổng thể, hoàn toàn giống như tổng thể chỉ khác là nhỏ hơn. Một mẫu tốt nhất phải mang tính đại diện cho tổng thể về các đặc trưng quan trọng nhất của tổng thể đó.
28
Một ví dụ về chọn mẫu không tốt, đó là nếu chúng ta tiến hành một cuộc thăm dò về điều kiện chăm sóc sức khoẻ cho người dân mà lại chỉ tiến hành trên điện thoại, tức là khung chọn mẫu của ta là danh mục điện thoại, thì có nghĩa là chúng ta đã loại bỏ một phần lớn đối tượng người nghèo vì họ không có điện thoại hoặc khu vực vùng sâu, vùng xa nơi điện thoại chưa đến được với họ. Như vậy, kết quả của cuộc điều tra chưa thể phản ánh hết được thực trạng của công tác chăm sóc sức khoẻ người dân như chúng ta đã đặt ra trong mục tiêu ban đầu.
Ai là đối tưọng nghiên cúu của anh?
Những ai anh có úiể tiếp cận được?
Làm thế nào để anh có Ihể ti^ cận đuợc vói họ?
Ai ttiam gia vào n ^ ê n cứu của anh?
Tổng ữiể Ịý ttiuyết
; Tồng thế có ttié tiếp cận dược
Khung chọn mẫu
Mâu dược chọn
Hình 1.3: TổNGTHỂVÀMẪU
Một câu hỏi đặt ra ở đây là tại sao ta lại phải chọn mẫu? Sao ta không điều tra toàn bộ tổng thể nghiên cứu? Câu trả lời là:
29
Chọn mẫu điều tra giúp chúng ta thục hiện nhanh chóng hom là điều tra tổng thể, chọn mẫu điều tra cũng gii^ ta tiết kiệm được kinh phí cho các hoạt động khác như kiểm ừa độ chính xác và chất lượng của thông tin thu thập được. Ngoài ra, chọn mẫu điều tra giúp chúng ta tập tìoing vào những nghiên cứu cụ thể hơn.
Ví dụ: Khi chúng ta muốn so sánh giữa những cặp vợ chồng trẻ và già của một nhóm dân tộc nào đó chẳng hạn, thì việc lựa chọn mẫu phân tầng sẽ cho ta tập tmng vào vấn đề ta cần, do đó mà nó phù hợp hơn là việc điều ưa cả tổng thể mẫu.
Khi tiến hành lựa chọn mẫu điều tra chúng ta cần phải đảm bảo rằng đó là một đại diện của tổng thể. Chúng ta biết không có một mẫu điều tra nào là hoàn hảo, vì nó luôn chứa đựng một sai số hay thành kiến nào đó. Danh mục các tiêu chi sau có thể được sử dụng để đảm bảo mẫu đặc trưng cho tổng thể và mức độ đại diện của mẫu.
Bản thân mẫu nghiên cứu hoàn toàn không có ý nghĩa gì, điều quan trọng của chúng là độ chính xác cho tổng tìiể mà chúng đại diện hay tấm gương của nhóm mục tiêu nghiên cứu.
1.2.1.1. Danh mục các tiêu chí cho việc đảm bào một mẫu có tính đại diện cho tống thể:
(1) Mục tiêu điều tra phải rõ ràng
Đây là lý do cho việc triển khai điều tra. Cuộc điều tra được tiến hành nhàm mô tả, so sánh hay tìm hiểu thái độ v.v... Một công ty có thể tiến hành điều tra người lao động ừong 30
công ty của mình hay một trường học có ứiể điều tra những học sinh đang theo học để tìm hiểu những gì diễn ra frong hiện thực và quá khứ nhàm cải tiến kỹ thuật hay xây dựng những môn học mới cho tương iai.
Có tíiể xem xét lại ví dụ lần trước khi đánh giá thái độ của các bậc cha mẹ liên quan đến chương trình dinh dưỡng.
Mục tiêu chung: Đánh giá thái độ cùa các bậc cha mẹ liên quan đến chương trình giới thiệu ăn kiêng và dinh dưỡng cho học sinh cấp II.
Mục tiêu cụ thề: Nhằm mô tả và so sánh thái độ của các bậc cha mẹ ờ các độ tuổi khác nhau, nhóm dân tộc khác nhau và với những hiểu biết khác nhau về kiến thức dinh dưỡng tới 3 mức dinh dưỡng được giới thiệu.
Câu hỏi nghiên cứu;
1. Các bậc cha mẹ sẽ có thái độ như thế nào khi được giới thiệu 3 mức dinh dưỡng cho con em họ?
2. Thái độ của các bậc cha mẹ ở những nhóm dân tộc khác nhau như thế nào khi tham gia chương trình này?
3. Liệu những bậc cha, mẹ có am hiểu về kiến thức dinh dưỡng sẽ có thái độ khác với những người khác?
Mục tiêu điều ữa sẽ là hướng dẫn cho việc triển khai các câu hỏi cụ thể của điều ứa, hoặc các mục thông tin cần thu thập frong cuộc điều ữa eũng như việc lựa chọn tổng thể và mẫu điều tra.
31
(2) Chỉ tiêu được lựa chọn phải rõ ràng và xác định được
Một chỉ tiêu cho việc xác định đặc điểm của ngưcri được lựa chọn cho cuộc điều tra là người đó có khả năng tham gia. Bên cạnh đó có chỉ tiêu để xác định những đối tượng sẽ không tham gia vào cuộc điều fra. Việc ứng dụng 2 chỉ tiêu này cho phép xác định rõ ràng đối tượng có thể lựa chọn làm mẫu để điều tra. Nếu một ai đó hay một nhóm nào đó không phù hợp với các chỉ tiêu để lựa chọn vào mẫu thì người đó-và nhóm đó sẽ không nằm ữong mẫu nghiên cứu.
Ví dụ: Câu hỏi nghiên cứu là tác động của cụm từ QUITNOW (dừng lại) trong việc giúp đỡ người hút thuốc lá có thẻ bỏ thuốc lá?
Tổng thể: Những người hút thuốc.
Các chỉ tiêu lựa chọn:
- Có tuổi nằm giữa 18 và 64.
- Hút hơn 1 điếu thuốc lá mỗi ngày.
- Có nhiều vết đen trong phổi khi chụp phim.
Chỉ tiêu loại trừ: Nếu người đó thuộc nhóm cấm chỉ định cho việc sử dụng các chất nicotin.
Kết quả: Cuộc điều tra chỉ tiến hành đối với những người đủ tư cách. Nếu những ai có tuổi ít hơn 18 và nhiều hơn 64 sẽ không được lựa chọn làm mẫu điều tra. Mặc dù, tổng thể nghiên cứu là những người hút thuốc lá, song chỉ tiêu lựa chọn và chỉ tiêu loại trừ sẽ giúp xác định rõ hơn nhóm nghiên cứu “ai là người hút thuốc lá".
32
Việc ứng dụng các chi tiêu trên giúp chúng ta xác định rõ ràng ranh giới cho những người được phỏng vấn ai là phù hợp và có đủ tư cách tíiam gia vào mẫu đại diện cho tổng thể nghiên cứu.
(3) Lựa chọn phương pháp chọn mẫu khắt khe (chọn mẫu ngẫu nhiên)
Các phưomg pháp chọn mẫu được chia làm hai nhóm; chọn mẫu ngẫu nhiên và phi ngẫu nhiên.
Lựa chọn ngẫu nhiên cung cấp các thông tin tìiống kê về tính đại diện mẫu của tổng thể. Trong chọn mẫu ngẫu nhiên, mỗi một cá ứiể được xác định là có cùng xác suất lựa chọn làm mẫu điều tra.
Lựa chọn phi ngẫu lứiiên là sự lựa chọn mẫu phụ thuộc vào đặc tính của tổng thể và nhu cầu của điều ừa. Với cách thức này một vài cá thể của tổng thể có cơ hội cao hcm được lựa chọn làm mẫu điều tra, frong khi đó những cá thể khác lại không có cơ hội cao. Như vậy, khả năng ứng dụng những kết quả điều tra nhằm suy rộng cho cả tổng thể có thể không áp dụng được.
1.2.1.2. Các phương pháp chọn mẫu ngầu nhiên
Có nhiều cách lựa chọn mẫu thống kê ừ-ong điều ừa chọn mẫu, mỗi cách lựa chọn phụ thuộc vào điều kiện cụ thể về tính đại diện, độ tin cậy và đặc trưng cụ thê của tổng thể. về :ơ bản chúng ta có thể phân ra thành các loại mẫu thống kê ihư sau:
(1) Mầu ngẫu nhiên đơn giản.
33
(2) Chọn mẫu theo phân nhóm/tầng.
(3) Chọn mẫu cả nhóm.
(4) Chọn mẫu hai cấp.
(5) Chọn mẫu lặp lại.
c T ổn2 thè
o Cá thể
o M ẫu chọn diếu tra
Hình 1.4: CHỌN MẪU NGẪU NHIÉN
Mỗi cách chọn mẫu lại tiến hành khác nhau, nó tuỳ thuộc vào thực tế tính chất của tổng thể như đã đề cập. Nấu tổng thể là đồng nhất thì việc lựa chọn mẫu theo cách thứ nhất là đơn giản nhất và tính đại diện cao nhất.
34
Tuy nhiên, khi bên ữong tổng tíiể của chúng ta có sự khác biệt và phân chia thành nhiều nhóm có đặc trưng khác nhau thì phương pháp thứ nhất sẽ không đảm bảo cho ta có một mẫu mang tính đại diện nhất như ta mong muốn. Vì vậy, ừong tìirờng hợp này chúng ta cần phải thay đổi cách thức lựa chọn mẫu điều tra cho phù hợp. Lúc này các cách chọn mẫu thứ 2, 3 hoặc 4 sẽ phù họrp hơn, còn việc cụ ứiể để lựa chọn theo cách nào lại phụ ữiuộc vào nhiều yếu tố khác như điều kiện ứiời gian, kinh phí, v.v...
Ngoài ra, cách lựa chọn mẫu thứ 5 là khi chúng ta muốn nghiên cứu sâu hơn vào một vấn đề gì đó hay chúng ta muốn kiểm ữa lại thông tin sau khi có kết quả điều tra chúng ta có thể lựa chọn một nhóm nhỏ trong mẫu để tiến hành điều tra lại theo một số chỉ tiêu hẹp nào đó.
Mặc dù chúng ta cộ nhiều cách để lựa chọn mẫu điều ừa khác nhau nhưng vẫn phải bảo đảm nguyên tắc là ở bước cuối cùng trong phương pháp chọn mẫu phải chọn mẫu ngẫu nhiên, khi đó mẫu điều ưa mới mang tính đại diện cho tổng thể (tức là để có thể SUY DIỄN về tổng thể dựa ttên việc phân tích mẫu điều tra).
* Mầu ngẫu nhiên đơn giản: Được lựa chọn ừên cơ sờ nguyên tắc là xác suất lựa chọn mẫu là như nhau. Mau được lựa chọn theo phưomg pháp này đáp ứng cao về mặt thống kè và đặc biệt khả năng suy rộng kết quả là rất cao và áp dụng các công cụ toán học trong tính toán dễ dàng hơn.
Bước đầu tiên trong chọn mẫu ngẫu nhiên đơn giản là phải có danh sách của tổng thể để từ đó xác định được mẫu
35
hay nói cách khác chúng ta phải có khung chọn mâu. Nêu mẫu muốn đủ đại diện cho tổng tìiể tíiì khung chọn mâu phải chứa đựng tất cả hoặc gần hết tất cả các thành viên ừong tông tìiể. Trong chọn mẫu ngẫu nhiên đom giản tất cả các cá thê của tổng thể có cùng một cơ hội để lựa chọn. Các cá thê được lựa chọn cùng một tìiời gian và hoàn toàn độc lập với nhau. Khi một mẫu đã được lựa chọn sẽ không được phép đê ừong khung chọn mẫu nữa, hay nói một cách khác là nó không có cơ hội để lựa chọn lại. Chúih vì có cùng một cơ hội nên mẫu ngẫu nhiên được xem như là không có sự sai khác.
Một đặc điểm nổi bật của chọn mẫu ngẫu nhiên đơn giản đó là tì-ánh được sự sai lệch của mẫu, tuy nhiên điểm bất lợi là nhiều khi nó không tính toán hay bao hàm được những tíiành phần của tổng ứiể mà chúng ta đang quan tâm. Giả sử khi chúng ta muốn tìm hiểu về sự thoả mãn của các khách hàng và giả thiết chúng ta có kết quả của một nghiên cứu trước đây cho ràng những khách hàng già và trẻ thưÒTig là các nhóm khác nhau về mức độ ứioả măn của một dịch vụ nào đó. Nếu chúng ta áp dụng phương pháp chọn mẫu ngẫu nhiên đơn giản cho một nghiên cửu mới có thể chúng ta sẽ có mẫu trong đó số lưọng cá thể của nhóm khách hàng trẻ không đủ lớn để áp dụng các công cụ thống kê, trong trường hợp này chọn mẫu ngẫu nhiên đơn giàn không bao hàm được toàn bộ các thành phần của tổng thể.
Như vậy, nểu các thành phần của tổng thể đa dạng hay nói cách khác một tổng thể nào đó Ichông đồng nhất va vơi những mục đích nghiên cứu khác nhau do vậy mà phương pháp chọn mẫu ngẫu nhiên đơn giản chỉ phù hợp cho việc áp
36
dụng trong những tổng thể tưomg đối nhỏ khi đó tính đồng đều sẽ tăng lên bên ữong của tổng thể đó.
Mầu ngẫu nhiên đơn giản được lựa chọn một cách ngẫu nhiên tìr tổng thể. Có nhiều cách khác nhau, ví dụ có thể lựa chọn hoàn toàn ngẫu nhiên không theo một quy luật nào hoặc cũng có thể lựa chọn dựa trên danh sách và có khoảng cách cố định giữa các mẫu.
Việc lựa chọn này phải đảm bảo rằng nó không phụ thuộc vào ý chủ quan của người nghiên cứu.
Đặc điểm của chọn mẫu ngẫu nhiên đofn giản là; - Sử dụng cơ chế cơ hội để lựa chọn các quan sát. - Biết xác suất lựa chọn cho tìmg mẫu.
- Tất cả đều dựa trên khung chọn mẫu.
Có các cách để lấy một mẫu theo hình thức ngẫu nhiên đơn giản đó là:
(a) Hệ thống:
- Đánh số các đon vị trong tổng thể tìr 1 đến N quyết định số lượng n cá thể trong tổng thể (quy mô mẫu) mà chúng ta muốn hoặc cần.
- k = N/n = quy mô khoảng tin cậy lựa chọn ngẫu nhiên một số nguyên nằm giữa 1 và k, sau đó chọn các đơn vị đứng thứ k là mẫu cho thu thập thông tin.
(b) Số ngẫu nhiên:
- Ném đồng xu.
37
- Sử dụng công cụ Excel bằng công ứiức rand()
- Hay sử dụng các phần mềm tìiống kê khác như: Stata băng câu lệnh lựa chọn mẫu ngẫu nhiên đơn giản: gen randomnr=uniform()
Ví dụ: Chọn các hộ gia đình trong điều tra 3.700 hộ gia đinh cho dự án của MOLISA/UNDP về đánh giá chương trình xoá đói giảm nghèo.
Các cách này cũng được sử dụng trong các phương pháp chọn mẫu ngẫu nhiên được trình bày dưới đây như phân tầng và nhiều chặng (lặp lại).
(c) Chọn mẫu không tỷ lệ: chọn mẫu với xác suất lựa chọn một đơn vị tỷ lệ với quy mô (pps).
Ví dụ: Chọn các tỉnh và xâ trong cuộc điều tra 3.700 hộ gia đình cho dự án của MOLISA/UNDP về đánh giá chương trình xoá đói giảm nghèo HERP.
* Chọn mẫu theo phân tầng (cấp): Khi tổng thể có thể chia thành nhiều nhóm có đặc điểm tương đối đồng đều trong tìrng nhóm thì ta có thể sử dụng phưoTig pháp này. Trước hết chúng ta cần chia tổng thể theo các nhóm khác nhau ví dụ theo loại hình dân tộc, hay giới, sau đó trong mồi nhóm đó ta sẽ tiến hành lấy mẫu ồgẫu nhiên để điều tra.
Cơ sở thống kê cho việc phân tầng: Là dựa vào tính chính xác của bất kỳ một ước lượng nào đó có thể được cải thiện bàng cách lựa chọn một thiết kế thích hợp. Người điều tra
38
thường có hiểu biết về tổng ứiể đang nghiên cứu trước khi tiến hành điều tra và việc sử dụng những ứiông tin này có thể cải thiện tính hiệu quả của suy diễn thống kê về những đặc điểm chưa biết của tổng thể.
Thường phưomg pháp này hay được sử dụng khi trong tổng thể có sự khác biệt về tính chất của các lửióm.
Hai vấn đề tiềm tàng: (1) Biến phân tầng không được biết trước khi điều tra.
Ví dụ: ước lượng sản xuất công nghiệp trong ngành dệt/may. Phân tầng theo mức sản xuất hiện tại. Nhưng . mức sản xuất hiện íại không được biết. .Sử dụng đại diện: quy mô lao động trong quá khứ.
(2) Các quy mô cơ bản của tổng thể không được biết.
Ví dụ: Chỉ có danh sách của các doanh nghiệp với tên và địa chỉ, không có quy mô.
Chọn mẫu phân tầng phức tạp hơn rất nhiều so với chọn mẫu ngẫu nhiên đơn giản, các tầng phải được xác định, sắp xếp đều nhau và nếu như sử dụng nhiều tầng sẽ dẫn đến mẫu lớn, cồng kềnh và tốn kém cho điều tra.
* Chọn mau cả nhóm: Thường được sử dụng khi tổng thể có sự khác biệt về những đặc tnmg như địa; điểm, hay được phân bố thành những cụm có khoảng cách khác nhau xa về mặt địa lý, khi đó nếu chọn mẫu theo phương pháp ngẫu nhiên
39
đơn giản hay theo phân cấp sẽ dẫn đến tốn kém ứong điêu ừa trong khi kinh phí dành cho nghiên cứu không cho phép.
Để tiến hành chọn mẫu cả nhóm, trước hết chúng ta cần phân chia tổng thể mẫu ra thành nhiều nhóm khác nhau, sau đó ta tiến hành lựa chọn toàn bộ một số nhóm làm mẫu để điều tra.
Theo cách thức này có một điểm rất hạn chể là nếu như mỗi nhóm có số lượng lớn các cá thể thi sẽ dẫn đến việc tốn kém hơn cả về tài chính và thời gian để tiến hành điều tra thông tin.
Chú ý:
- Trong việc chọn mẫu cả nhóm chúng ta không cần danh sách các cá thể (doanh nghiệp/hộ gia đình) ở tắt cá các vùng, mà chỉ ở những vùng được chọn.
- Việc lựa chọn các vùng hoặc các doanh nghiệp/hộ gia đìnli có thể được thực hiện thông qua việc sử dụng bất kỳ một phương pháp chọn mẫu nào.
* Chọn mẫu hai cấp: Là dạng hay được ứng dụng nhất vì nó kết họp tính tối uu của cả 3 cách thức chọn mẫu đơn giản, phân cấp và chọn mẫu cả nhóm nêu trên, do vậy nó thường phù hợp nhất, đặc biệt trong điều kiện các nghiên cứu của ta với tổng thể có sự phức tạp như hiện nay.
Đe tiến hành chọn mẫu theo cách thức này trước hết tổng thê sẽ được phân chia ra thành nhiều cấp hay nhóm khác nhau, sau đó tiến hành lựa chọn một số nhóm đại diện cho đối 40
tượng nghiên cứu và để đảm bảo về mặt thời gian chúng ta tiến hành lựa chọn trong các nhóm đó một số cá thể đại diện bằng phương pháp lựa chọn mẫu ngẫu nhiên đơn giản như đã trình bày ở phần trước.
* Chọn mẫu lặp lại: Với cách thức chọn mẫu này, trước hết chúng ta tiến hành chọn mẫu ngẫu nhiên đơn giản lần 1, sau đó từ những mẫu đã được lựa chọn đó chúng ta lại tiến hành lựa chọn một số lưọng nhỏ (tuỳ theo yêu cầu của công việc) các mẫu một cách cũng hoàn toàn ngẫu nhiên để phục vụ cho mục tiêu nhất định trong nghiên cứu như: kiểm tra lại thông tin hay bổ sung thêm thông tin v.v...
Bảng 1.1: NHỮNG THUẬN LỢI KHÓ KHĂN, ưu NHƯỢC ĐIỂM
CẢC PHƯƠNG PHÂP CHỌN MẪU ĐIỀU TRA
Ngầu
nhiên
đơn giản
Chọn
mẫu
phân cấp
Chọn
mẫu
cả nhóm
Dễ làm, tính khách quan cao. Nhanh dễ làm, trình độ cán bộ đòi hỏi không cao.
Dễ làm, phù hợp với mục tiêu điều tra, thời gian nhanh hơn. Độ chính xác cao, chọn đối tượng theo mục đích điéu tra. Tính đại diện cao hơn.
Độ chính xác cao.
Tính đại diện cao, áp dụng cho tổng thể mẫu lớn.
Số lượng mẫu nhỏ.
Không áp dụng được cho tất cả các trường hợp khi không có tính đồng đếu trong tổng
thể, chỉ sử dụng cho những mẫu nhỏ.
Có thể bị trùng lặp.
Phải xác định được tiêu chí phân nhóm trước khi điều tra. Chi phí cao hơn.
Tốn nhiều thời gian và chi phí. Có thể ảnh hưởng đến kết quả điéu tra do đặc thù của các nhóm được chọn.
41
(Tiếp theo)
Chọn mẫu 2 cấp
Chọn mẫu lặp lại
Dễ làm, tốn ft thời gian và chi phí, độ chính xác cao hơn các phương pháp ừên, áp dụng cho các tổng thể mẫu lớn, chia nhỏ tfieo từng cấp.
Tổng hợp ưu điểm của 2 phương pháp ừên.
Dễ so sánh kết quả điéu ừa. Tiêu tốn ít thời gian do có sẵn khung chọn mẫu.
Có độ chính xác cao, tránh được sai sót của điéu tra trước. Dùng để kiểm chứng kết quả các cuộc điéu tra lớn.
Tổng thể phải lớn.
Điều tra vièn phải có ừình độ cao.
Tốn nhiéu ữiời gian.
Tốn chi phí.
Dễ bị trùng lặp.
Phải có kết quả của cuộc điéu ừa trước do vậy bị phụ thuộc. Đỏi hỏi trình độ cao.
Có công cụ đủ mạnh.
Tính đại diện không cao.
1.2.2. Chọn mẫu phi thống kê trong điều ừ-a chọn mẫu
Ngoài cách chọn mẫu thống kê như đã ừinh bày phần trước chúng ta cũng có ứiể lựa chọn mẫu phi ứiống kê tìieo các cách như sau:
- Chọn mẫu tiện lợi:
Chọn mầu tiện lợi được sử dụng khi chúng ta đơn giản chỉ chặn đường một ai đó trên phố mà họ đang định dừng lại, hoặc khi chúng ta đi quanh một doanh nghiệp, một cừa hàng, một quán ăn, một rạp hát v.v... hỏi những người mà chúng ta gặp xem liệu họ sẽ trả lời câu hỏi của chúng ta hay không. Nói một cách khác, mẫu bao gồm những chủ thể mà nhà nghiên
42
cứu có thể tiếp cận một cách thuận lợi. Không có sự lựa chọn ngẫu nhiên và khả năng chệch là lớn.
- Chọn mẫu theo quota:
Chọn mẫu theo quota thường được sử dụng trong nghiên cứu thị trường. Những người đi phỏng vấn phải tìm kiém những frường hợp có những đặc tính nhất định. Họ được nhận quota của những nhóm người nhất định để phỏng vấn và quota được tổ chức theo cách làm cho mẫu cuối cùng đại diện cho tổng thể.
Nhươc điểm của chon mẫu theo quota: Người phỏng vấn lựa chọn ai mà họ thích (trong phạm vi tiêu chí như trên) và do vậy có thể lựa chọn những người dễ phỏng vấn nhất và vì thế có thể gây ra chệch mẫu. Ngoài ra, không thể ước lượng được tính chính xác (do mẫu không ngẫu nhiên).
- Chọn mẫu có mục đích:
Mầu có mục đích là mẫu được nhà nghiên cửu chọn một cách chủ quan. Nhà nghiên cửu cố gắng chọn mẫu mà theo họ là mang tính đại diện cho tổng thể và sẽ cố gắng đảm bảo rằng mẫu bao gồm tất cả các khía cạnh của tổng thể nghiên cứu.
- Mạng lưới hoặc "ném tuyết”:
Với cách tiếp cận này, đầu tiên chúng ta liên hệ với một vài người trả lời tiềm năng và sau đó hỏi xem liệu họ có biêt ai đó có cùng đặc tính mà chúng ta đang muốn nghiên cứu hay không.
43
- Tự lựa chọn:
Có lẽ bản thân cụm tìr “tự lựa chọn” đã tự nói lên ý nghĩa của nó. Bản thân người được hỏi sẽ tự quyết định xem họ có thích tham gia vào cuộc điều fra hay không và nêu họ không muốn tham gia chúng ta sẽ phải chuyển sang đôi tượng khác để hỏi.
- Chọn mẫu chuyên gia:
Chọn mẫu chuyên gia liên quan đến chọn một mẫu bao gồm những người đã được biết là có kinh nghiệm và chuyên môn trong một lĩnh vực nào đó. Thường chúng ta ứiu xếp một mẫu như vậy dưới danh nghĩa là “một nhóm chuyên gia”.
Việc tiến hành chọn mẫu phi thống kê tuỳ thuộc vào mục tiêu, đối tượng và yêu cầu của nghiên cứu. Phương pháp này thường được áp dụng trong những điều kiện chúng ta không có khung chọn mẫu cụ thể, chẳng hạn như frong các nghiên cứu thị trường chúng ta không có danh sách khách hàng mua một loại hàng hoá nào đó thì chúng ta buộc phải sử dụng phương pháp chọn mẫu phi thống kê. Phương pháp này cũng có thể áp dụng khi tổng thể của chúng ta có tính đồng nhất cao (mà điều này thường khó diễn ra đối với các vấn đề kinh tế - xã hội), hay trong trường hợp nghiên cứu của chúng ta không cần phải ngoại suy cho tổng thể.
Do vậy, ta có thể thấy điểm hạn chế của phưong pháp chọn mẫu phi thống kê là khả năng áp dụng các công cụ thống kê và khả năng suy rộng của kết quả bị hạn chế.
44
- Nhóm quan tâm:
Phương pháp này thưòmg hay được dùng ứong nghiên cứu thị trường nhằm tìm hiểu những mặt hàng cụ thể mà xã hội cần và sẽ tiêu dùng. Để nghiên cứu chúng ta thường điều tra 10-20 người cùng mua một mặt hàng nào đó để đại diện cho nhóm những người có cùng sở thích hoặc nhóm khách hàng tiềm năng.
Ví dụ: Khi điều tra về nhỏm bệnh nhân bị bệnh tiểu đường. 12 bệnh nhân được mời tham dự với những câu hỏi như sau: liệu phiếu điều tra đã bao hàm toàn bộ những câu hỏi cần thiết? Các anh (chị) CXD thể theo dõi và trả lời một cách dễ dàng các câu hỏi? Mất bao nhiêu 'thời gian để hoàn chỉnh một phiếu điều tra như vậy? Kết quả của cuộc thảo luận nhóm sẽ giúp ta chỉnh sửa lại phiếu điều tra để tiến hành một cuộc điều tra với quy mô lớn đối với các bệnh nhân tiểu đường.
Phưong pháp nhóm quan tâm có kết quả tưong đối chính xác vì frong trường hợp nếu nhóm tham gia có mức độ khác biệt lớn với tổng thể, chẳng hạn những người có trình độ cao trong một tổng thể có trình độ ở mức trung bình, thì câu trả lời của họ có thể không ứng dụng được cho tổng thể đó.
Tóm lại, với mỗi phương pháp, cách thức chọn mẫu khác nhau đều có những lợi ích và chứa đựng những vấn đề khác nhau như trình bày tại bảng 1.2 dưới đây:
45
Bảng 1.2: LỢI ÍCH VÀ NHỮNG VẤN ĐỀ ĐẶT RA ĐỐI VỚI MỖI MỘT PHƯƠNG PHÁP ĐIỀU TRA Được LựA CHỌN
Phương pháp
cbọn mẫuLợi ích Vấn đề Chọn mẫu ngẫu nhiên
Chọn mẫu ngẫu nhiên đơn giản (tất cả các cá thể đều có cùng cơ hội được lựa chọn).
Chọn mẫu theo phân tầng (cấp)
Tổng thể nghiên cứu được nhóm lại theo các nhóm khác nhau với những chỉ tiêu có ý nghĩa cho nghiên cứu.
Chọn mau cà nhóm Tổng thể nghiên cứu có nhiều nhóm khác nhau (về mặt địa lý). Việc lựa chọn sẽ được tiến hành với một số nhóm nhất định.
Tiến hành tương đối đơn g iả n .
Có thể tiến hành phân tích theo từng nhóm (VD; theo giới, tuổi, khu vực v.v...)
Mức độ biến động thấp hơn so với cách chọn mẫu ngẫu nhiên giản đom.
Mầu có tính chất đại diện hơn cho tồng thể.
Thuận lợi trong trường hơp xa nhau về măt đia lý
Thành viên của các nhóm cá thể khác nhau frong tổng ứiể có thể không xuất hiện ữong mẫu với một tỷ lệ phù hợp.
Phải tính toán số lượng mẫu cho mỗi nhóm.
Có thể phải tiêu tốn hơn về mặt thời gian và kinh phí cho việc tiến hành chuẩn bị điều ừa.
Nếu như mỗi nhóm có số lượng lớn thì tốn kém hom cả về tài chính và thời gian để tiến hành điều tra thông tin.
Chọn mẫu hai cắp Phù hợp nhất trong điều kiện xã hội có sự
phúc tạp, phân chia
theo nhiều nhóm (có
những đặc trưng riêng).
46
(Tiếp theo)
Phương pháp
chon mẫu Lợi ích Vấn đề Chọn mẫu ngẫu nhiên
Chọn mẫu lặp lại Phù hợp trong trường hợp cần kiểm ữa độ
chính xác công tác điều
tra, hay thu thập thêm
những thông tin cụ thể
khác cho nghiên cứu.
Chọn mẫu phi ngẫu nhiên
Chọn mẫu tiện lợi Một phương pháp mang tính thực tế bời
vì việc lựa chọn mẫu
luôn có sẵn (VD: một
sinh viên ứong tniòmg,
một bệnh nhân đang
trong phòng chờ khám
bệnh).
Tốn kém thời gian và kinh phí.
Bời vì mẫu là một cơ hội và tình nguyện do vậy mà nó đôi khi không giống như những cá thể khác trong tổng thể nghiên cứu.
Chọn mẫu theo quota (Tổng thể được chia thành tìmg nhóm nhò theo các chi tiêu khác nhau như giới, tuổi, v.v...
Mầu sẽ được lựa chọn theo những tỳ lệ nhất định cùa các nhóm trong tổng thể).
Có thể hiện thực nếu như phần số liệu có sẵn mô tả tỷ lệ của các nhóm.
Các số liệu đã có phải luôn được cập nhật để có tỳ lệ chính xác.
47
(Tiếp theo)
Phương pháp
chon mẫu
Chọn mẫu phi ngẫu nhiên
Lợi ích V ấn đề
Mạng lưới hoặc ‘ném tuyết ”
Những người trả lời trước sẽ chi định những người tiếp theo trong tổng thể.
Thích hợp ữong điều kiện không có khung chọn mẫu.
Việc lựa chọn này có thể dẫn đến những sai sót chọn mẫu.
Không thể kiểm tra đuợc ai là người sẽ đuợc tham gia.
Tự lựa chọn Phù hợp với các nghiên cứu thuộc dạng thị
tniờng, hay đối với
những nhóm khó tiếp
cận.
Chọn mâu chuyên gia Phù hợp cho các nghiên cứu chuyên sâu
hay việc tham khảo
kinh nghiệm cho những
van đề lý luận nhà
nghiên cứu đưa ra.
Nhóm quan tâm Phù hợp trong việc định hướng cho việc
phát triển điều tra.
Có thể chứa đựng những sai sót chọn mẫu và tính đại diện.
Phải là những nhóm tương đối nhò nhưng mang tính đại diện cho cả tổng thể lớn hơn.
1.3. Quy mô mẫu trong điều tra chọn mẫu
1.3.1. Phân phổi mẫu
Chúng ta đi tìr thống kê mẫu đến ước lượng tham số tổng thê như thê nào? Một khái niệm trung gian quan trọng mà chúng ta cần phải hiểu là phãn phối mầu.
48
Phân phối của một số vô hạn các mẫu có cùng quy mô như mẫu trong nghiên cứu của chúng ta được gọi là phân phổi mau.
Trung bình
Phân bố cùa mẫu...
Trung bình tề
Trung bình
.. .là phân bố thống ké của một sổ luọng không hạn chế mẫu.
Hình 1.5: PHẢN PHỐI MẪU
Tư tưởng chính của thống kê suy rộng là lấy mẫu tìr một tổng thể và sau đó sử dụng kết quả phân tích các thông tin tìr mẫu này để suy rộng ra cho tổng thể nghiên cứu. Ví dụ, giá ữị bình quân (giá trị trung tâm), độ lệch chuẩn (mức độ dao động hay biến động), hoặc là tỷ lệ của một số quan sát/tổng thể về một đặc trưng nào đó. Việc lấy mẫu nghiên cứu sẽ giúp chúng ta tiết kiệm kinh phí, thời gian và cả những công sức phải bỏ ra. Hơn thế nữa, lấy mẫu đôi khi cung cấp các thông tin chính xác cho nghiên cứu hơn là câu trả lời của việc chúng ta cố
49
gắng điều tra cả tổng thể (sai số phi chọn mẫu), nghiên cứu cẩn thận một mẫu còn hơn là làm không cẩn thận với cả tổng thể.
Chúng ta sẽ xem xét tỉ mỉ những đặc điểm của mẫu từ các tổng thể khác nhau. Bởi vì mẫu là một nhóm đổi tượng của một tổng thể, giá trị trung bình của mẫu không hoàn toàn chính xác như là của tổng thể. Vì vậy, một điều quan ừọng cần phải xem xét đó là mức độ phù hợp của những ước lượng tò mẫu như giá trị bình quân so với tổng tìliể.
Thông thường trong thực tế, một mẫu rất nhỏ (5-10 quan sát) được lấy ra để kiểm ừa cơ chế thu thập thông tm và tìr đó thu được thông tin ban đầu cho việc chọn mẫu. Tuy nhiên phục vụ cho việc xác định mức độ phù hợp, chấp nhận được giữa ước lượng của mẫu so với tổng thể chúng ta cần phải xem xét với khoảng 10, 50 hoặc 100 mẫu riêng biệt khác nhau lấy ra tìr tổng thể. Liệu sự phù hợp sẽ như thế nào nếu giữa các mẫu nghiên cứu khác nhau? Nếu chúng ta phát hiện ràng kết quả giữa các mẫu gần như giống nhau (và gần chính xác!), vậy chúng ta tin cậy vào một nghiên cứu độc lập hay không? Mặt khác, xem xét kết quả tìr các nghiên cứu lặp lại cho một số tiêu chí nào đó cần có độ tin cậy cao hơn, đòi hỏi phải có một mẫu khác với cỡ mẫu lớn hom.
Một phân phối mẫu được sử dụng để mô tả sự phân bố của những kết quả đầu ra, mà một nghiên cứu có thể thu được tìr các mẫu tưorng tự của một tổng thể. Lưu ý rằng một giá trị bình quân ước lượng từ một mẫu có thể khác với một mẫu khác.
50
cần phải hiểu rằng mỗi nghiên cứu thống kê khác nhau có một phân phối mẫu khác nhau, nó phụ thuộc vào những thông tin cụ thể, cỡ mẫu và phân phối của tổng thể. Và chúng ta cần phải lưu ý mối quan hệ giữa cỡ mẫu và phân phối của ước lượng của mẫu. Vi thế, mức độ biến động của phâsi phối mẫu có thể được thu hẹp lại bằng cách tăng số lượng quan sát của mẫu. Lưu ý khi cỡ mẫu lớn, nhiều phân phối mẫu sẽ tiệm cận với phân phối chuẩn.
Những moment chính của phân phối mẫu:
Moment bậc 1: trung bình của phân phối mẫu - trung binh của các trung bình của một số vô hạn các mẫu - rất gần với trung bình tổng thể - tham số cần quan tâm.
Moment bậc 2: độ lệch chuẩn của phân phối mẫu cho chúng ta biết các mẫu khác nhau có phân phối như thế nào. Trong thống kê, nồ được gọi là sai số chuẩn.
^2
V (estimate) = — *
. N )(1)
n1 - ^
Trong đó; n và N - lần lượt là quy mô của mẫu và tổng thể, - phương sai của biến.
Nếu mẫu nhỏ, điều chỉnh tổng thể hữu hạn gần bằng 1. Khi đó, phương sai của các đại lượng ước lượng phụ thuộc vào: (i) số lượng quan sát (n) và (ii) biến thiên của biến s^.
Hàm ý của (1) đối với điều tra tổng thể rất lớn trong đó quy mô mẫu ít hơn 10% của tổng thể: (1) thưÒTig bị bỏ qua.
51
1.3.2. Sai sổ chọn mẫu và p h i chọn mẫu
Một mẫu tốt là một mô hình nhỏ có tính đại diện đầy đủ cho tổng thể. Tuy nhiên, sai số hay sai lầm chọn mẫu là những điều khó ừánh khỏi ừong bất kỳ một cuộc điều tra chọn mẫu nào.
Giả sử chúng ta muốn làm một nghiên cứu về nhu cầu chăm sóc sức khoẻ tinh thần cho những đứa frẻ vô gia cư. Một vấn đề mà chúng ta cần phải đề cập đến là qua thời gian cần thiết cho cuộc điều fra, nhu cầu có thể sẽ thay đổi bởi vì thực tế lịch sử. Một chính sách sức khoẻ mới có thể ra đời frong thời gian diễn ra cuộc điều tra của chúng ta. Những điều này sẽ dẫn đến những sai sót hay sai lầm khi chọn mẫu và điều fra chọn mẫu. Do vậy, nó đòi hỏi chúng ta phải tính toán đến tất cả những tình huống xảy ra và phải thực sự am hiểu thực tế, lịch sử, các vấn đề xã hội, môi trường đã, đang diễn ra và cả yếu tố thời gian nữa trong bất kỳ một cuộc điều fra nào.
Trong chọn mẫu, sai số chuẩn được gọi là sai sổ chọn mẫu. Sai số chọn mẫu cho ta biết độ chính xác của ước lượng thống kê mà chúng ta tính toán ra được tìr mẫu điều tra hay nói cách khác đó là sai số do việc chọn mẫu (vẩn để này xuất hiện khi một phần của tổng thể được sử dụng để đại diện cho toàn bộ tổng thể và nó có thể đo lưÒTig được về mặt toán học).
Tính chính xác nói chung của ước lượng của chúng ta còn phụ thuộc vào sai số phi chọn mẫu mà nó có thể xảy ra ở bất kỳ chặng nào của cuộc điều tra.
52
Hình 1.6: Đố THỊ SAI số CHỌN MẪU VÀ PHI CHỌN MẪU
Các sai số chọn mẫu chủ yếu do quá trình chọn mẫu, hang hạn như việc áp dụng các phương pháp chọn mẫu phi gẫu nhiên. Sai số chọn mẫu là nguy hiểm vì nó có thể làm ỏng tính tin cậy của cuộc điều tra.
Cách tốt nhất để ừánh những sai lầm chọn mẫu là sử dụng ác phưong pháp chọn mẫu ngẫu nhiên. Trong những trường ợp không thể, chúng ta phải lựa chọn mẫu phi ngẫu nhiên 'ong những tổng thể ít có sự khác biệt xác suất giũa các cá lể hoặc tối thiểu là đối với các chỉ tiêu chính của nghiên cứu. >ể xác định được những nhóm trong tổng thể ít có sự khác iệt về những thông tin của các chỉ tiêu chính này chúng ta có
53
thể thu thập được thông qua những nghiên cứu trước đây hoặc qua số liệu thống kê.
Ví dụ: Giả sử chúng ta đang nghiên cứu về nhóm phụ nữ QỘ thu nhập thấp, tham gia một dự án tăng cường sử dụng dịch vụ chăm sóc sức khoẻ trước khi sinh. Nếu không có sự so sánh số liệu chúng ta không ữiể biết được mức độ sai số của mẫu, mặc dù chúng ta luôn biết là nó tồn tại. Nếu mức độ sử dụng dịch vụ tăng lên chúng ta khồng thể khẳng định được đó là do tác động của chương trình. Người phụ nữ ữiam gia chương trình có thẻ được thúc đẩy tìm kiếm sự chăm sóc hơn so với những người không tham gia. Những ttiông tin so sánh cằn thiết có thẻ có sẵn trong những ấn phẩm in ấn ừước đây. Với cách này, chúng ta có thể có những thông tin cơ bản giống tương tự đẻ xác ^nh những nhóm Iđiác nhau cho việc lựa chọn mẫu.
Các loại sai lầm phi chọn mẫu thưòmg gặp bao gồm: Sai lầm không quan sát được, nó có nghĩa hoặc là:
- Không bao hàm: tức là có thể không bao hàm một số đơn vị, hoặc một số nhóm của tổng thể điều tra đã xác định trong khung cơ sở chọn mẫu được sử dụng ừong thực tế.
- Không ừả lòd: nghĩa là người được phỏng vấn không cung cấp thông tin và như vậy chúng ta không thu thập được thông tin cần thiết tìr một số người được chọn trong mẫu điều tra của chúng ta (thiếu thông tin ngẫu nhiên, thiếu thông tin không ngẫu nhiên và vấn đề chệch mẫu).
54
Sai lầm quan sát được bao gồm:
- Sai lầm ứiực địa do các nhân tố bối cành, tâm lý và hành vi gây ra, nó chủ yếu phụ thuộc vào người làm nghiên cứu do lửiững suy nghĩ chủ quan của mình chi phối kết quả điều fra.
- Sai lầm văn phòng, sai lầm ừong việc biên tập, mã hoá, lập bảng và phân tích số liệu.
v ề mặt LÝ THUYẾT chúng ta luôn đặt ra yêu cầu là lựa chọn quy mô mẫu sao cho ước lượng tính toán ra tìr mẫu đó có độ CHÍNH XÁC caio nhất song ừong THựC TẾ nó phụ thuộc rất nhiều vào yếu tố;
- Phương pháp luận được lựa chọn bởi vì nó quyết định: (1) Mức độ chứứi xác mà nghiên cứu yêu cầu (có thể chấp nhận sai số ở mức nào); (2) ở mức độ mà có sự biến thiên ứong tổng thể đối với những đặc điểm chính của nghiên cứu.
- Tỷ lệ trả lời có thể, bản ứiân nó sẽ phụ thuộc vào phưomg pháp chọn mẫu được sử dụng, nếu chúng ta áp dụng phương pháp chọn mẫu phù hợp để lựa chọn đối tượng đúng với yêu cầu của nghiên cứu thì chúng ta sẽ có tỷ lệ trả lòi cho các câu hỏi cao hơn và ngược lại.
- Thời gian và tiền bạc sẵn có.
- Nguồn nhân lực sẵn có như: nhóm giám sát, điều fra viên, dẫn đường v.v... vì đây là những tiềm ẩn của sai số phi chọn mẫu.
55
Tuy nhiên, trong thực tế chúng ta cũng không ít cáí khó khăn khác như trong các cuộc điều tra với mục tiêu đặt n không phải là một mục tiêu duy nhất mà là đa mục tiêu haj nói cách khác có nhiều ước lượng. Khi đó, chúng ta sẽ khó CC thể xác định được một quy mô tối ưu với những thiết kế mẫi phức tạp.
Thông thường thì các nhà nghiên cứu mong muốn có mộl quy mô mẫu nhỏ bởi vì nó có ưu điểm là có chi phí tìiấp, tốn ít thời gian hơn và khả năng có 1 sai số phi chọn mẫu thấp là khá lớn, song bên cạnh đó thì một nhược điểm lớn của số mẫu nhỏ đó là sai số mẫu lớn và vì vậy, số mẫu tối ưu là khi chúng ta chấp nhận mức sai số nhất định nào đó mà nó có tổng của sai số phi chọn mẫu và sai số chọn mẫu là nhỏ nhất.
Ví dụ: Mầu 150 doanh nghiệp, phân tầng theo ngành dệt, may và hình thức sờ hữu. Như vậy, sẽ chỉ có một vài doanh nghiệp trong mỗi nhóm và điều này dẫn đến rất khó kiểm định xem có khác biệt về mặt thống kê giữa các nhóm hay không.
Nghiên cứu tình huống: quy mô mẫu nhỏ có thể ảnh hưởng đến hoạch định chính sách như thế nào (Hình 1.7).
Dựa vào kết quả phân tích trong biểu đồ trên chúng ta sắp xêp thứ tự các tỉnh theo tỳ lệ nghèo đói và nhận thấy giữa các tỉnh xếp gần nhau, mặc dù có số liệu bình quân là khác nhau, song khi so sánh khoảng dao động của ước lượng tính toán được thì chủng ta thấy nó có thể cùng được xếp vào một nhóm, hay nói cách khác, ừong trường hợp này không có sự 56
khác biệt giữa các tỉnh gần nhau. Trong ví dụ này, nếu chúng ta muốn xem sự khác biệt chỉ trong trường hợp chúng ta lựa chọn các tỉnh ở hai đầu mút của đường đồ thị mà thôi.
uáchiọDg ' Vị nghèo đói
• ưóc hrợDg tỷ lệ nghèo đói các tinh
Tỉnh
- khoỉng dao đỘQg của ^ bị uóc tính
Hình 1.7: BlỂU ĐÓ GIẢ TRỊ ước LƯỢNG TỶ LỆ NGHÈO ĐÓI CỦA CÁC TỈNH QUA ĐIÉU TRA CHỌN MẪU
Tất cả các mẫu đều chứa đựng sai số. Mặc dù, mục tiêu của chúng ta là lựa chọn mẫu như là bản sao thu nhỏ của tổng thể, tuy nhiên nó luôn tồn tại một khoảng cách giữa mẫu và tổng thể.
Mục tiêu của chúng ta là làm sao để có ứiể có một mẫu mà sai số chọn mẫu là nhỏ nhất. Hay nói cách khác là ừong bất kỳ một bước nào của quá ừinh điều tra đều cần phải hạn chế tối đa sự sai sô.
57
Sai số chọn mẫu như chúng ta đã biết đó là sự khác biệt giữa giá trị tìiing bình của mẫu và giá ữị đúng của tổng thể và thống kê dùng cụm từ mô tả sai số chọn mẫu là sai số chuẩn của giá trị trung bìiứi (Standard eưor of the mean). Chúng ta cũng cần phân biệt sự khác nhau giữa 2 cụm từ độ lệch chuẩn (Standard deviation) và sai số chuẩn của giá ttị bình quân (Standard error of the mean) ở chỗ là độ lệch chiiẩn cho thấy sự biến động như tìiế nào giữa các giá trị cá biệt trong khi đó sai số chuẩn là độ lệch chuẩn của giá trị bình quân ữong phân phối mẫu nói lên ràng mức độ biến động có ứiể mong đợi giữa các giá trị trung bình trong các mẫu sẽ lấy trong tương lai.
Hình 1.8: PHÂN PHỐI MẪU CỦA GIÁ TRỊ TRUNG BỈNH
Khi giá trị của sai số chuẩn được tính toán, 68% của giá trị tning bình của một mẫu nào đó sẽ rơi vào khoảng của 1 lẩn sai số chuẩn của giá trị bình quân đích thực của tổng ứiể; 95% của giá trị trung bình của một mẫu nào đó sẽ rơi vào khoảng
58
của 2 lần sai số chuẩn của giá trị bình quân đích ứiực của tổng thể và 99% của giá trị trung bình của một mẫu nào đó sẽ rơi vào khoảng của 3 lần sai số chuẩn của giá tìị bình quân đích thực của tổng ữiể (hình 1.8)
Tính toán sai số chuẩn cho chọn mẫu ngẫu nhiên đơn giản:
Mặc dù, chúng ta đã biết về ứiuật ngữ sai số chuẩn cũng như hiểu về tính phức tạp của việc chọn mẫu. Tuy nhiên, chúng ta cũng cần phải hiểu về cả ứiuật ngữ và bàn chất.
Công thức tính toán sai số chuẩn (SE) dựa vào sự biến động (Variance) và cỡ của mẫu:
SE = ylVar/n
Trong đó:
SE là sai số chuẩn của giá trị bình quân.
Var là độ biến động (Variance - Tổng bình phưomg độ lệch chuẩn)
n là số lượng mẫu.
Giá trị bình quân được tính
X = Zx/n
Trong đó:
X là giá tìị bình quân.
X là giá trị của từng cá thể.
n là số mẫu.
59
Trong trường hợp tính toán cho các chỉ tiêu định tính chi nhận hai giá trị là 1 (có) và 0 (không), chẳng hạn khi hỏi 100 người thì có 20 người trả lời có hiểu sự khác biệt giữa độ lệch chuẩn và sai số chuẩn còn 80 người trả lời không hiểu về sự khác biệt đó. Khi đó Var của tỷ lệ được tứủi theo công thức p(l-p)-
Trong đỏ: p là tỷ lệ với câu trả lời là có (VD: 20%) và 1-p là tỷ lệ với câu trả lời là không (VD: 80%)
SE = V p (l-p )/n SE = V 0 ,2 *0 ,8 /1 0 0 = 0,04
Như vậy, nếu ta cộng và trừ tỷ lệ người trả lời có 0,2 với sai số chuẩn của giá trị bình quân 0,04 ta được 0,24 và 0,16. Ta có thể nói là xác suất là 68% (1 lần sai số chuẩn) chắc chắn ràng số liệu thực tế của tổng thể rơi trong khoảng 0,16 - 0,24.
1.3.3. Cỡ mẫu
Ý tưởng của việc chọn mẫu là để minh hoạ và đại diện cho một tổng thể nghiên cứu. Để đạt được điều này tức là nhàm tránh những sai sót chọn mẫu hoặc sai số phi chọn mẫu. Sai số phi chọn mẫu xuất hiện khi chúng ta xác định tổng thể nghiên cứu không chính xác hoặc do các yếu tố chủ quan khác trong quá trình tiến hành điều tra. Sai số chọn mẫu xuất hiện khi chúng ta xác định cỡ mẫu không đủ tính đại diện hoặc thiên lệch. Vì thế, việc chọn mẫu đại diện và đủ lớn là rất quan trọng để đảm bảo tránh những sai số đáng tiếc trong quá trình chọn mẫu. Có nhiều công thức khác nhau dùng để túúi toán cỡ mẫu, trong thực tế có nhiều tài liệu giới thiệu cho chúng ta những công cụ này.
60
Giả sử việc nghiên cứu của chúng ta về một khía cạnh sức khoẻ hay giáo dục nào đó mà chúng ta có phân chia ra các nhóm khác nhau để xem xét câu hỏi đặt ra là mỗi nhóm nên có bao nhiêu quan sát? Để trả lời cho câu hỏi này chúng ta sẽ phải trả lòd cho 5 câu hỏi khác đó là:
(1) Giả thiết của chúng ta là gì (Ho)?
Giả thiết của chúng ta là không có sự khác biệt giữa giá trị bình quân của hai nhóm.
Giả sử khi nghiên cứu một nhóm thanh niên, giả thiết của chúng ta là không có sự khác biệt giữa mục đích và khát vọng giữa nhóm thanh niên tham gia vào nghiên cứu và nhóm‘khồng tham gia.
(2) Mức độ ý nghĩa thống kê (mức a) liên quan đến giả thiết Ho bao hàm giá trị bình quân của tổng thể (jio) bằng bao nhiêu?
Lưu ý trong việc kiểm định giả thiết chúng ta thường hay dùng giá trị bình quân của tổng thể hơn là giá trị bình quân mẫu.
Mức độ ý nghĩa được gọi là giá trị a. Giá trị này cho biết xác suất của việc bác bỏ giả thiết Ho khi nó đúng trong thực tế. Thông thường, chúng ta hay lựa chọn với các mức a nhỏ 0,05; 0,01 hoặc 0,001 để tránh việc bác bỏ giả thiết Ho khi nó đúng trong thực tế (và như vậy không có sự khác biệt có ý nghĩa thống kê giữa hai nhóm). Giá trị p là xác suất trong đó một quan sát (hoặc kết quả của một kiểm định thống kê) có cơ
61
hội nhận được. Nó được tính toán sau khỉ kiểm định thống kê. Nếu giá trị p nhỏ hom a thì giả tìiiết Ho sẽ bị bác bỏ.
(3) Vậy cơ hội tìm được sự khác biệt tíiực sự sẽ như thế nào? Hay hỏi một cách khác (1-P) liên quan đến đối tìiiết nào?
Khi tìm thấy có sự khác biệt giữa hai nhóm với nhau nhưng trong thực tế không có sự khác biệt, khi đó được gọi là a hoặc kiểu sai số I; khi không có sự khác biệt được tìm ra giữa hai nhóm mặc dù trong thực tế có sự khác biệt giữa chúng, trường hợp này được gọi là p hoặc kiểu sai số n. Mối quan hệ này được thể hiện qua bảng sau:
Thực tế
Tồn tại sự khác biêt
Không tồn tại sư khác biêt
Kết luận từ kiểm địiưi
Tồn tại sự khác biệt
Đúng Kiểu I hay sai số a
giả thiết
Không tồn tại sự khác biêt
Kiểu II hay sai số p
Đúng
(4) Những sự khác biệt gì của các giá trị bình quân tìm được là quan ữọng? Ý nghĩa của |0.1 - |J,2 ?
Giả sử chúng ta có một nghiên cứu và chúng ta đưa ra 50 điểm tỷ lệ. Bước đầu tiên là chúng ta cần phải đồng ý một mức độ sự khác biệt giữa các giá trị bình quân cả trên hai góc độ thực tế và thống kê. Chúng ta có thể hỏi một nhà chuyên gia 5 điểm đó là sự khác biệt? hay 10 điểm? (sự khác biệt này 62
đôi khi liên quan đến “hiệu ứng” và cỡ của sự khác biệt là “mức độ hiệu ứng”).
(5) Như thế nào là một ước lượng không chệch về độ lệch chuẩn (ô) của tổng ửiể?
Độ lệch chuẩn là một đo lường của sự dao động của các giá tìị thực tế so với giá trị binh quân của mẫu. Hai cách chiuig để áp dụng độ lệch chuẩn: Thứ nhất, tối thiểu 75% của các giá trị thực tế luôn nằm ừong khoảng giữa giá trị bình quân và 2 lần giá trị độ lệch chuẩn (ờ mức 95%). Giả sử có 100 mẫu điều tra với giá trị bình quân là 25 và độ lệch chuẩn là 2, như vậy có tối thiểu 75 câu tì-ả lời có giá trị là 25 ± 4. Điều đó có nghĩa là giá trị thực tế của chúng sẽ nằm trong khoảng tìr 21 đến 29. Nếu sự phân bố của các giá trị thực tế của các quan sát có dạng hình chuông hay tìieo phân bố chuẩn thì 68% của các quan sát sẽ nằm trong khoảng giá trị tìaing bình ± 1 lần độ lệch chuẩn, 95% của các quan sát rơi vào khoảng giá ttị trung bình ± 2 lần độ lệch chuẩn và 99% của các quan sát rơi vào khoảng giá trị trung bình ± 3 lần độ lệch chuẩn. Giá trị ước lượng của độ lệch chuẩn có thể sử dụng từ các cuộc điều ứa trước đó, tuy nhiên ừước khi sử dụng chúng ta cần phải kiểm tra xem liệu phân bố của tổng ứiể đó có giống với phân bố của tổng thể chúng ta đang nghiên cứu hay không. Hoặc chúng ta có thể tiến hành một điều ữa thử ở diện hẹp với khoảng 25 quan sát để ước lượng độ lệch chuẩn từ đó. Cuối cùng, chúng ta có thể nhờ các chuyên gia cung cấp các giá trị cao nhất và thấp nhất như những giá trị cơ bản để có thể tính toán độ lệch chuẩn.
63
Công thức để tính toán quy mô mẫu điều tra trong nghiên cứu so sánh giữa hai nhóm như sau:
(Zg
/“ l -M 2
Trong đó:
//, - /Ì2 là khoảng khác biệt giữa hai nhóm.
z„, Zp là các giá trị đối xứng của phân phối chuẩn. Các giá trị đó được xác định như sau:
Ta hãy xem qua ví dụ sau:
Hai nhóm thanh niên tham gia vào một nghiên cứu sức khoẻ, giáo dục và chất lượng cuộc sống. Một cuộc điều tra được tiến hành nhằm tìm ‘ra mục đích và mong muốn của họ. Giả sử giá trị điểm tối đa mà ta có thể có từ điều fra là 100 điểm. Kiểu sai số I với a = 0,05. Xác suất để bác bỏ có sự khác biệt được xác định mức 0,80. Các chuyên gia nghiên cứu trong lĩnh vực này cho biết sự khác biệt trong điểm số giữa nhóm quan sát và nhóm đối chứng nên lớn hơn từ 10 điểm. Sử dụng kết quả một cuộc điều tra trước đây với độ lệch chuẩn là 15 điểm.
Hãy tính toán quy mô mẫu cho từng nhóm?
Trước hết, chúng ta giả thiết rằng mẫu nghiên cứu của chúng ta có phân phối gần hoặc tương đương với phân phối chuẩn. Đường cong phân phối chuẩn có giá ừị bình 64
quân là 0 và độ lệch chuẩn là 1. Giá tri z hai phía ứng với a = 0,05 là 1,96; ứng với a = 0,01 là 2,58; ứng với a = 0,1 là 1,65 và ứng với a = 0,2 lả 1,28. Giá trị thấp nhất của z tương ứng với p = -0,84
Áp dụng công thức ta có: n = 2
2
N=2 f (1,96+ 0,84) *15^ 10
= 2*(17,64) = 36
Như vậy, tối thiểu chúng ta cần 36 quan sát trong mỗi nhóm để đảm bảo 80% cơ hội nhận được sự khác biệt giữa hai. nhỏm nghiên cứu với mức khác biệt là 10 điểm số.
Trong thống kê, theo quy luật ngón tay cái chúng ía cần có khoảng 30 quan sát trong mỗi nhóm để đảm bảo ý nghĩa thống kê. Vì vậy, khi chúng ta tăng số nhóm lên chúng ta cũng cần phải tăng số lượng quan sát đảm bảo đủ tối thiểu là 30 quan sáưnhóm.
1.3.4. Tính toán trọng số
Trọng số là gì? Trọng số là một giá írị số sử dụng để điều chỉnh các giá trị thực tế khác về dạng có thể so sánh được với nhau hay có cùng một đơn vị tính.
Dùng trọng số để điều chỉnh vấn đề xác suất chọn mẫu, trong một mẫu ngẫu nhiên (trường hợp chuẩn), mỗi cá nhân đều có cơ hội được iựa chọn như nhau. Tuy nhiên, thủ tục chọn mẫu trong thực tế có thể là hộ gia đinh, chứ không phải là cá nhân, có cơ hội như nhau.
65
Như vậy, các cá nhân ở ữong những hộ gia đình có nhiều thành viên hơn cũng chỉ có cơ hội để được chọn như đối với các cá nhân trong các gia đình có số tíiành viên ít hơn hay nói cách khác cơ hội đối với họ là thấp hơn: họ không được đại diện đứig mức và vì vậy, nên có ừọng số để điều chỉnh để họ có tính đại diện trong mẫu điều fra.
Trọng số điều chỉnh sau khi phân tầng, nếu có sự đại diện không đúng mức của một tầng nào đó.
Ví dụ: Nam so với nữ do sự không trả lời hoặc do chọn mẫu phân tầng không tỷ lệ.
Ví dụ, nếu tỷ lệ thực tế theo giới tính là 50-50 và nếu chúng ta chọn mẫu có 40 nữ và 60 nam, chúng ta cỏ thể gán cho người trả lời nữ một trọng số là 1,5 để tạo lẽn sự cân bằng. Trong thực tế, điều này tạo ra 60 nữ và 60 nam. Tuy nhiên, để tránh việc tăng quy mô mẫu một cách nhân tạo từ 100 lên 120, ta cần tính thêm trọng số để điều chỉnh quy mô về 100. Điều này có thể được thực hiện bằng cách tạo thêm trọng số cho cả nữ và nam là 5/6. Mục đích là để tạo trọng số cho các tai-ờng hợp hiện tại theo cách làm gia tăng tính đại diện trong mẫu điều chỉnh của những tầng không được đại diện đúng mức trong mẫu.
1.4. Phương pháp thu thập số liệu
Có nhiều cách để tạo ra số liệu cho một nghiên cứu, ví dụ như trong các nghiên cứu cơ bản hoặc tự nhiên thông thường chúng ta haỵ tổ chức hoặc tiến hành các thí nghiệm và qua quá trình tiến hành các thí nghiệm đó người nghiên cứu sẽ
66
quan sát, đo đạc, ghi chép để có số liệu phục vụ cho việc phân tích của mình. Còn đối với các vấn đề kinh tế - xã hội thì để có số liệu phục vụ nghiên cứu thông thưòmg nhà nghiên cứu sẽ tiến hành điều tra để thu thập thông tin.
Việc điều tra có thể được tiến hành theo nhiều cách khác nhau, như: điều tra các đối tượng (thường là các hộ, các doanh nghiệp, tổ chức hoặc cá nhân) thông qua việc sử dụng các câu hỏi khác nhau tuỳ theo mục tiêu cần nghiên cứu. Các câu hỏi này có thể được chuẩn bị sẵn (bảng câu hỏi chuẩn) hoặc có thể được người điều tra kết hợp với các câu hỏi đặt ra ứong quá trinh phỏng vấn v.v...
Ngoài ra, người nghiên cứu cũng có thể thu được số liệu thông qua việc tìm hiểu các tài liệu thống kê đã công bố như niên giám thống kê hoặc các báo cáo khoa học. Thường các số liệu này chỉ mang tính tổng quát và minh chứng cho phần nghiên cứu cụ thể của nghiên cứu.
Có nhiều cách phỏng vấn khác nhau như: phỏng vấn trực tiếp, phỏng vấn qua thư, phỏng vấn qua thư điện tìr và phỏng vấn qua điện thoại. Mỗi loại hình phỏng vấn khác nhau sẽ đòi hỏi những bảng câu hỏi khác nhau để thu được thông tin mong muốn.
Một trong những vấn đề hết sức quan trọng đó là công cụ trong thu thập thông tin mà chúng ta thường gọi là phiếu điều tra. Kết quả điều tra có đảm bảo tính khoa học hay không, có độ chính xác hay không, có thể phân tích được hay không và thông tin có đủ cho việc phân tích nghiên cứu hay không phụ thuộc rất nhiều vào phiếu điều tra.
67
Để xây dựng được một phiếu điều tra tốt đòi hỏi người nghiên cứu phải có kinh nghiệm và am hiểu về vấn đề cần nghiên cứu, địa bàn nghiên cứu và đặc biệt là phải kết hợp tốt giữa lý thuyết và thực tế.
1.4.1. Phiếu điều tra
Là công cụ quan ữọng trong việc thu thập thông tin cho các nghiên cứu thuộc lĩnh vực kinh tế - xã hội.
Phiếu điều tra có nhiều hình thức khác nhau như tìình bày dưới dạng bảng, kết hợp bảng và tìmg câu hỏi riêng biệt.
Mỗi dạng có những ưu, nhược điểm khác nhau chẳng hạn dưới dạng bảng sẽ làm cho phiếu điều tra có vẻ ngắn hom và ừong một bảng ứiu được nhiều ứiông tin khác nhau, tuy nhiên một ừong những hạn chế chính đó là dễ để xảy ra tình ứạng nhầm lẫn cả ừong khi điền số liệu điều ừa tìr ô này sang dòng kia v.v... hay khi nhập số liệu vào máy túih cũng có tíiể xảy ra tình frạng nhầm lẫn tưorng tự.
Trong khi đó dưới dạng các câu hỏi riêng biệt sẽ làm cho phiếu điều tra có vẻ phức ỉạp hơn, làm cho cả người đi điều tra và người được hỏi cảm thấy ngại khi làm việc với tập phiếu điều tra dày như vậy nhưng nó lại hạn chế được những nhầm lẫn như ở dạng bảng.
Đối với các thông tin định tính, các câu hỏi trong phiếu điều tra có thể được chia làm 2 loại chính;
(1) Câu hỏi dạng đóng hay câu hỏi có gợi ý (hoặc lựa chọn).
68
1 (2) Câu hòi dạng mở là câu hỏi để cho người được hỏi tự do lựa chọn câu trả lời.
Vód câu hỏi dạng đóng thì quan trọng nhất là phần gợi ý trà lời hoặc các lựa chọn cho người trả lời vì nó sẽ ảnh hưởng tới kết quả phân tích. Nếu các gợi ý trước không được đầy đủ sẽ làm cho người ừ-ả lời khó khăn khi t à lời câu hỏi dạng này hoặc chủng ta sẽ không ứiu được ứiông tứi chính xác.
Phần gọd ý và lựa chọn có tìiể được chia ra như sau: gợi ý với các ý ửả lời khác nhau không có liên hệ vód nhau.
Ví dụ: Khi chúng ta tìm hiểu nguyên nhân vay tiền từ ngân hàng của các hộ, chúng ta có các gợi ý như: để đầu tư; để cho các nhu cầu sinh hoạt của gia đình; v.v... và các gợi ý này không có mối liên hệ với nhau.
Các gợi ý của câu hỏi dạng này cũng có tìiể là phần đánh giá và có tỳ lệ hay khoảng cách nhất định, ví dụ như: Rất tốt, tốt, binh ửiưòmg, kém v.v... như vậy, ừong tnrờng hợp này nó có mối quan hệ với nhau ứieo 1 tỳ lệ. Đối với câu hỏi dạng này thì việc phân chia khoảng cách có ý nghĩa rất quan ứọng, nó có ửiể bao gồĩĩi:
(1) Phân chia ứieo danh (Nominal scale) thông thường chỉ là 0 và 1 ví dụ như khi phân chia giới A # B.
(2) Phân chia theo thứ tự A>B>C... (Ordinal scale).
(3) Phân chia tìieo tỷ lệ (Interval scale) đây là hình thức kết họp giữa dạng phân chia 0-} và (2).
69
Ví dụ: Khi đánh giá về một sản phẩm hay dịch vụ nào đó chúng ta có thể đặt câu hỏi: Mức độ thoả mãn của anh chị về dịch vụ hay loại hàng hoá v.v... và đưa ra các gợi ý như sau: Vâng rất thoả mãn; vâng thoả mãn; thoả mãn và không thoả mãn chút nào.
(4) Phân chia theo thang số ví dụ từ 1 đến 5 là mức độ đánh giá của người được hỏi.
Hình thức đặt câu hỏi cho mỗi ý trả lời có ý nghĩa rất quan trọng vì nếu câu hỏi rõ ràng hoặc không hàm ý gì thì việc thu được kết quả mới chứih xác.
Ví dụ: Khi chúng ta đánh giá một dịch vụ mới thay vì đặt câu hỏi anh/chị đánh giá như thế nào về dịch vụ mới này? Thì chúng ta sẽ thay câu trả lời vâng rất nhiều bởi câu hỏi anh/chị có thích dịch vụ này không?
Trong hầu hết các phiếu điều tra đều có sự kết hợp giữa hai loại câu hỏi dạng đóng và dạng mở, tuy nhiên chúng ta thường hay sử dụng câu hỏi dạng đóng nhiều hơn vì việc xử lý- thông tin sau này sẽ dễ hcm cũng như việc thu thập thông tin sẽ dễ dàng honti, còn câu hỏi dạng mở thường được dùng để minh hoạ, giải thích thêm cho các luận chứng phân tích sau này.
1.4.2. Các phương pháp phỏng vẩn thu thập thông tin
Có nhiều cách thức thu thập thông tin khác nhau như; đến hộ phỏng vấn; phỏng vấn qua điện thoại; phỏng vấn qua thư; phỏng vấn qua thư điện tà.
70
Chúng ta có thể dùng bảng câu hỏi đã chuẩn bị sẵn để hỏi hoặc chúng ta có thể tiến hành cuộc phỏng vấn theo hình ứiức nói chuyện, thảo luận nhóm v.v...
Mỗi phưomg pháp thu thập thông tin và công cụ sử dụng để thu thập thông tin sẽ phù hợp với từng yêu cầu cụ thể và mục đích của tìmg cuộc điều fra, nghiên cứu.
Phương pháp phỏng vấn trực tiếp sẽ giúp ta có cơ hội tiếp cận với đối tượng điều tra, tìr đó ta dễ dàng franh thủ được đối tượng điều tra, có thể trao đổi để họ hiểu về mục đích cuộc điều tra từ đó họ có lòng tin hơn và sẽ cung cấp thông tứi đầy đủ cũng như chúứi xác hơn. Hơn nữa trong phương pháp này thì việc có thể khai thác thêm những thông tin bổ trợ cũng như ừao đổi làm rõ những câu hỏi v.v... là điều có thể.
Yêu cầu đối với phương pháp điều tra trực tiếp là người được điều tra phải nắm rõ về bảng câu hỏi để có thể hỏi một cách lô gíc cũng như dẫn dắt người được hỏi cho đúng mục đích yêu cầu cuộc điều ữa. Đối với điều tra viên, phải là người có kinh nghiệm tiếp xúc với nhóm đối tượng được điều tra, hiểu tâm lý họ và một điều cũng hết sức quan trọng là bảng hỏi không nên quá nhiều gây tâm lý ngại cho người được hỏi.
Đối với hình thức phỏng vấn qua điện thoại đòi hỏi người điều tra viên phải là người rất có kinh nghiệm, am hiểu vấn đề quan tâm và là người có kinh nghiệm trao đổi qua điện thoại ừánh việc hỏi lâu sẽ làm cho người được hỏi khó chịu. Bảng hỏi trong trường hợp này phải hết sức ngắn gọn.
Với hinh thức phỏng vấn qua thư hay thư điện tử đòi hỏi việc thiết kế phiếu điều fra ngắn gọn, dễ hiểu để bất cứ ai
71
thuộc nhóm đối tượng điều ừa đều hiểu vấn đề như nhau. Nên sử dụng nhiều câu hỏi dạng lựa chọn hơn là câu hỏi suy luận và diễn giải ừánh việc người được hỏi phải sử dụng quá nhiều thời gian cho việc trả lời một câu hỏi.
Việc sử dụng bảng câu hỏi có sự chuẩn bị sằn sẽ giúp cho quá trình điều ữa diễn ra nhanh và đảm bảo kết quả như chúng ta muốn, vì việc điều ữa theo hình thức ứiảo luận đôi khi sẽ kéo dài cuộc phỏng vấn mà vấn đề chúng ta cần thu thập thông tin đôi khi không thể hiện rõ. Tuy nhiên, việc kết hợp cả hai hình thức hỏi theo bảng hỏi và thảo luận là điều tốt nhất nó sẽ giúp cho chúng ta có cả những thông tin cân thiết, bắt buộc và cả những ứiông tin hỗ ữợ cho nghiên cứu của mình.
72
Chương II
CƠSỞDÌÌÍLIỆU
Cơ sở dữ liệu là một mẫu thông tin dưới dạng điện tò, nó có thể bao gồm 1 hoặc là nhiều tệp dữ liệu khác nhau. Cơ sở dữ liệu có ửiể được tìiể hiện duới dạng một bảng số liệu gồm nhiều hàng và cột khác nhau trong đó mỗi dòng thể hiện 1 chỉ tiêu nào đó và mỗi cột thể hiện cho 1 quan sát, ví dụ 1 hộ hay một doanh nghiệp. Mỗi một ô ừong bảng thể hiện 1 giá trị cụ thể.
Có nhiều phần mềm cho phép xây dựng và quản lý một cơ sở dữ liệu, như: phần mềm MS ACCESS, EXCEL hay LOTUS.
Các ửiông tm trong cơ sở dữ ỉiệu phải được thể hiện ở dạng số vì các phép xử lý toán học chỉ có thể tiến hành khi thông tin đó đã được ỉượng hoá, những thông tin về mặt định tính phải được mã hoá ừarớc khi tiến hành các phép xử lý ửiống kê.
Tất cà các thông tin định tính được mã hoá ttong quá ừình thu thập hay vào số liệu trong cơ sở dữ liệu phải được ghi lại đ ể ư á n h nhầm ỉẫn íT on g quá tình x ử lý tín h toán sau này.
Một ví dụ về cơ sở dữ liệu bao gồm nhiều thông tin của nhiều mẫu được quản ỉý chung ữong một tệp tin. Như trong ví
73
dụ này, số liệu của 1 hộ được thể hiện như là một trang cùa quyển sách, các ừang tiếp theo sẽ là thông tin của các hộ khác theo đúng ứật tự như của hộ đầu tiên.
'.Ngudti. Wc’ciia %ờ ■*ỉ^kí)ồạt độriậnglụệj»
iff . .1 , iU . ■ - * r a ,O aếbiối/dựjrự.- ’ ^ ịJệ íÌầ í^ :ĩ-H w
Ẹ aquýếtđịnh.niụcqích thái,độ.
m - . ' 'ỳ- ■ ■'■■ -
^ ÍTặứi tóáii ữỉu nỊĩạp .cua hộ, cung cấ^ịi ittợ^ tìiục,
,inự^' uống, tíiứi u^gs& ; klioe.. ■
Hình 2.1: MÔ PHỎNG MỘT cơ sở DỮ LIỆU
Một ví dụ nữa về cơ sở dữ liệu được trình bày dưới dạng bảng trong đó mỗi dòng thể hiện cho một hộ (mẫu) điều tra và mỗi một cột thể hiện cho một chỉ tiêu điều tra (một thông tin), như vậy, ừong trưòfng hợp này số lượng mẫu điều tra sẽ quyết định đến số lượng hàng cần phải có trong cơ sở dữ liệu, trong
74
khi đó số lượng các chỉ tiêu cần điều tra sẽ quyết định số lượng các cột ữong cơ sở dữ liệu. Chúng ta cũng có thể thay đổi theo hàng là các chỉ tiêu thông tin thu thập và theo cột là các mẫu điều tra tuỳ ửieo yêu cầu và cách nào phù hợp hơn cho ta.
1. Thông tin xác định
1.0001 Tên người được hỏi Quàng V. Liên
Khổng M. Ngụ
Nguyễn V. A
1.0002 Huyện Mai Son Mai Son Mai Son
1.0003 Tên xã Mường Bon
Hát Lót Hát Lót
1.0004 Tên bản Bản Un Bắc Quang
Bắc
Quang
1.0005 Dân tộc Thái Kinh Kinh 1.0006 Ngày phòng vấn 25.05.06 25.05.06 26.05.06 1.0007 Hộ số 1 2 3
2.1001 Số nhân khẩu trong hộ 6 5 7 2.1002 Số trẻ em dưới 15 tuổi 2 1 3 2.1003 Chủ hộ (Nam =1; Nữ = 2) 1 1 2 2.1004 Tuổi chủ hộ 50 48 40
Quá trinh quản lý và nhập số liệu vào máy tính bao gồm hai công đoạn:
75
(1) Chuẩn bị cơ sở dữ liệu
Là việc chuẩn bị cấu trúc của cơ sở dữ liệu theo một trật tự nhất định sao cho việc quản lý các thông tm khoa học nhất và đảm bảo việc kết xuất dữ liệu sang các phần mềm tính toán khác là có khả thi. Thông thường, chúng ta phải dựa vào kết cấu của phiếu điều tra, số lượng mẫu, số lượng các chi tiêu chi tiếí ữong phiếu điều ừa để có thể có được một kết cấu của cơ sở dữ liệu phù hợp.
Trong việc chuẩn bị cấu trúc của cơ sở dữ liệu một ừong những vấn đề quan trọng cần phải lưu tâm ngay từ đầu đó là hệ thống mã hoá và các thông tin liên quan. Các phần mềm tính toán thông thường không thể xử lý được các thông tin định tính (cho các câu hỏi mở), do vậy, việc chúng ta phải chuyển các thông tin dạng đó sang dạng định lượng là điều cần thiết và để làm được điều này, chúng ta cần phải xây dựng một hệ thống các mã hoá cho tìmg câu hỏi và ý ữả lòd một.
(2) Kết chuyển dữ liệu tìr cơ sở dữ liệu sang phần mềm xử ỉý
Việc xử !ý các thông tin điều tra thường bàng các phần mềm thống kê như phần mềm SPSS hoặc Stata, bên cạnh đó chúng ta cũng có thể sử dụng các công cụ ừong Excel và Lotus để tính toán các thông tin cần thiết cho nghiên cửi.
Việc kếí chuyển chúng ta có thể làm trực tiếp bàng một số câu lệnh trong các phân mềm đó như đối VỚI SPSS hoặc chúng ta có thể sừ dụng các phần mềm cho phéo chuyển định dạng củạ file dữ liệu sang dạng thích hợp cho các phẩn mềm xử lý thống kê nhu phần mềm Stat Transfer.
76
2.ỉ. Các dạng cơ sở dữ liệu
Định dạng cơ sở dữ liệu liên quan mật thiết đến hình thức /ào số liệu trong cơ sở dữ liệu đó, tuy nhiên có 2 dạng định lạng chính:
- Cơ sờ dữ liệu dưới dạng bảng tính như trong Excel hoặc Lotus: đây là dạng thông dụng và rất hay được các nhà nghiên cứu ứng dụng để quản lý thông tin. Tuy nhiên, một trong những hạn chế của định dạng cơ sở dữ liệu này đó là ta phải thực hiện việc truy nhập dữ liệu một cách thủ công và vì thế mất nhiều thời gian cũng như khả năng để xảy ra nhầm lẫn khá cao hay nói cách khác là nguy cơ tiềm ẩn của sai số phi thống kê cao.
Bảng tính Excel cũng như các chương trình quản lý cơ sở dữ liệu khác (MS Access) đêu thích hợp cho việc vào số liệu từ các phiếu điều ừa và cũng cho phép kết chuyển số liệu sang các phần mềm xử lý khác trong đó có SPSS hay Stata.
Một số lợi thế của bảng tính Excel là chươne ừình này sẵn có trong tất cả các máy ĩính điện tử, đòi hỏi những hiểu b iế i íôi th iể u , c ó th ể TÍnh ío á n tr ự c tiế p ĩig a y tại b ả n g tín h .
Nhưng bên cạnh đó cũng tồn tại những bất lợi trong việc sử dụng bảng íính Excel, đó là: {]) hạn chế các lệnh trong những tính toán phức tạp (đòi hỏi phải vào các cáu lệnh thường xuvên băng tay); (2) Không thích hợp trong việc tạo ra hàng loạt các báo cáo cho một mẫu.
77
Hình 2.2: sơ Đổ CÁC PHƯƠNG THỨC NHẬP TIN VÀO MÁY TÍNH
- Cơ sở dữ liệu được định dạng lật hay nói cách khác mỗi một hoặc một vài thông tin được thiết kế thành 1 trang, như vậy, phải sử dụng nhiều ữang khác nhau như một quyển sách. Đối với định dạng kiểu này chủng ta có thể sử dụng một vài chương trình để nhập thông tin với máy Scanner, như vậy dữ liệu trong phiếu điều ữa phải được thể hiện theo đúng quy định nhất định để máy có thể đọc được. Với hình thức cơ sở dữ liệu như vậy rất phù hợp cho trường hợp cuộc điều tra lớn, người ta có thể xây dựng riêng 1 công cụ để đi điều tra và phần mềm riêng cho việc nhập cũng như xử lý dữ liệu (Hình 2.2).
2.2. Biểu diễn thông tin thống kê trong C tf sở dữ liệu
Các dữ liệu thống kê có thể được đo đạc dưới dạng chữ, dạng thứ tự hoặc dạng số liên tục và ta có thể quy về 2 dạng chung là định tính và định lượng.
78