[Làm gì sau giờ làm] Chứng chỉ Phân tích Dữ liệu lớn - Kỳ thi thực hành (Dạng bài tập 1, 2, 3)
Chúng tôi sẽ hướng dẫn cách để những người không chuyên hoặc người mới bắt đầu có thể nhanh chóng lấy được chứng chỉ thực hành Phân tích Dữ liệu lớn (Big Data Analysis)! Lý thuyết nhẹ nhàng, thực hành chắc chắn – không cần kiến thức nền tảng phức tạp, chúng ta sẽ tập trung học những điểm mấu chốt chắc chắn xuất hiện trong kỳ thi thông qua các câu hỏi đã từng ra.
4,982 học viên
Độ khó Nhập môn
Thời gian 12 tháng

Vì `equal_var=True` là giá trị mặc định của hàm `ttest_ind()` trong scipy. Khi sử dụng `ttest_ind()`, nếu không chỉ định tham số `equal_var`, hàm sẽ tự động sử dụng `equal_var=True`, nghĩa là giả định hai nhóm có phương sai bằng nhau (đồng phương sai). Nếu đề bài không đề cập đến đồng phương sai, bạn có hai lựa chọn
Tại sao lại dùng equal_var=True khi đề bài không đề cập đến phương sai bằng nhau?
Cảm ơn anh/chị Song** đã đặt câu hỏi.
Trong câu hỏi thực hành dạng bài tập 3 – câu hỏi nhỏ số 3,
trong văn bản đề bài không xuất hiện trực tiếp cụm từ "phương sai đồng nhất".
Tuy nhiên trong lời giải thì như sau
#3
from scipy import stats
result = stats.ttest_ind(df[cond1]['Resistin'], df[cond2]['Resistin'], equal_var = True)
print(round(result.pvalue,3))Chúng tôi đã sử dụng giả định phương sai bằng nhau (Student t-test).
Lý do như sau.
Vấn đề được cấu trúc theo quy trình điển hình của bài toán kiểm định 3 bước như sau.
# Kiểm tra sự khác biệt phương sai giữa hai nhóm bằng F-test
Ước lượng phương sai gộp
Thực hiện kiểm định t cho mẫu độc lập sử dụng phương sai gộp đó
Việc tính phương sai gộp (pooled variance) tự nó đã ngầm định giả thiết rằng phương sai của hai nhóm là bằng nhau.
Do đó, tôi đã tiếp cận bài giải bằng cách sử dụng equal_var=True.
Thêm vào đó
Kiểm định t một mẫu: Không cần kiểm định phương sai bằng nhau (không có hai nhóm để so sánh)
Kiểm định t mẫu ghép: Không cần kiểm định phương sai bằng nhau (chỉ sử dụng giá trị chênh lệch)
Kiểm định t cho mẫu độc lập: Xem xét kiểm định phương sai bằng nhau




