강의

멘토링

커뮤니티

BEST
Data Science

/

Certificate (Data Science)

[Làm gì sau giờ làm] Chứng chỉ Phân tích Dữ liệu lớn - Kỳ thi thực hành (Dạng bài tập 1, 2, 3)

Chúng tôi sẽ hướng dẫn cách để những người không chuyên hoặc người mới bắt đầu có thể nhanh chóng lấy được chứng chỉ thực hành Phân tích Dữ liệu lớn (Big Data Analysis)! Lý thuyết nhẹ nhàng, thực hành chắc chắn – không cần kiến thức nền tảng phức tạp, chúng ta sẽ tập trung học những điểm mấu chốt chắc chắn xuất hiện trong kỳ thi thông qua các câu hỏi đã từng ra.

(4.9) 768 đánh giá

4,982 học viên

Độ khó Nhập môn

Thời gian 12 tháng

  • roadmap
Engineer Big Data Analysis
Engineer Big Data Analysis
Big Data
Big Data
Python
Python
Pandas
Pandas
Machine Learning(ML)
Machine Learning(ML)
Engineer Big Data Analysis
Engineer Big Data Analysis
Big Data
Big Data
Python
Python
Pandas
Pandas
Machine Learning(ML)
Machine Learning(ML)
roadmap님의 프로필 이미지

Đã chỉnh sửa

Vì `equal_var=True` là giá trị mặc định của hàm `ttest_ind()` trong scipy. Khi sử dụng `ttest_ind()`, nếu không chỉ định tham số `equal_var`, hàm sẽ tự động sử dụng `equal_var=True`, nghĩa là giả định hai nhóm có phương sai bằng nhau (đồng phương sai). Nếu đề bài không đề cập đến đồng phương sai, bạn có hai lựa chọn

Tại sao lại dùng equal_var=True khi đề bài không đề cập đến phương sai bằng nhau?
Cảm ơn anh/chị Song** đã đặt câu hỏi.

Trong câu hỏi thực hành dạng bài tập 3 – câu hỏi nhỏ số 3,
trong văn bản đề bài không xuất hiện trực tiếp cụm từ "phương sai đồng nhất".

Tuy nhiên trong lời giải thì như sau

#3
from scipy import stats
result = stats.ttest_ind(df[cond1]['Resistin'], df[cond2]['Resistin'], equal_var = True)
print(round(result.pvalue,3))

Chúng tôi đã sử dụng giả định phương sai bằng nhau (Student t-test).
Lý do như sau.

Vấn đề được cấu trúc theo quy trình điển hình của bài toán kiểm định 3 bước như sau.

  • # Kiểm tra sự khác biệt phương sai giữa hai nhóm bằng F-test

  • Ước lượng phương sai gộp

  • Thực hiện kiểm định t cho mẫu độc lập sử dụng phương sai gộp đó

Việc tính phương sai gộp (pooled variance) tự nó đã ngầm định giả thiết rằng phương sai của hai nhóm là bằng nhau.

Do đó, tôi đã tiếp cận bài giải bằng cách sử dụng equal_var=True.


Thêm vào đó

  • Kiểm định t một mẫu: Không cần kiểm định phương sai bằng nhau (không có hai nhóm để so sánh)

  • Kiểm định t mẫu ghép: Không cần kiểm định phương sai bằng nhau (chỉ sử dụng giá trị chênh lệch)

  • Kiểm định t cho mẫu độc lập: Xem xét kiểm định phương sai bằng nhau

Bình luận