[Làm gì sau giờ làm] Chứng chỉ Phân tích Dữ liệu lớn - Kỳ thi thực hành (Dạng bài tập 1, 2, 3)
Chúng tôi sẽ hướng dẫn cách để những người không chuyên hoặc người mới bắt đầu có thể nhanh chóng lấy được chứng chỉ thực hành Phân tích Dữ liệu lớn (Big Data Analysis)! Lý thuyết nhẹ nhàng, thực hành chắc chắn – không cần kiến thức nền tảng phức tạp, chúng ta sẽ tập trung học những điểm mấu chốt chắc chắn xuất hiện trong kỳ thi thông qua các câu hỏi đã từng ra.
4,982 học viên
Độ khó Nhập môn
Thời gian 12 tháng

Câu hỏi thường gặp về Dạng bài 3: Khi nào sử dụng C()?
✅1. ANOVA / Phân tích phương sai hai yếu tố / Phân tích phương sai một yếu tố
→ Yếu tố phân loại nên sử dụng C() là chuẩn mực
Ví dụ:
model = ols("y ~ C(group)", data=df).fit()
anova_lm(model)ANOVA về cơ bản là phân tích so sánh "sự khác biệt trung bình giữa các nhóm" → yếu tố là dạng phân loại.
Do đó, ngay cả khi bài toán không ghi rõ bằng lời là "phân loại",
Vì bản thân yếu tố đã là biến nhóm nên C() là giá trị mặc định.
Tức là,
✔ Dù là số → C()
✔ Dù là ký tự → C()
❌2. Phân tích hồi quy (ols)
➡Chỉ các biến được chỉ định rõ ràng là phân loại trong bài toán mới sử dụng C()
Ví dụ:
ols("y ~ x1 + region", data=df)
Việc tự động xử lý thành dạng phân loại chỉ vì dữ liệu ở dạng số là không đúng
Các biến số không được đề bài nói là "biến phân loại" thì được xử lý như biến liên tục
❌3. Hồi quy logistic ( logit)
➡Nguyên tắc tương tự như ols
Ví dụ:
logit("target ~ x1 + job_type", data=df)
logit chỉ cần C() khi trong đề bài có ghi "phân loại" hoặc "categorical".
Ngoài ra thì tuyệt đối không tự ý thêm C().




