강의

멘토링

커뮤니티

BEST
Data Science

/

Certificate (Data Science)

[Làm gì sau giờ làm] Chứng chỉ Phân tích Dữ liệu lớn - Kỳ thi thực hành (Dạng bài tập 1, 2, 3)

Chúng tôi sẽ hướng dẫn cách để những người không chuyên hoặc người mới bắt đầu có thể nhanh chóng lấy được chứng chỉ thực hành Phân tích Dữ liệu lớn (Big Data Analysis)! Lý thuyết nhẹ nhàng, thực hành chắc chắn – không cần kiến thức nền tảng phức tạp, chúng ta sẽ tập trung học những điểm mấu chốt chắc chắn xuất hiện trong kỳ thi thông qua các câu hỏi đã từng ra.

(4.9) 768 đánh giá

4,982 học viên

Độ khó Nhập môn

Thời gian 12 tháng

  • roadmap
Engineer Big Data Analysis
Engineer Big Data Analysis
Big Data
Big Data
Python
Python
Pandas
Pandas
Machine Learning(ML)
Machine Learning(ML)
Engineer Big Data Analysis
Engineer Big Data Analysis
Big Data
Big Data
Python
Python
Pandas
Pandas
Machine Learning(ML)
Machine Learning(ML)

Câu hỏi thường gặp về Dạng bài 3: Khi nào sử dụng C()?

1. ANOVA / Phân tích phương sai hai yếu tố / Phân tích phương sai một yếu tố

→ Yếu tố phân loại nên sử dụng C() là chuẩn mực

Ví dụ:

model = ols("y ~ C(group)", data=df).fit()
anova_lm(model)
  • ANOVA về cơ bản là phân tích so sánh "sự khác biệt trung bình giữa các nhóm" → yếu tố là dạng phân loại.

  • Do đó, ngay cả khi bài toán không ghi rõ bằng lời là "phân loại",

  • Vì bản thân yếu tố đã là biến nhóm nên C() là giá trị mặc định.

Tức là,
Dù là số → C()
Dù là ký tự → C()


2. Phân tích hồi quy (ols)

Chỉ các biến được chỉ định rõ ràng là phân loại trong bài toán mới sử dụng C()

Ví dụ:

ols("y ~ x1 + region", data=df)
  • Việc tự động xử lý thành dạng phân loại chỉ vì dữ liệu ở dạng số là không đúng

  • Các biến số không được đề bài nói là "biến phân loại" thì được xử lý như biến liên tục


3. Hồi quy logistic ( logit)

Nguyên tắc tương tự như ols

Ví dụ:

logit("target ~ x1 + job_type", data=df)
  • logit chỉ cần C() khi trong đề bài có ghi "phân loại" hoặc "categorical".
    Ngoài ra thì tuyệt đối không tự ý thêm C().

Bình luận