[Làm gì sau giờ làm] Chứng chỉ Phân tích Dữ liệu lớn - Kỳ thi thực hành (Dạng bài tập 1, 2, 3)
Chúng tôi sẽ hướng dẫn cách để những người không chuyên hoặc người mới bắt đầu có thể nhanh chóng lấy được chứng chỉ thực hành Phân tích Dữ liệu lớn (Big Data Analysis)! Lý thuyết nhẹ nhàng, thực hành chắc chắn – không cần kiến thức nền tảng phức tạp, chúng ta sẽ tập trung học những điểm mấu chốt chắc chắn xuất hiện trong kỳ thi thông qua các câu hỏi đã từng ra.
4,982 học viên
Độ khó Nhập môn
Thời gian 12 tháng

✅ Dạng bài 2: Xóa cột thì sao? Khi nào thì làm vậy?
Sự khác biệt giữa đề thi thật và bài tập luyện tập
Trong các đề thi cũ hoặc bài tập mẫu thì không có trường hợp nào phải xóa cột.
Tuy nhiên, khi xử lý dữ liệu phức tạp hơn trong các bài tập thực hành/mô phỏng, sẽ có những tình huống cần thiết phải xóa cột.
1⃣ Khi tất cả các giá trị là duy nhất (Unique)
# Ví dụ: ID, số khách hàng, số đơn hàng, v.v.
df['customer_id'].nunique() == len(df) # Nếu True thì cân nhắc xóaDạng số: Để nguyên cũng được vì mô hình sẽ tự động đánh giá mức độ quan trọng thấp
Không xóa cũng không có vấn đề gì lớn
Kiểu ký tự: Khuyến nghị xóa vì chiều dữ liệu bùng nổ khi mã hóa! ⚠
Label Encoding tạo ra mối quan hệ thứ tự không có ý nghĩa
Khi thực hiện One-Hot Encoding thì số cột = số hàng sẽ tăng vọt. (Chỉ tiêu hóa được trong vòng 1 phút)
2⃣ Khi việc mã hóa trở nên khó khăn
# Ví dụ: văn bản tự do, địa chỉ, email, v.v.
df['comment'].head()
# "Giao hàng nhanh", "Đóng gói gọn gàng", "Có ý định mua lại"...Baseline: Trước tiên xóa và chạy mô hình
Chiến lược nâng cao: Nếu còn thời gian thì suy nghĩ cách để cứu vãn
Tạo biến phái sinh như độ dài văn bản, có chứa từ khóa cụ thể hay không, v.v.
ví dụ) Mã chuyến bay(KE1234) → Hãng hàng không(KE) + Số hiệu chuyến bay(1234) trích xuất riêng biệt
3⃣ Khi có quá nhiều giá trị thiếu (80~90% trở lên)
df['컬럼'].isnull().sum() / len(df)Baseline: Trước tiên hãy xóa và đi theo cách an toàn
Chiến lược nâng cao: Nếu còn thời gian thì suy nghĩ cách để cứu vãn
Thay thế chính việc có hay không có giá trị thiếu bằng giá trị ngẫu nhiên
So sánh kết quả chỉ số đánh giá đã xóa và kết quả sau khi điền
💡 Nếu gặp phải những cột khó xử lý như trên thì sao?
Giai đoạn 1: Hoàn thành nhanh baseline (30~40 phút)
Trường hợp số 2 và số 3 hãy xóa bỏ một cách quyết đoán
Số 1 nếu là dạng ký tự thì xóa, nếu là dạng số thì để nguyên cũng OK
Hoàn thành code có thể nộp được trước
Phần 2: Nâng cao nếu còn thời gian (chỉ khi rảnh rỗi)
Thử phương pháp khôi phục cột đã xóa
Xác nhận việc cải thiện hiệu suất
⚠ Lưu ý
Quản lý thời gian là ưu tiên hàng đầu! Code có thể nộp quan trọng hơn việc tiền xử lý hoàn hảo
Trong baseline thì xóa đi và sau khi nộp lần 1, khi còn thời gian thì thử thách lại! Nộp lần 2




