강의

멘토링

커뮤니티

BEST
Data Science

/

Certificate (Data Science)

[Làm gì sau giờ làm] Chứng chỉ Phân tích Dữ liệu lớn - Kỳ thi thực hành (Dạng bài tập 1, 2, 3)

Chúng tôi sẽ hướng dẫn cách để những người không chuyên hoặc người mới bắt đầu có thể nhanh chóng lấy được chứng chỉ thực hành Phân tích Dữ liệu lớn (Big Data Analysis)! Lý thuyết nhẹ nhàng, thực hành chắc chắn – không cần kiến thức nền tảng phức tạp, chúng ta sẽ tập trung học những điểm mấu chốt chắc chắn xuất hiện trong kỳ thi thông qua các câu hỏi đã từng ra.

(4.9) 768 đánh giá

4,982 học viên

Độ khó Nhập môn

Thời gian 12 tháng

  • roadmap
Engineer Big Data Analysis
Engineer Big Data Analysis
Big Data
Big Data
Python
Python
Pandas
Pandas
Machine Learning(ML)
Machine Learning(ML)
Engineer Big Data Analysis
Engineer Big Data Analysis
Big Data
Big Data
Python
Python
Pandas
Pandas
Machine Learning(ML)
Machine Learning(ML)
roadmap님의 프로필 이미지

Đã chỉnh sửa

✅ Dạng bài 2: Xóa cột thì sao? Khi nào thì làm vậy?

Sự khác biệt giữa đề thi thật và bài tập luyện tập

Trong các đề thi cũ hoặc bài tập mẫu thì không có trường hợp nào phải xóa cột.

Tuy nhiên, khi xử lý dữ liệu phức tạp hơn trong các bài tập thực hành/mô phỏng, sẽ có những tình huống cần thiết phải xóa cột.

1⃣ Khi tất cả các giá trị là duy nhất (Unique)

# Ví dụ: ID, số khách hàng, số đơn hàng, v.v.
df['customer_id'].nunique() == len(df)  # Nếu True thì cân nhắc xóa
  • Dạng số: Để nguyên cũng được vì mô hình sẽ tự động đánh giá mức độ quan trọng thấp

    • Không xóa cũng không có vấn đề gì lớn

  • Kiểu ký tự: Khuyến nghị xóa vì chiều dữ liệu bùng nổ khi mã hóa!

    • Label Encoding tạo ra mối quan hệ thứ tự không có ý nghĩa

    • Khi thực hiện One-Hot Encoding thì số cột = số hàng sẽ tăng vọt. (Chỉ tiêu hóa được trong vòng 1 phút)

2⃣ Khi việc mã hóa trở nên khó khăn

# Ví dụ: văn bản tự do, địa chỉ, email, v.v.
df['comment'].head()
# "Giao hàng nhanh", "Đóng gói gọn gàng", "Có ý định mua lại"...
  • Baseline: Trước tiên xóa và chạy mô hình

  • Chiến lược nâng cao: Nếu còn thời gian thì suy nghĩ cách để cứu vãn

    • Tạo biến phái sinh như độ dài văn bản, có chứa từ khóa cụ thể hay không, v.v.

    • ví dụ) Mã chuyến bay(KE1234) → Hãng hàng không(KE) + Số hiệu chuyến bay(1234) trích xuất riêng biệt

3⃣ Khi có quá nhiều giá trị thiếu (80~90% trở lên)

df['컬럼'].isnull().sum() / len(df)
  • Baseline: Trước tiên hãy xóa và đi theo cách an toàn

  • Chiến lược nâng cao: Nếu còn thời gian thì suy nghĩ cách để cứu vãn

    • Thay thế chính việc có hay không có giá trị thiếu bằng giá trị ngẫu nhiên

      So sánh kết quả chỉ số đánh giá đã xóa và kết quả sau khi điền

💡 Nếu gặp phải những cột khó xử lý như trên thì sao?

  1. Giai đoạn 1: Hoàn thành nhanh baseline (30~40 phút)

    • Trường hợp số 2 và số 3 hãy xóa bỏ một cách quyết đoán

    • Số 1 nếu là dạng ký tự thì xóa, nếu là dạng số thì để nguyên cũng OK

    • Hoàn thành code có thể nộp được trước

  2. Phần 2: Nâng cao nếu còn thời gian (chỉ khi rảnh rỗi)

    • Thử phương pháp khôi phục cột đã xóa

    • Xác nhận việc cải thiện hiệu suất

Lưu ý

  • Quản lý thời gian là ưu tiên hàng đầu! Code có thể nộp quan trọng hơn việc tiền xử lý hoàn hảo

  • Trong baseline thì xóa đi và sau khi nộp lần 1, khi còn thời gian thì thử thách lại! Nộp lần 2

Bình luận