inflearn logo

[Làm gì sau giờ làm] Chứng chỉ Phân tích Dữ liệu lớn - Kỳ thi thực hành (Dạng bài tập 1, 2, 3)

Chúng tôi sẽ hướng dẫn cách để những người không chuyên hoặc người mới bắt đầu có thể nhanh chóng lấy được chứng chỉ thực hành Phân tích Dữ liệu lớn (Big Data Analysis)! Lý thuyết nhẹ nhàng, thực hành chắc chắn – không cần kiến thức nền tảng phức tạp, chúng ta sẽ tập trung học những điểm mấu chốt chắc chắn xuất hiện trong kỳ thi thông qua các câu hỏi đã từng ra.

(4.9) 768 đánh giá

4,982 học viên

Độ khó Nhập môn

Thời gian 12 tháng

Engineer Big Data Analysis
Engineer Big Data Analysis
Big Data
Big Data
Python
Python
Pandas
Pandas
Machine Learning(ML)
Machine Learning(ML)
Engineer Big Data Analysis
Engineer Big Data Analysis
Big Data
Big Data
Python
Python
Pandas
Pandas
Machine Learning(ML)
Machine Learning(ML)

Tin tức

77 bài viết

  • roadmap님의 프로필 이미지

    Kết quả cuối cùng của kỳ thi thực hành Chuyên viên Phân tích Dữ liệu Lớn lần thứ 11 đã được công bố!

    Chúc mừng chân thành đến những bạn đã đỗ. Còn những bạn có kết quả chưa như mong muốn thì hãy lấy kinh nghiệm lần này làm bàn đạp để cùng nhau phát triển hơn nữa vào năm sau nhé!!

    Tôi cũng sẽ phản ánh nội dung kỳ thi này và những phản hồi mà các bạn đã để lại, để gặp lại các bạn vào năm sau với khóa học được cập nhật hơn nữa. 💪💪💪

    Tuy hơi ngại ngùng, nhưng nhờ mọi người mà hôm qua mình đã nhận giải thưởng tại Inflearn Awards! Thực sự rất cảm ơn mọi người 😊

    Chúc bạn kết thúc năm tốt đẹp và có một Giáng sinh cùng năm mới hạnh phúc! 🙇🏼‍♂️🙇🏼‍♂️🙇🏼‍♂️

    IMG_4398.JPG

    1
  • roadmap님의 프로필 이미지

    Mặc dù phải xem kết quả mới biết chắc chắn, nhưng tôi đã tổng hợp lại bằng video bài thi lần thứ 11.

    https://youtu.be/X_fcHPYcPMo

    0
  • roadmap님의 프로필 이미지

    Những người đã tham gia kỳ thi Chứng chỉ Chuyên viên Phân tích Dữ liệu Lớn đã vất vả rồi!

    Ngoại trừ ttest và độ nhạy

    Ý kiến cho rằng đề thi năm nay tương tự như các đề thi trước nên khá ổn, còn mọi người thì thấy thế nào? (tò mò)

    5
  • roadmap님의 프로필 이미지

    Đã chỉnh sửa

    Tại sao lại dùng equal_var=True khi đề bài không đề cập đến phương sai bằng nhau?
    Cảm ơn anh/chị Song** đã đặt câu hỏi.

    Trong câu hỏi thực hành dạng bài tập 3 – câu hỏi nhỏ số 3,
    trong văn bản đề bài không xuất hiện trực tiếp cụm từ "phương sai đồng nhất".

    Tuy nhiên trong lời giải thì như sau

    #3
    from scipy import stats
    result = stats.ttest_ind(df[cond1]['Resistin'], df[cond2]['Resistin'], equal_var = True)
    print(round(result.pvalue,3))

    Chúng tôi đã sử dụng giả định phương sai bằng nhau (Student t-test).
    Lý do như sau.

    Vấn đề được cấu trúc theo quy trình điển hình của bài toán kiểm định 3 bước như sau.

    • # Kiểm tra sự khác biệt phương sai giữa hai nhóm bằng F-test

    • Ước lượng phương sai gộp

    • Thực hiện kiểm định t cho mẫu độc lập sử dụng phương sai gộp đó

    Việc tính phương sai gộp (pooled variance) tự nó đã ngầm định giả thiết rằng phương sai của hai nhóm là bằng nhau.

    Do đó, tôi đã tiếp cận bài giải bằng cách sử dụng equal_var=True.


    Thêm vào đó

    • Kiểm định t một mẫu: Không cần kiểm định phương sai bằng nhau (không có hai nhóm để so sánh)

    • Kiểm định t mẫu ghép: Không cần kiểm định phương sai bằng nhau (chỉ sử dụng giá trị chênh lệch)

    • Kiểm định t cho mẫu độc lập: Xem xét kiểm định phương sai bằng nhau

    0
  • roadmap님의 프로필 이미지

    Ngày mai là kỳ thi Big Data Analytics Certification nhỉ

    Chúc bạn làm bài thi tốt, tôi đã tổng hợp các ví dụ về cách diễn đạt câu hỏi dạng thực hành 3.

    Chúc bạn thi tốt nhé 👏👏

    image.png

    # Học các dạng bài tập mẫu

    -Chi phí phi tham số có độ ưu tiên thấp nên loại trừ

    0
  • roadmap님의 프로필 이미지

    Đã chỉnh sửa

    Sự khác biệt giữa đề thi thật và bài tập luyện tập

    Trong các đề thi cũ hoặc bài tập mẫu thì không có trường hợp nào phải xóa cột.

    Tuy nhiên, khi xử lý dữ liệu phức tạp hơn trong các bài tập thực hành/mô phỏng, sẽ có những tình huống cần thiết phải xóa cột.

    1⃣ Khi tất cả các giá trị là duy nhất (Unique)

    # Ví dụ: ID, số khách hàng, số đơn hàng, v.v.
    df['customer_id'].nunique() == len(df)  # Nếu True thì cân nhắc xóa
    • Dạng số: Để nguyên cũng được vì mô hình sẽ tự động đánh giá mức độ quan trọng thấp

      • Không xóa cũng không có vấn đề gì lớn

    • Kiểu ký tự: Khuyến nghị xóa vì chiều dữ liệu bùng nổ khi mã hóa!

      • Label Encoding tạo ra mối quan hệ thứ tự không có ý nghĩa

      • Khi thực hiện One-Hot Encoding thì số cột = số hàng sẽ tăng vọt. (Chỉ tiêu hóa được trong vòng 1 phút)

    2⃣ Khi việc mã hóa trở nên khó khăn

    # Ví dụ: văn bản tự do, địa chỉ, email, v.v.
    df['comment'].head()
    # "Giao hàng nhanh", "Đóng gói gọn gàng", "Có ý định mua lại"...
    • Baseline: Trước tiên xóa và chạy mô hình

    • Chiến lược nâng cao: Nếu còn thời gian thì suy nghĩ cách để cứu vãn

      • Tạo biến phái sinh như độ dài văn bản, có chứa từ khóa cụ thể hay không, v.v.

      • ví dụ) Mã chuyến bay(KE1234) → Hãng hàng không(KE) + Số hiệu chuyến bay(1234) trích xuất riêng biệt

    3⃣ Khi có quá nhiều giá trị thiếu (80~90% trở lên)

    df['컬럼'].isnull().sum() / len(df)
    • Baseline: Trước tiên hãy xóa và đi theo cách an toàn

    • Chiến lược nâng cao: Nếu còn thời gian thì suy nghĩ cách để cứu vãn

      • Thay thế chính việc có hay không có giá trị thiếu bằng giá trị ngẫu nhiên

        So sánh kết quả chỉ số đánh giá đã xóa và kết quả sau khi điền

    💡 Nếu gặp phải những cột khó xử lý như trên thì sao?

    1. Giai đoạn 1: Hoàn thành nhanh baseline (30~40 phút)

      • Trường hợp số 2 và số 3 hãy xóa bỏ một cách quyết đoán

      • Số 1 nếu là dạng ký tự thì xóa, nếu là dạng số thì để nguyên cũng OK

      • Hoàn thành code có thể nộp được trước

    2. Phần 2: Nâng cao nếu còn thời gian (chỉ khi rảnh rỗi)

      • Thử phương pháp khôi phục cột đã xóa

      • Xác nhận việc cải thiện hiệu suất

    Lưu ý

    • Quản lý thời gian là ưu tiên hàng đầu! Code có thể nộp quan trọng hơn việc tiền xử lý hoàn hảo

    • Trong baseline thì xóa đi và sau khi nộp lần 1, khi còn thời gian thì thử thách lại! Nộp lần 2

    0
  • roadmap님의 프로필 이미지

    1. ANOVA / Phân tích phương sai hai yếu tố / Phân tích phương sai một yếu tố

    → Yếu tố phân loại nên sử dụng C() là chuẩn mực

    Ví dụ:

    model = ols("y ~ C(group)", data=df).fit()
    anova_lm(model)
    • ANOVA về cơ bản là phân tích so sánh "sự khác biệt trung bình giữa các nhóm" → yếu tố là dạng phân loại.

    • Do đó, ngay cả khi bài toán không ghi rõ bằng lời là "phân loại",

    • Vì bản thân yếu tố đã là biến nhóm nên C() là giá trị mặc định.

    Tức là,
    Dù là số → C()
    Dù là ký tự → C()


    2. Phân tích hồi quy (ols)

    Chỉ các biến được chỉ định rõ ràng là phân loại trong bài toán mới sử dụng C()

    Ví dụ:

    ols("y ~ x1 + region", data=df)
    
    • Việc tự động xử lý thành dạng phân loại chỉ vì dữ liệu ở dạng số là không đúng

    • Các biến số không được đề bài nói là "biến phân loại" thì được xử lý như biến liên tục


    3. Hồi quy logistic ( logit)

    Nguyên tắc tương tự như ols

    Ví dụ:

    logit("target ~ x1 + job_type", data=df)
    
    • logit chỉ cần C() khi trong đề bài có ghi "phân loại" hoặc "categorical".
      Ngoài ra thì tuyệt đối không tự ý thêm C().

    0
  • roadmap님의 프로필 이미지

    Thật tiếc là không có phím tắt thực thi.

    • Chú thích : Ctrl + /
      Chú thích nhiều dòng: Chọn khối sau đó Ctrl + /

    • Phóng to: Ctrl + '+'

    • Thu nhỏ: Ctrl + '-' Nếu màn hình nhỏ...

    • Di chuyển đầu dòng: Ctrl + phím mũi tên trái chủ yếu sử dụng khi đặt dấu ngoặc

    • Di chuyển cuối dòng: Ctrl + phím mũi tên phải chủ yếu sử dụng khi đặt dấu ngoặc

    • Tìm kiếm: Ctrl + f

      • Ctrl + f cũng có thể sử dụng trong tab dữ liệu cơ bản

        image.png
      • Sao chép-dán nội dung được xuất ra bằng dir và help vào 'Notepad' (phải thực hiện bằng chuột)

      • Có thể sử dụng chức năng tìm kiếm

      • Không thể tìm kiếm trong chính kết quả thực thi (đầu ra)

        image.png

    Liên kết trải nghiệm thực hành

    https://dataq.goorm.io/exam/3/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B%A4%EA%B8%B0-%EC%B2%B4%ED%97%98/quiz/2%3Fembed

    0

2.531.136 ₫