inflearn logo
inflearn logo

Bắt đầu phân tích dữ liệu Python với dữ liệu công khai

Có tin đồn rằng Ediya sẽ mở một cửa hàng gần Starbucks. Vị trí cửa hàng của Ediya và Starbucks khác nhau như thế nào? Liệu xu hướng biến động giá bất động sản từ năm 2013 – 2019 có được phản ánh vào giá bán căn hộ? Có những công viên nào trong khu phố của chúng tôi? Làm cách nào chúng tôi có thể sử dụng dữ liệu trong cổng dữ liệu công cộng? Mục tiêu là xử lý nhiều loại dữ liệu khác nhau thông qua dữ liệu công cộng và làm quen với Python cũng như các thư viện phân tích dữ liệu khác nhau.

(4.9) 339 đánh giá

6,361 học viên

Độ khó Cơ bản

Thời gian Không giới hạn

Python
Python
Pandas
Pandas
Numpy
Numpy
Python
Python
Pandas
Pandas
Numpy
Numpy

Tin tức

5 bài viết

  • todaycode님의 프로필 이미지

    Xin chào. Cảm ơn tất cả mọi người đã tham gia khóa học.

    💻 Tìm tín hiệu và tiếng ồn bằng cách thu thập và phân tích dữ liệu chứng khoán 👉 http://bit.ly/inflearn-finace-data

    Một khóa học mới đã được mở. Chúng tôi cung cấp giảm giá 30% trong thời gian đăng ký sớm.

    📈Tìm tín hiệu và tiếng ồn bằng dữ liệu chứng khoán

    Chúng tôi nhận và phân tích dữ liệu giá cổ phiếu hiện đang tăng và giảm theo thời gian thực.
    Tìm hiểu cách tự thu thập dữ liệu thay vì sử dụng dữ liệu do người khác thu thập.
    Tìm hiểu cách xử lý trước.
    Mục đích là tìm hiểu và áp dụng các phương pháp phân tích dữ liệu để sử dụng trong công việc hoặc nghiên cứu.

    📊 Lý do nên học phân tích dữ liệu bằng dữ liệu chứng khoán

    Bạn có biết rằng Pandas được phát triển bởi một định lượng làm việc trong ngành chứng khoán?!
    Dữ liệu chứng khoán là dữ liệu có thể áp dụng các phương pháp phân tích, công thức, thống kê khác nhau, v.v.

    Điều gì sẽ xảy ra nếu bạn cần sao chép và dán nội dung của hàng chục, hàng trăm trang của một trang web vào Excel?!

    Điều gì sẽ xảy ra nếu dữ liệu thu thập được quá lộn xộn khiến bạn không biết bắt đầu từ đâu?

    Sự khác biệt giữa dữ liệu phân loại và dữ liệu số là gì?
    Phương pháp trực quan thích hợp để tìm tín hiệu và nhiễu trong dữ liệu là gì?!
    Bạn có thể tìm hiểu cách xử lý dữ liệu ở nhiều định dạng khác nhau.

    Bạn cũng có thể thực hiện phân tích kỹ thuật như đường trung bình động, Dải Bollinger, MACD và RSI.
    Bạn cũng có thể vẽ bằng một hoặc hai dòng mã bằng thư viện đã được triển khai.
    Hiểu các nguyên tắc phân tích kỹ thuật
    Hãy triển khai biểu đồ như bạn thấy trong HTS hoặc MTS.

    ⚡️ Tính năng bài giảng  

    🧹 Dữ liệu từ các trang web tưởng chừng như chỉ có thể được thu thập bằng các công cụ nặng như Selenium
    Tìm hiểu cách thu thập dữ liệu chỉ bằng một hoặc hai dòng mã bằng tab mạng của trình duyệt.
    Bạn có thể trực tiếp thu thập và phân tích những thông tin cần thiết cho công việc hoặc nghiên cứu.

    📈 Tìm hiểu cách sử dụng không chỉ các công cụ trực quan tĩnh mà còn cả các công cụ trực quan động.

    🛠 Thật khó để học nhiều công cụ cùng một lúc.
    Ngay cả khi bạn sử dụng nhiều công cụ khác nhau, bạn chỉ cần hiểu các chức năng cốt lõi.
    Biết cách xem và hiểu tài liệu ngay cả khi công cụ thay đổi
    Đừng lo lắng khi có thư viện mới xuất hiện.

    💡Ai đó đã tạo một thư viện trừu tượng cho các tính năng mà chúng tôi cảm thấy cần.
    Tìm hiểu cách cài đặt và tìm hiểu các công cụ mới.

    🛠 Giới thiệu kỹ năng học tập

    🐼 Pandas : Công cụ phân tích dữ liệu tiêu biểu của Python, được tạo ra để phân tích dữ liệu tài chính.
    🧮 Numpy : Công cụ tính toán số của Python.
    📊 matplotlib : Công cụ trực quan hóa dữ liệu tiêu biểu của Python.
    📊 seaborn : Một công cụ trực quan cấp cao trừu tượng hóa matplotlib để dễ sử dụng và cung cấp các thao tác thống kê cơ bản.
    📊 âm mưu : Cung cấp các chức năng hiển thị cấp cao và cấp thấp và cho phép trực quan hóa tương tác.
    📊 khuy măng sét : Một công cụ hiệu quả giúp kết nối mạnh mẽ âm mưu và gấu trúc.
    📈 FinanceDataReader : Một công cụ cho phép bạn thu thập dữ liệu tài chính bằng một hoặc hai dòng mã.
    🌏 Yêu cầu : Một công cụ cho phép bạn nhận mã nguồn của trang web thông qua giao tiếp HTTP.
    🔍 BeautifulSoup4 : Một công cụ có thể truy xuất thông tin mong muốn từ mã nguồn của một trang web.
    ⏰ tqdm : Bạn có thể xem tiến độ của các tác vụ tiêu tốn nhiều thời gian trong quá trình thu thập hoặc tiền xử lý dữ liệu.

    📊 Cách sử dụng và sự khác biệt giữa các thư viện trực quan khác nhau

    Nguồn hình ảnh: https://pyviz.org/overviews/index.html

    💻  Cung cấp 2 loại tài liệu thực hành: file không có mã (đầu vào) và file có đầu vào (đầu ra)

    Bạn cũng có thể nhập mã trực tiếp vào ô trống kèm theo lời giải và theo dõi bài giảng theo từng dòng.
    Bạn cũng có thể thực hành bằng cách thực thi tệp mã .
    Bạn có thể nghe toàn bộ bài giảng và ôn tập bằng cách điền vào các ô trống .

    📈 Trực tiếp thực hiện và hiểu rõ nguyên tắc của các chỉ báo phụ trợ (đường trung bình động, Dải Bollinger, RSI, MACD) có trong HTS và MTS

    🙋‍♀️ Câu hỏi dự kiến ​​Hỏi đáp

    Người không chuyên có thể tham gia khóa học được không?
    Bất kể bạn học chuyên ngành hay không chuyên ngành, có rất nhiều cách để sử dụng phân tích dữ liệu nếu bạn học nó. Nếu bạn học các kỹ thuật phân tích dữ liệu bằng Python thay vì Excel, bạn có thể sử dụng nó theo nhiều cách khác nhau cho công việc và nghiên cứu. Chúng tôi đã cung cấp các bài giảng của công ty về nội dung này cho những người làm các ngành nghề không phải là phát triển thông qua chương trình giảng dạy ngoại tuyến. Chúng tôi đã thực hiện nhiều cuộc phỏng vấn khác nhau về các lĩnh vực khó khăn trong lĩnh vực này và bổ sung chương trình giảng dạy. Học các chức năng cốt lõi để phân tích và trực quan hóa sẽ giúp tăng hiệu quả công việc.

    Tại sao tôi nên học kỹ thuật phân tích và thu thập dữ liệu bằng Python?
    Excel là một trong những kỹ năng cần thiết của dân văn phòng dù làm bất cứ công việc gì. Tuy nhiên, Excel có những hạn chế như kích thước và loại dữ liệu có thể tải nhưng nếu học Python, bạn sẽ có thể xử lý được nhiều định dạng và lượng dữ liệu lớn.

    Học kỹ năng phân tích và thu thập dữ liệu có lợi ích gì?
    Để thu thập dữ liệu cần thiết, bạn thường phải xem hết trang này sang trang khác và thực hiện các tác vụ lặp đi lặp lại bằng cách kéo và thả cũng như sao chép và dán. Bây giờ bạn có thể giao công việc này cho Python và đầu tư thời gian của mình vào công việc hiệu quả hơn hoặc nghỉ ngơi🧘‍♀️.

    Tôi có thể làm được gì sau khi tham gia khóa học?
    Bạn sẽ có thể trực tiếp thu thập, phân tích và trực quan hóa dữ liệu được tạo ra từ công việc và nghiên cứu, đồng thời áp dụng nó vào sản xuất, tồn kho, bán hàng, lưu lượng truy cập, v.v. Bạn cũng có thể sử dụng nó để phân tích ngành giá cổ phiếu, chủ đề hoặc quỹ ETF mà bạn đang đầu tư nhưng các ý kiến ​​đầu tư không được trình bày trong bài giảng.

    Tôi có cần chuẩn bị gì trước khi tham dự buổi giảng không?
    Sẽ rất hữu ích khi hiểu các khái niệm của Python như biến, số, ký tự và danh sách. Ngoài ra, cần có kiến ​​thức toán cấp trung học cơ sở như giá trị trung bình, trung vị, phương sai, độ lệch chuẩn và phân vị.

    Nội dung khóa học được đề cập đến mức độ nào?
    Thu thập, tiền xử lý, phân tích và trực quan hóa dữ liệu chứng khoán. Bao gồm các kỹ năng Python từ cơ bản đến trung cấp. Mức độ khó tăng lên đáng kể từ việc thu thập thông tin chủ đề ngành. Mục tiêu là cho phép mọi người sử dụng trực tiếp phân tích dữ liệu trong các lĩnh vực khác nhau như lập kế hoạch, tiếp thị, bán hàng và vận hành. Nếu bạn là người mới làm quen với lập trình, có thể bạn sẽ cảm thấy khó khăn ngay từ giữa bài giảng. Trong trường hợp này,
    bạn nên xem tệp đã hoàn thành có tên “đầu ra” ở cuối tên tệp trong số các tài liệu do người hướng dẫn cung cấp, tạo ô mã ngay bên dưới và làm theo các bước tương tự.

    Tôi cần có trình độ máy tính như thế nào để tham gia khóa học?
    Sẽ không có vấn đề gì nếu bạn có PC hoặc máy tính xách tay có bộ nhớ 4G trở lên và khoảng 20G dung lượng lưu trữ còn lại. Nếu hiệu suất máy tính của bạn thấp, bạn có thể dùng thử thông qua Google Collaboratory .

    Tôi có thể sắp xếp nội dung khóa học và công khai trên blog cá nhân hoặc GitHub không?
    Có thông báo bản quyền trên GitHub cho khóa học này. Khi tổ chức và xuất bản vui lòng ghi rõ nguồn.

    ⚠️ Vui lòng kiểm tra trước khi tham gia khóa học.

    Những người mong muốn kiếm được lợi nhuận lớn trên thị trường chứng khoán bằng cách học phân tích dữ liệu
    Bài giảng này không phải là bài giảng đầu tư chứng khoán mà là bài giảng phân tích dữ liệu . Thật không may, nếu bạn mong đợi những kỹ năng liên quan đến đầu tư, bạn có thể thất vọng. Ngoài ra, ngay cả khi khoản đầu tư được thực hiện bằng cách sử dụng các kỹ thuật phân tích đã học trong bài giảng , nhà đầu tư vẫn phải chịu trách nhiệm về mọi khoản lỗ đầu tư.

    Trước tiên, vui lòng nghe một số bài giảng có sẵn thông qua Infron Preview hoặc kênh YouTube của người chia sẻ kiến ​​thức và sau đó quyết định có nên tham gia khóa học hay không .
    Bạn có thể xem trước một số khóa học trước khi tham gia. Hãy kiểm tra xem đây có phải là hướng bạn muốn học hay không. Nếu bạn có bất kỳ câu hỏi nào, vui lòng hỏi qua phần tìm hiểu trước khi tham gia khóa học.

    📈 Tìm tín hiệu và tiếng ồn bằng cách thu thập và phân tích dữ liệu chứng khoán 👉 http://bit.ly/inflearn-finace-data

    Sẽ có giảm giá 30% trong thời gian đăng ký sớm!

    Cảm ơn

    0
  • todaycode님의 프로필 이미지

    Xin chào.

    Đã hơn một năm kể từ khi tôi tổ chức khóa học " Kết hợp phân tích dữ liệu và trực quan hóa chỉ với hai tài liệu ".

    Giống như khóa học “Bắt đầu phân tích dữ liệu Python với dữ liệu công khai”, khóa học này sẽ được cập nhật liên tục.

    Nội dung phân tích về tình hình bùng phát dịch COVID-19 tại Seoul đã được bổ sung vào khóa học “ Phân tích và trực quan hóa dữ liệu chỉ trong hai tài liệu ”.

    để kỷ niệm bản cập nhật, chúng tôi sẽ giảm giá 20% cho đến ngày 24 tháng 7 .

    Ngay cả khi bạn không tham gia khóa học, bạn có thể xem một số khóa học trong " Kết hợp phân tích dữ liệu và trực quan hóa chỉ trong hai tài liệu " và toàn bộ mã nguồn cũng có thể được tải xuống từ khóa học .

    Chúng tôi thu thập dữ liệu, xử lý trước, phân tích và trực quan hóa dữ liệu trạng thái trường hợp đã được xác nhận ( https://www.seoul.go.kr/coronaV/coronaStatus.do ) do Chính quyền Thủ đô Seoul phát hành cho đến tháng 6 bằng cách sử dụng Pandas.

    Phân tích những gì bạn đã học được chỉ trong hai tài liệu thông qua một dự án tương tự như công việc hiện tại của bạn.

    Chúng tôi sẽ phân tích trang web về tình trạng bùng phát dịch bệnh COVID-19 của Thành phố Seoul bằng cách sử dụng Pandas, từ thu thập dữ liệu đến tiền xử lý, phân tích và trực quan hóa.

    Chúng tôi trực tiếp phân tích dữ liệu chúng tôi thường gặp thông qua các bài báo và cuộc sống hàng ngày.

    • Quận nào có nhiều trường hợp được xác nhận nhất?
    • Bệnh viện nào điều trị các trường hợp được xác nhận nhiều nhất?
    • Có bệnh viện nào nhận chuyển viện nhiều không?
    • Quận nào có số ca nhiễm từ nước ngoài được xác nhận cao nhất?
    • Làm cách nào tôi có thể xử lý trước văn bản cho nhiều quốc gia như Châu Âu, Nam Mỹ, v.v.?
    • Số ca xác nhận nhập cảnh từ nước ngoài thay đổi bao nhiêu theo từng tháng?

    Hiểu và thực hành các phương pháp tiền xử lý dữ liệu bằng Pandas.

    • Làm cách nào để có được năm, tháng, ngày, ngày trong tuần và tuần từ ngày văn bản?
    • Làm cách nào để tìm số lượng tích lũy các trường hợp được xác nhận bằng cách sử dụng dữ liệu trạng thái bệnh nhân đã được xác nhận?
    • Sự khác biệt giữa nhóm, chéo bảng, trục và bảng trụ và chức năng nào phù hợp để sử dụng?

     

    Hiểu cấu trúc dữ liệu của các khung và chuỗi dữ liệu và xử lý chúng thành dạng phù hợp để phân tích.

    • Tôi nên tạo khung dữ liệu để vẽ biểu đồ bằng cốt truyện của Pandas như thế nào?
    • Nếu tôi muốn hiển thị các giá trị có màu sắc khác nhau tùy thuộc vào các giá trị phân loại trong biểu đồ thì tôi nên thay đổi khung dữ liệu như thế nào?
    • Có cách nào để chuyển đổi một chuỗi thành khung dữ liệu không?

    Hãy tự mình kiểm tra nó trong khóa học!

     

     

    Nhờ có nhiều câu hỏi và đánh giá tốt về khóa học mà bạn đã để lại trong năm qua, chúng tôi đã có thể cập nhật khóa học.

    Chúng tôi sẽ tiếp tục cải thiện và cập nhật khóa học trong tương lai.

    Nếu bạn để lại một đánh giá tốt về khóa học, nó sẽ giúp ích rất nhiều trong việc liên tục cải thiện nội dung.

     

    Tôi hy vọng chúng ta có thể thoát khỏi COVID-19 và trở lại cuộc sống thường ngày!

    Cảm ơn

    0
  • todaycode님의 프로필 이미지

    Xin chào.

    📊 Bài giảng về bắt đầu phân tích dữ liệu Python với dữ liệu công khai đã được đổi mới hoàn toàn .

    Tiếp theo Chương 1 đến Chương 4, khóa học đã được tổ chức lại để tập trung vào tiền xử lý dữ liệu trong [Chương 5 Phân tích dữ liệu tiêu chuẩn của Công viên đô thị].

    ✍🏻Tất cả mã và video đã được viết lại .

    📈[Chương 5] Nội dung tiền xử lý dữ liệu đã được bổ sung đáng kể từ 55 phút hiện tại lên 217 phút .

    # Dữ liệu tiêu chuẩn của công viên thành phố yêu cầu xử lý trước dữ liệu khác nhau như giá trị bị thiếu, giá trị ngoại lệ, giá trị lỗi, ngày tháng, v.v., vì vậy tôi nghĩ nó phù hợp cho những ai muốn tìm hiểu cách xử lý trước thông qua dữ liệu thực.

    # Một phương pháp tạo báo cáo bằng Pandas Profiling, cho phép phân tích thống kê kỹ thuật dễ dàng và mạnh mẽ bằng nhiều thư viện khác nhau, đã được thêm vào.

    # Một phương pháp xử lý trước dữ liệu văn bản bằng cách sử dụng biểu thức thông thường đã được thêm vào. Ngoài ra, dữ liệu văn bản được hiển thị theo nhiều cách khác nhau.

    # Các kỹ thuật che giấu thông tin cần thiết để bảo vệ thông tin cá nhân đã được thêm vào.

    Trong bài giảng phân tích sự phân bố của các công viên đô thị hiện có, chúng tôi đã bổ sung đáng kể nội dung về các kỹ thuật khác nhau thường gặp trong công tác tiền xử lý.

    Đặc biệt, nội dung mới đã được thêm vào để bạn có thể tìm hiểu về quá trình tiền xử lý và phân tích văn bản bằng cách sử dụng biểu thức chính quy .

    # Một phương pháp để lập bảng chéo giữa dữ liệu phân loại và phân loại thông qua bảng chéo đã được thêm vào.

    Ngoài ra, chúng tôi sẽ sử dụng chức năng tạo kiểu của Pandas để thể hiện màu sắc trong khung dữ liệu mà không cần trực quan hóa.

    # Hãy thử những ứng dụng đa dạng hơn của kỹ thuật trực quan.

    Tổng hợp các cập nhật lớn

    #PandasHồ sơ

    - Tạo các báo cáo thống kê mô tả khác nhau về tất cả dữ liệu bằng một dòng mã

    # Cần xử lý trước nhiều dữ liệu khác nhau để thực hành

    - Tạo biến dẫn xuất

    - Thay thế các giá trị còn thiếu

    - Tìm và xử lý các giá trị ngoại lệ và lỗi

    - Thay đổi kiểu dữ liệu

    # Xử lý dữ liệu văn bản bằng biểu thức chính quy

    - Chỉ nhập dữ liệu bạn muốn

    - Chỉ trích xuất các từ khóa từ các loại văn bản khác nhau và đếm tần suất của chúng

    - Vẽ một đám mây từ

    - Tạo các hàm tiền xử lý dữ liệu văn bản để tái sử dụng code

    - Che giấu thông tin: Tìm và che giấu các mẫu thông tin cá nhân, số điện thoại, email và số đăng ký xe.

    # Biến số và biến phân loại

    - Tìm các biến số và phân loại theo kiểu dữ liệu

    - Sử dụng Pivot_table và Crosstab

    # Tìm các công viên xung quanh tôi và thể hiện chúng trên bản đồ

    - Tiền xử lý và hiển thị dữ liệu thông qua folium

    Nếu bạn để lại một đánh giá tốt về khóa học, nó sẽ giúp ích rất nhiều cho việc cải tiến và cải thiện khóa học!

    Cảm ơn

    3
  • todaycode님의 프로필 이미지

    Phân tích thông tin khu thương mại đã trở nên chi tiết hơn nhiều.

    Sau khi đổi mới Chương 1 , các Chương 2 đến 4 đã được đổi mới. Tất cả các video và mã nguồn đã được viết lại.

    <Trước khi gia hạn>

    <Sau khi gia hạn>

    Chương 2 29 phút => 167 phút

    Chương 3 37 phút => 101 phút

    Chương 4 91 phút => 113 phút

    Chúng tôi đã bổ sung nội dung và giải thích chi tiết hơn nhiều dựa trên những câu hỏi và phản hồi có giá trị mà chúng tôi nhận được trong năm qua.

    Ngoài ra, nó còn cung cấp các file thực hành và file kết quả cũng như liên kết để thực hành trực tiếp trên Google Colaboratory.

    <Chương 2 Học thống kê kỹ thuật với thông tin khu thương mại>

    Trực quan hóa các giá trị còn thiếu đa dạng hơn thông qua thiếu.

    Ngoài ra, chúng tôi xem xét mức sử dụng bộ nhớ thay đổi như thế nào khi xóa các giá trị bị thiếu và thảo luận các cách để giảm mức sử dụng bộ nhớ.

    Phân tích các nhà hàng riêng biệt và phân tích các giả thuyết về việc liệu có nhiều học viện tuyển sinh ở Daechi-dong và Mok-dong hay không đã được thêm vào .

    Ngoài ra, số liệu thống kê mô tả đã được bổ sung đáng kể .

    Khi tổng hợp dữ liệu số và phân loại thông qua mô tả, quy trình tính toán ý nghĩa của từng giá trị và giá trị riêng lẻ đã được thêm vào.

    Thông tin về việc thực hiện phân tích tương quan bằng cách tính hệ số tương quan và vẽ đường hồi quy cũng đã được thêm vào.

    <Chương 3 Phân tích mở cửa nhượng quyền>

    Chúng tôi trực quan hóa các biến khác nhau và trình bày chi tiết hơn cách trực quan hóa hai biến số thông qua Jointplot .

    Ngoài CircleMarker của Folium, mật độ cửa hàng theo vị trí được thể hiện bằng MarkerCluster và Heatmap .

    <Chương 4 So sánh vị trí cửa hàng Starbucks và Ediya>

    Để vẽ CircleMarkers một cách riêng biệt, chúng tôi đề cập đến quá trình tính toán kinh độ và vĩ độ trung bình thông qua Pivot_table mà không sử dụng câu lệnh for và hợp nhất các kết quả tính toán thông qua merge . Ngoài ra, lời giải thích đã trở nên chi tiết hơn nhiều.

    <Chương 5> cũng sẽ sớm được đổi mới!

    Tôi nghĩ nó sẽ giúp chúng tôi tạo ra các khóa học tốt hơn nếu bạn để lại nhận xét của mình thông qua các câu hỏi hoặc đánh giá khóa học trong tương lai!

    Chúng tôi mong nhận được đánh giá và phản hồi về khóa học của bạn :)

    1
  • todaycode님의 프로필 이미지

    Vào tháng 3 năm 2020, chúng tôi đã thu thập những phản hồi có giá trị nhận được trong quá trình hoạt động trong một năm.

    “Xu hướng giá bán căn hộ tư nhân mới trên toàn quốc theo Chương 1” hiện tại đã được đổi mới hoàn toàn.

    Kể từ Chương 1, phần giải thích và hình dung đã trở nên chi tiết hơn nhiều, từ 9 video hiện có (1 giờ 41 phút) đến 20 video (3 giờ 25 phút) .

    Nó xử lý nhiều loại biểu đồ hơn trước (bản đồ nhiệt, biểu đồ, biểu đồ phân phối, biểu đồ phân tán, biểu đồ hồi quy, v.v.) và đã thêm nội dung giúp vẽ các ô phụ dễ dàng hơn.

    Chúng tôi cũng cung cấp mã thực hành và mã kết quả.

    Để giúp bạn làm theo mã trong khi xem video , vui lòng sử dụng tệp thực hành ( 01-apt-price-input.ipynb ) cung cấp hướng dẫn đơn giản và tệp ( 01-apt-price-output.ipynb) hiển thị kết quả .

    Mời các bạn tham khảo video giới thiệu vị trí code và đường dẫn Google Collaboratory nhé!

    Hướng dẫn cho các chương khác cũng sẽ được đổi mới vào tháng 3 năm 2020!

    Cảm ơn

    0

1.395.176 ₫