Tìm kiếm tín hiệu và nhiễu bằng cách thu thập và phân tích dữ liệu chứng khoán bằng Python
Đây không phải là một bài giảng về đầu tư. Khóa học này tập trung vào việc thu thập, phân tích và trực quan hóa dữ liệu thông qua dữ liệu chứng khoán. Bạn sẽ được làm việc với nhiều định dạng dữ liệu khác nhau và học các kỹ thuật tiền xử lý văn bản đa dạng. Khóa học cũng đề cập đến các kỹ thuật trực quan hóa dữ liệu chuỗi thời gian, phương pháp biểu diễn quy mô (scale) và một số kỹ thuật để giải mã dữ liệu giá cổ phiếu. Đây là khóa học giúp bạn tìm ra cách đạt được thông tin chi tiết (insight) thông qua phân tích dữ liệu. Nội dung học từ dữ liệu giá cổ phiếu được thiết kế để bạn có thể áp dụng vào việc thu thập, phân tích và trực quan hóa các loại dữ liệu sử dụng chuỗi thời gian khác như nhu cầu, hàng tồn kho, doanh số và lưu lượng truy cập.
Tôi thực sự nghĩ đây là bài giảng hay nhất!!! Tôi đã học nhiều bài giảng, nhưng tôi nghĩ đây là bài giảng đầu tiên mà tôi học được nhiều và hữu ích như bài giảng của Giáo sư Jo-eun Park! Có một số ngữ pháp khiến tôi bối rối nên tôi nghĩ, “Hmm... tại sao lại như vậy?” Có những lúc tôi nghĩ “Tại sao ngữ pháp này không hiệu quả?” ngay sau khi giáo viên giải thích khái niệm trong video. Có rất nhiều người đặt câu hỏi" Tôi nhớ mỗi lần đến lớp đều rất ngạc nhiên khi anh ấy chỉ ra chính xác những điều tôi tò mò. Đó thực sự là một lớp học hữu ích và lớp học về phân tích dữ liệu chứng khoán rất thú vị nên tôi đã hoàn thành toàn bộ lớp học trong vòng chưa đầy một tháng! Tôi nghĩ tất cả các bạn đang suy nghĩ về nó sẽ đưa ra lựa chọn mà bạn sẽ không hối hận! Nếu bạn đang suy nghĩ thì hãy đăng ký tham gia bài giảng của Giáo sư Jo-Eun Park ngay nhé!!!! 5 sao!
5.0
hakjuknu
94% đã tham gia
Tuyệt vời!
5.0
moonchoh
100% đã tham gia
Tôi tham gia lớp học vì tôi quan tâm đến chứng khoán.
Đã được một thời gian kể từ khi bắt đầu bài giảng, nhưng
Tôi rất mong được hoàn thành khóa học ^^
Bạn sẽ nhận được điều này sau khi học.
Web scraping chứ không phải crawling
Thu thập thông tin giá cổ phiếu thực sự chỉ bằng một dòng mã thông qua FinanceDataReader
Thu thập dữ liệu chỉ với một hoặc hai dòng mã Pandas
Cách thu thập dữ liệu mà không cần lập trình phức tạp dựa trên việc hiểu tab Network của trình duyệt
Xử lý định dạng tệp JSON
Xử lý dữ liệu chuỗi thời gian và tìm hiểu các phép toán đa dạng thông qua diff, shift
Tính tỷ suất sinh lời hàng ngày và tỷ suất sinh lời tích lũy của giá cổ phiếu
Sự khác biệt và cách sử dụng của seaborn, plotly, pandas plot, matplotlib
1. Matplotlib
- Đặc điểm: Là thư viện vẽ đồ thị cơ bản nhất trong Python. Có khả năng tùy chỉnh rất cao nhưng mã nguồn thường dài và phức tạp.
- Cách sử dụng: Dùng khi cần điều chỉnh chi tiết từng yếu tố nhỏ của đồ thị hoặc khi tạo các biểu đồ tĩnh cho bài báo, báo cáo.
2. Seaborn
- Đặc điểm: Được xây dựng dựa trên Matplotlib. Cung cấp các kiểu dáng đẹp mắt hơn và hỗ trợ các biểu đồ thống kê phức tạp (như heatmap, violin plot) một cách dễ dàng.
- Cách sử dụng: Dùng khi cần phân tích dữ liệu thống kê một cách nhanh chóng với giao diện đẹp mắt.
3. Pandas Plot
- Đặc điểm: Là chức năng vẽ đồ thị được tích hợp sẵn trong thư viện Pandas (thực chất là gọi Matplotlib ở bên dưới). Rất tiện lợi vì có thể vẽ trực tiếp từ DataFrame.
- Cách sử dụng: Dùng để kiểm tra nhanh hình dạng của dữ liệu trong quá trình xử lý dữ liệu.
4. Plotly
- Đặc điểm: Thư viện đồ thị tương tác (interactive). Cho phép phóng to, thu nhỏ và hiển thị giá trị khi di chuột qua.
- Cách sử dụng: Dùng khi tạo dashboard web hoặc khi cần trình bày dữ liệu mà người dùng có thể tương tác trực tiếp.
Kỹ thuật trực quan hóa tương tác thông qua plotly và cufflinks
Các phương pháp filter, merge, concat và tiền xử lý văn bản (text) trong Pandas
Cách thu thập và phân tích tất cả các mã ETF, ngành/chủ đề
Thực hiện và hiểu nguyên lý của các chỉ báo phụ như Bollinger Bands, MACD, RSI, v.v.
Hiểu các thuật ngữ dành cho người mới bắt đầu đầu tư chứng khoán như PER, EPS, BPS, PBR, ETF, Inverse, Leverage, và Phòng vệ rủi ro hối đoái (Hedge)
Học về dữ liệu từ A đến Z với dữ liệu chứng khoán, hãy cùng làm quen từ thu thập - phân tích - đến trực quan hóa!
Tìm kiếm tín hiệu và tiếng ồn trong dữ liệu, và nhận được nhiều thông tin chi tiết hơn! 📈
Các bạn ơi, có thể các bạn đã biết đến cuốn sách <Tín hiệu và Độ nhiễu> rồi đúng không? Chúng ta cố gắng dự đoán tương lai bất định và tìm kiếm thông tin chi tiết thông qua việc phân tích và trực quan hóa dữ liệu. Chính vì vậy, việc tìm ra tín hiệu và độ nhiễu trong vô số dữ liệu chính là công việc mà một nhà phân tích dữ liệu phải làm.
Khóa học này bắt đầu chính từ quan điểm đó. Đó là việc nhận và phân tích dữ liệu giá cổ phiếu chứng khoán đang lên xuống ngay tại thời điểm này theo thời gian thực.
Trong khóa học này, thông qua 3 giai đoạn thu thập/tiền xử lý dữ liệu - phân tích - trực quan hóa,
Thay vì sử dụng dữ liệu do người khác thu thập, chúng ta sẽ tìm hiểu cách tự thu thập và tiền xử lý dữ liệu.
Mục tiêu là giúp bạn nắm vững và áp dụng các phương pháp phân tích dữ liệu vào công việc hoặc nghiên cứu.
Phân tích dữ liệu, tại sao nên học qua dữ liệu chứng khoán? 📊
Nếu bạn phải sao chép và dán nội dung từ hàng chục, hàng trăm trang web vào Excel?
Nếu bạn không biết phải bắt đầu từ đâu vì dữ liệu thu thập được quá lộn xộn?
Nếu bạn không biết cách áp dụng các thuật ngữ thống kê đã học từ thời cấp hai như thế nào?
👉 Nếu bạn cảm thấy đồng cảm, thì bây giờ chính là lúc để rèn luyện thể lực cơ bản về dữ liệu!
Bạn có biết rằng Pandas, một thư viện phân tích dữ liệu bằng Python, đã được phát triển bởi một chuyên gia định lượng (Quant) làm việc tại thị trường chứng khoán không? Dữ liệu chứng khoán là loại dữ liệu mà bạn có thể áp dụng đa dạng các phương pháp phân tích, công thức và thống kê.
Sự khác biệt giữa dữ liệu phân loại và dữ liệu số là gì, phương pháp trực quan hóa phù hợp để tìm ra tín hiệu và nhiễu trong dữ liệu là gì... Bằng cách phân tích dữ liệu chứng khoán, bạn có thể học được cách xử lý dữ liệu ở nhiều định dạng khác nhau.
Rèn luyện nền tảng dữ liệu cơ bản thông qua phân tích dữ liệu chứng khoán.
✅ Bạn cũng có thể tự mình thực hiện các phân tích kỹ thuật như Đường trung bình động, Dải Bollinger, MACD và RSI, và
✅ Bạn cũng có thể vẽ biểu đồ chỉ với một hoặc hai dòng mã thông qua các thư viện đã được triển khai sẵn.
✅ Hiểu nguyên lý về phân tích kỹ thuật và thử triển khai biểu đồ giống như những gì bạn thấy trên HTS hoặc MTS.
Ai nên học khóa học này? 🔍
Những người muốn học phân tích dữ liệu với dữ liệu thực tế
Những người muốn nhập môn phân tích dữ liệu bằng Python
Những người muốn học cách thu thập và tiền xử lý dữ liệu
Những người muốn triển khai/phân tích các chỉ báo phụ như Bollinger Bands, MACD, RSI
📢 Hãy kiểm tra kiến thức tiên quyết!
Khóa học này dành cho trình độ từ sơ cấp trở lên, yêu cầu các kiến thức tiên quyết sau đây.
Cách đọc bảng dưới dạng Excel (hiểu về hàng và cột)
Các phép tính toán cơ bản và kiến thức toán học cấp trung học cơ sở
Hiểu về số trung bình, số trung vị, tỷ lệ phần trăm, phương sai và độ lệch chuẩn
Hiểu biết về chuỗi (string), số (number), danh sách (list) và biến (variable) trong Python
Tôi sẽ cho bạn biết những đặc điểm cốt lõi chỉ có ở bài giảng này. ⚡️
Một, thu thập dữ liệu chỉ với một hoặc hai dòng mã 🧹
Chúng ta sẽ tìm hiểu cách thu thập dữ liệu từ các trang web — vốn tưởng chừng như chỉ có thể thu thập được bằng các công cụ nặng nề như Selenium — chỉ với một hoặc hai dòng mã bằng cách tận dụng tab Network của trình duyệt. Bạn có thể tự mình thu thập và phân tích các thông tin cần thiết cho công việc hoặc nghiên cứu.
Thứ hai, các công cụ trực quan hóa động cũng OK. 📈
Trong khóa học này, chúng ta sẽ không chỉ học cách sử dụng các công cụ trực quan hóa tĩnh mà còn cả các công cụ trực quan hóa động. Thông qua việc trực quan hóa dữ liệu động, bạn sẽ có thể truyền tải và triển khai các thông tin sâu rộng và phức tạp một cách hiệu quả hơn so với khi chỉ sử dụng các công cụ trực quan hóa tĩnh.
Ba, giúp bạn nuôi dưỡng khả năng nhìn nhận bức tranh tổng thể 🧰
Việc học nhiều công cụ cùng một lúc sẽ rất khó khăn. Bạn chỉ cần hiểu các chức năng cốt lõi là đủ. Nếu bạn biết cách đọc và hiểu tài liệu hướng dẫn ngay cả khi công cụ thay đổi, bạn sẽ không còn sợ hãi khi các thư viện mới xuất hiện.
Bốn, thư viện được sử dụng một cách tiện lợi! 💡
Những tính năng mà chúng ta cảm thấy cần thiết đều đã được ai đó tạo sẵn dưới dạng các thư viện trừu tượng. Chúng ta sẽ tìm hiểu cách cài đặt và làm quen với các công cụ mới. Bạn có thể sử dụng chúng một cách tiện lợi khi phân tích dữ liệu thực tế.
Thứ năm, cung cấp tài liệu thực hành phong phú. 💻
Chúng tôi cung cấp 2 loại tài liệu thực hành: tệp chưa nhập mã (input) và tệp đã nhập mã (output). Bạn có thể vừa theo dõi bài giảng vừa trực tiếp nhập mã vào các ô trống có phần giải thích, hoặc thực hành bằng cách chạy tệp đã có sẵn mã, hoặc cũng có thể ôn tập bằng cách điền vào các ô trống sau khi đã nghe xong bài giảng.
Sáu, từ phân tích kỹ thuật đến các chỉ báo bổ trợ! 📖
Khóa học bao gồm quá trình giúp bạn hiểu rõ nguyên lý bằng cách trực tiếp triển khai và hiển thị các chỉ báo phụ khác nhau (Đường trung bình động, Bollinger Bands, RSI, MACD...) thường thấy trên HTS và MTS của các công ty chứng khoán lên biểu đồ trực quan. Khóa học này sẽ rất hữu ích cho những ai muốn học cách tự mình triển khai và phân tích các loại chỉ báo phụ khác nhau.
Cung cấp 2 loại tài liệu thực hành: tệp chưa nhập mã (input) và tệp đã nhập mã (output)
Tự triển khai và hiểu rõ nguyên lý của các chỉ báo phụ trợ (Đường trung bình động, Bollinger Bands, RSI, MACD) có thể thấy trên HTS, MTS
Chỉ với một khóa học bạn có thể học được nhiều kỹ năng như thế này. 📌
Giới thiệu ngắn gọn về những kỹ năng bạn sẽ học được trong khóa học này!
🐼 Pandas : Là công cụ phân tích dữ liệu tiêu biểu của Python, được tạo ra để phục vụ việc phân tích dữ liệu tài chính.
🧮 Numpy : Là công cụ tính toán số học của Python.
📊 matplotlib : là công cụ trực quan hóa dữ liệu tiêu biểu của Python.
📊 seaborn : là công cụ trực quan hóa cấp cao được trừu tượng hóa từ matplotlib để dễ sử dụng hơn, cung cấp các phép toán thống kê cơ bản.
📊 plotly : cung cấp các tính năng trực quan hóa cấp cao và cấp thấp, đồng thời cho phép trực quan hóa tương tác.
📊 cufflinks : là một công cụ hiệu quả giúp kết nối mạnh mẽ giữa plotly và pandas.
📈 FinanceDataReader : là công cụ có thể thu thập dữ liệu tài chính chỉ với một hoặc hai dòng mã.
🌏 Requests : là công cụ có thể lấy mã nguồn của trang web thông qua giao thức HTTP.
🔍 BeautifulSoup4 : Là công cụ có thể lấy thông tin mong muốn từ mã nguồn của trang web.
⏰ tqdm : Có thể xem trạng thái tiến độ của các tác vụ mất nhiều thời gian trong việc thu thập hoặc tiền xử lý dữ liệu.
Hãy kiểm tra trước những nội dung bạn thắc mắc! 🙋♀️
Q. Người không thuộc chuyên ngành có thể học được không?
Phân tích dữ liệu là một kỹ năng có rất nhiều đất dụng võ nếu bạn nắm vững, bất kể bạn có theo đúng chuyên ngành hay không. Thay vì Excel, nếu bạn học được các kỹ thuật phân tích dữ liệu thông qua Python, bạn có thể áp dụng đa dạng vào cả công việc lẫn nghiên cứu. Tôi đã từng thực hiện các bài giảng doanh nghiệp cho các nhóm ngành ngoài phát triển phần mềm thông qua chương trình đào tạo offline với nội dung tương tự. Tôi cũng đã tiến hành nhiều cuộc phỏng vấn về những khó khăn thực tế tại hiện trường để bổ sung và hoàn thiện giáo trình. Việc nắm vững các chức năng cốt lõi để phân tích và trực quan hóa sẽ giúp bạn nâng cao hiệu suất công việc.
Q. Tại sao phải học kỹ năng phân tích và thu thập dữ liệu bằng Python?
Excel là một trong những kỹ năng thiết yếu của nhân viên văn phòng dù làm bất kỳ công việc nào. Tuy nhiên, Excel có những hạn chế về kích thước và loại dữ liệu có thể tải lên, nhưng nếu bạn thành thạo thông qua Python, bạn sẽ có thể xử lý nhiều định dạng khác nhau và cả dữ liệu dung lượng lớn.
Q. Học kỹ năng phân tích và thu thập dữ liệu có lợi ích gì?
Để thu thập dữ liệu cần thiết, đôi khi bạn phải thực hiện các công việc lặp đi lặp lại như chuyển từng trang, kéo thả và sao chép-dán. Giờ đây, hãy để Python đảm nhận những việc này⏰, còn bạn có thể dành thời gian cho những việc hiệu quả hơn hoặc nghỉ ngơi🧘♀️.
Q. Có điều gì cần chuẩn bị trước khi nghe bài giảng không?
Sẽ rất hữu ích nếu bạn hiểu các khái niệm như biến, số, chuỗi và danh sách trong Python. Ngoài ra, bạn cũng cần có kiến thức toán học cấp trung học cơ sở như trung bình, trung vị, phương sai, độ lệch chuẩn và phân vị.
Q. Nội dung khóa học sẽ bao gồm đến cấp độ nào?
Chúng tôi tiến hành thu thập, tiền xử lý, phân tích và trực quan hóa dữ liệu chứng khoán. Nội dung bao gồm các kỹ năng Python từ cơ bản đến trung cấp. Độ khó sẽ tăng lên đáng kể từ phần thu thập thông tin chủ đề ngành. Mục tiêu là để các nhóm ngành khác nhau như lập kế hoạch, marketing, bán hàng, vận hành có thể trực tiếp ứng dụng phân tích dữ liệu vào công việc. Nếu bạn mới làm quen với lập trình, bạn có thể cảm thấy khó khăn từ giữa khóa học. Trong trường hợp này, tôi khuyên bạn nên chạy thử các tệp hoàn chỉnh có tên kết thúc bằng "output" trong số các tài liệu mà giảng viên cung cấp, sau đó tạo một ô mã (code cell) ngay bên dưới và làm theo y hệt.
Q. Máy tính cần có cấu hình như thế nào để có thể theo học?
Chỉ cần PC hoặc laptop có bộ nhớ RAM từ 4GB trở lên và dung lượng lưu trữ còn trống khoảng 20GB là được. Nếu hiệu suất máy tính thấp, bạn có thể thực hành thông qua Google Colaboratory.
Q. Tôi có thể tóm tắt nội dung bài học và công khai trên blog cá nhân hoặc GitHub không?
Bản quyền đã được ghi chú trên GitHub của bài giảng tương ứng. Khi tổng hợp và công khai, vui lòng ghi rõ nguồn trích dẫn.
Vui lòng kiểm tra trước khi đăng ký học! ⚠️
Những người muốn dự báo thông qua các mô hình chuỗi thời gian như ARIMA, học máy (machine learning) hoặc học sâu (deep learning): Khóa học chủ yếu tập trung vào thu thập, tiền xử lý, phân tích và trực quan hóa dữ liệu. Không bao gồm quá trình dự báo dữ liệu tương lai.
Những người muốn giao dịch tự động: Chúng tôi không sử dụng API của các công ty chứng khoán liên quan đến giao dịch tự động.
Những người kỳ vọng rằng việc thành thạo phân tích dữ liệu sẽ giúp đạt được lợi nhuận lớn trên thị trường chứng khoán: Đây không phải là bài giảng về đầu tư chứng khoán mà là bài giảng về phân tích dữ liệu. Thật đáng tiếc, nếu bạn kỳ vọng vào các kỹ năng liên quan đến đầu tư, bạn có thể sẽ thất vọng. Ngoài ra, ngay cả khi bạn thực hiện đầu tư thông qua các kỹ thuật phân tích đã học trong bài giảng, trách nhiệm đối với các khoản lỗ đầu tư thuộc về chính nhà đầu tư.
Vui lòng nghe trước một số bài giảng được công khai thông qua Xem trước trên Inflearn hoặc kênh YouTube rồi mới quyết định có đăng ký học hay không.
Bạn có thể xem trước một số bài học trước khi đăng ký. Hãy kiểm tra xem đây có đúng là hướng học tập mà bạn mong muốn hay không. Ngoài ra, nếu có bất kỳ thắc mắc nào, vui lòng đặt câu hỏi thông qua mục tư vấn trước khi đăng ký học.
Nếu bạn tò mò về người chia sẻ kiến thức đã tạo ra bài giảng này? 👩💻
Phỏng vấn Người chia sẻ tri thức Park Jo-eun X Inflearn
Khuyến nghị cho những người này
Khóa học này dành cho ai?
Những người muốn học phân tích và trực quan hóa bằng dữ liệu chứng khoán hơn là mục đích đầu tư.
Những người muốn học phân tích dữ liệu thông qua dữ liệu thực tế sống động
Những người muốn bắt đầu học phân tích dữ liệu bằng Python
Những người muốn tìm hiểu phương pháp thu thập dữ liệu
Những người muốn tìm hiểu cách tiền xử lý dữ liệu đã thu thập được
Cách tự triển khai và phân tích các chỉ báo phụ trợ như Bollinger Bands, MACD và RSI
Cần biết trước khi bắt đầu?
Cách đọc bảng dạng Excel (Hiểu về hàng và cột)
Các phép toán cơ bản và kiến thức toán học cấp trung học cơ sở
Hiểu về số trung bình, số trung vị, tỷ lệ phần trăm, phương sai và độ lệch chuẩn
Tìm hiểu về chuỗi, số, danh sách và biến trong Python
Thiết kế bài giảng và giảng viên khóa học Khoa học dữ liệu tại Boostcourse, Naver Connect Foundation
Đại học Quốc gia Seoul (Trường Đại học Chia sẻ Đổi mới Big Data), Viện Giáo dục Trọn đời Đại học Quốc gia Seoul, Học viện DX Đại học Yonsei, ABC Camp Đại học Hanshin, Cao học Đại học Hanyang, Đại học Quốc gia Chonnam,
Giảng dạy tại nhiều tổ chức giáo dục và doanh nghiệp như Hiệp hội Quản lý Hàn Quốc (KMA), Viện Nghiên cứu Quản lý Toàn cầu IGM, Samsung SDS Multicampus, Like Lion, Fast Campus, Modulabs, Trung tâm Ung thư Quốc gia, v.v.
Phân tích dữ liệu doanh nghiệp thuộc nhiều lĩnh vực khác nhau (dược phẩm, viễn thông, ô tô, thương mại điện tử, giáo dục, cơ quan chính phủ, v.v.)
Hơn 20 năm kinh nghiệm làm việc thực tế với tư cách là nhà phát triển Web Backend và nhà phân tích dữ liệu trong nhiều lĩnh vực khác nhau như trò chơi, quảng cáo và giáo dục.
Tôi thực sự nghĩ đây là bài giảng hay nhất!!! Tôi đã học nhiều bài giảng, nhưng tôi nghĩ đây là bài giảng đầu tiên mà tôi học được nhiều và hữu ích như bài giảng của Giáo sư Jo-eun Park! Có một số ngữ pháp khiến tôi bối rối nên tôi nghĩ, “Hmm... tại sao lại như vậy?” Có những lúc tôi nghĩ “Tại sao ngữ pháp này không hiệu quả?” ngay sau khi giáo viên giải thích khái niệm trong video. Có rất nhiều người đặt câu hỏi" Tôi nhớ mỗi lần đến lớp đều rất ngạc nhiên khi anh ấy chỉ ra chính xác những điều tôi tò mò. Đó thực sự là một lớp học hữu ích và lớp học về phân tích dữ liệu chứng khoán rất thú vị nên tôi đã hoàn thành toàn bộ lớp học trong vòng chưa đầy một tháng! Tôi nghĩ tất cả các bạn đang suy nghĩ về nó sẽ đưa ra lựa chọn mà bạn sẽ không hối hận! Nếu bạn đang suy nghĩ thì hãy đăng ký tham gia bài giảng của Giáo sư Jo-Eun Park ngay nhé!!!! 5 sao!
Là một sinh viên nghệ thuật tự do, tôi không quen với lập trình, nhưng tôi đã tham gia một khóa học về dữ liệu công cộng để bắt đầu phân tích dữ liệu. Đó là một chuyên ngành nghệ thuật tự do, nhưng tôi nghĩ bây giờ tôi đã hiểu rõ về nó vì tôi đã nghe đi nghe lại nó! Tôi nghĩ rằng tôi có thể áp dụng Python ở nhiều nơi trong tương lai bằng cách học cách sử dụng thư viện cũng như xem tài liệu và trợ giúp. Các công cụ trực quan hóa dữ liệu Python bao gồm nhiều chủ đề khác nhau, vì vậy tôi nghĩ chúng sẽ giúp ích rất nhiều khi trực quan hóa mọi thứ trong tương lai. Nhờ đó tôi đã có thêm kiến thức về chứng khoán.
Tôi tham gia lớp học vì tôi quan tâm đến chứng khoán.
Đã được một thời gian kể từ khi bắt đầu bài giảng, nhưng
Tôi rất mong được hoàn thành khóa học ^^