Kafka & Spark ํ์ฉํ Realtime Datalake
์ด๋ณด์๋ฅผ ์ํ Kafka & Spark ์ค์๊ฐ ํ์ดํ๋ผ์ธ ์ ๋ฌธ ๊ฐ์. ํต์ฌ ๊ฐ๋ ๋ถํฐ ์ํคํ ์ฒ๊น์ง ๋ง์คํฐํ๊ธฐ ์ํ ์ฌ์ธ์ ๊ฐ์์ ๋๋ค.
์๊ฐ์ 279๋ช
๋์ด๋ ์ด๊ธ
์๊ฐ๊ธฐํ ๋ฌด์ ํ
- ๋ฏธํด๊ฒฐ
consumer๊ฐ ๋ชจ๋ ํํฐ์ ์ ์ฝ์ง ์๋ ์ด์๊ฐ ์์ต๋๋ค
<img src="https://cdn.inflearn.com/public/files/posts/99fb6d49-42f3-48fa-aad9-019430042975/2e67bf04-e3d2-454b-9e70-42239204aa3b.png" media-type="img"
kafkaapache-sparkpysparkdata-lake๋ฐค๋ฐ๋ฏธ
ใป
5์ผ ์
0
26
2
- ๋ฏธํด๊ฒฐ
๋๋ค ์ํคํ ์ฒ์์ speed layer ๊ด๋ จ ์ง๋ฌธ๋๋ฆฝ๋๋ค
์๋ ํ์ธ์~๋๋ค ์ํคํ ์ฒ์์ speed layer ๋ถ๋ถ์ ๊ถ๊ธํ ์ ์ด ์๊ฒจ ์ง๋ฌธ๋๋ฆฝ๋๋ค! <p style="text-align: le
kafkaapache-sparkpysparkdata-lake๋ฐค๋ฐ๋ฏธ
ใป
7์ผ ์
0
25
1
- ๋ฏธํด๊ฒฐ
์ํคํ ์ฒ ๊ด๋ จ ์ง๋ฌธ
์ํคํ ์ฒ ์ค๊ณ ๋ถ๋ถ์์ ๊ถ๊ธํ ์ ์ด ์์ด ์ง๋ฌธ๋๋ฆฝ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก์์ฒ
kafkaapache-sparkpysparkdata-lakenealzs
ใป
ํ ๋ฌ ์
0
48
1
- ๋ฏธํด๊ฒฐ
code deploy ๋ฐฐํฌ์๋ฌ
์๋ ํ์ธ์ code deploy ๋ฐฐํฌ์์ ์๋ฌ๊ฐ ๋ฐ์ํ์ฌ ๋ฌธ์ ์ฌ๋ฆฌ๊ฒ ๋์์ต๋๋ค. s3 bucket ๊น์ง tar.gz ํ์ผ ์ ์ ๋ก๋ ๋์์ต
kafkaapache-sparkpysparkdata-lake๊น๊ฑดํ
ใป
2๋ฌ ์
0
57
4
- ๋ฏธํด๊ฒฐ
/homework/ch10_3/dataframe_cache.py ๊ณผ์ ์ง๋ฌธ
์๋ ํ์ธ์.๊ณผ์ ๋์ค ์ง๋ฌธ์ด ์์ด ์ง๋ฌธ ๋จ๊น๋๋ค.์ฐ์ ์๋์ ์ ๊ฐ ์์ฑํ ์ฝ๋ ๋จ๊ธฐ๊ฒ ์ต๋๋ค!from pyspark.sql imp
kafkaapache-sparkpysparkdata-lake์นด์นด์ค๊ณต์ฑ-๊ฐ๋ฐ์ง๊ตฌ๋ณธ
ใป
3๋ฌ ์
0
62
2
- ๋ฏธํด๊ฒฐ
ch4_3 apache zookeeper ์ค์นํ์ผ ๊ด๋ จ ์ง๋ฌธ
ec2-user$ curl -O https://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz<p
kafkaapache-sparkpysparkdata-lake์นด์นด์ค๊ณต์ฑ-๊ฐ๋ฐ์ง๊ตฌ๋ณธ
ใป
3๋ฌ ์
0
72
3
- ํด๊ฒฐ
์ง๋ฌธ์์ต๋๋ค ์น์ 13. Spark streaming ๋ถ๋ถ
<img src="https://cdn.inflearn.com/public/files/posts/89bfc6ff-86f5-4b10-8832-214998d75b6f/0369a2a3-7750-4458-b69f-a6d904f81720.png" media-type="img"
kafkaapache-sparkpysparkdata-lake์นด์นด์ค๊ณต์ฑ-๊ฐ๋ฐ์ ์ ํ
ใป
4๋ฌ ์
0
58
2
- ๋ฏธํด๊ฒฐ
ot ์๋ฃ
๋ค๋ฅธ pdf๋ ์๋๋ฐ ot ์๋ฃ๋ pdf๊ฐ ์์ฌ๋ผ์ ์๋ค์ฉ
kafkaapache-sparkpysparkdata-lake์นด์นด์ค๊ณต์ฑ-๊ฐ๋ฐ๊น์์ฐฌ
ใป
4๋ฌ ์
0
51
2
- ๋ฏธํด๊ฒฐ
git action - code deploy๋จ๊ณ
github์๋ actionsํญ์ ์ ์์ ์ผ๋ก ์ํฌํ๋ก์ฐ๊ฐ ๋ฐ ๋ฉ๋๋ค. <img src="https://cdn.inflearn.com/public/files/posts/695244ba-656e-4dd3-935e-4
kafkaapache-sparkpysparkdata-lake์นด์นด์ค๊ณต์ฑ-๊ฐ๋ฐnayun1945
ใป
5๋ฌ ์
0
83
2
- ๋ฏธํด๊ฒฐ
IDE - Pycharm / VSCode
์๋ ํ์ธ์ ๊ฐ์ฌ๋! Airflow ๊ฐ์์ ์ด์ด Kafka & Spark ๊ฐ์๋ ์ด์ฌํ ๋ฃ๊ณ ์๋ ์๊ฐ์์ ๋๋ค.
kafkaapache-sparkpysparkdata-lake์นด์นด์ค๊ณต์ฑ-๊ฐ๋ฐIdea
ใป
5๋ฌ ์
0
78
1
- ๋ฏธํด๊ฒฐ
UI For Apache Kafka ์ค์นํ๊ธฐ
<img src="https://cdn.inflearn.com/public/files/posts/3c5b49ad-0cdd-4377-8f70-9859176ae602/df0171cd-6c0c-406a-934e-50db3d411ac2.png" media-type="img"
kafkaapache-sparkpysparkdata-lake์นด์นด์ค๊ณต์ฑ-๊ฐ๋ฐ์ ์ ํ
ใป
5๋ฌ ์
0
106
2
- ๋ฏธํด๊ฒฐ
kafka broker prompt ๋ณ๊ฒฝ ํ์ธ
kafka borker prompt ๋ณ๊ฒฝ ํ์ธ ํ๋ ๋ถ๋ถ์์ ์ฌ๋ถํ ์ ํ ํ ๋ก๊ทธ์ธ์ด ํ๋ฆฌ๋ฉด์ ํ๋กฌํฌํธ์์ public-nat๋ก ๋๋์ ๊ฐ๋๋ค. ๋ญ๊ฐ ๋ฌธ์ ์ธ์ง ์ ์ ์์ ๊น์?
kafkaapache-sparkpysparkdata-lake์นด์นด์ค๊ณต์ฑ-๊ฐ๋ฐnayun1945
ใป
5๋ฌ ์
0
64
2
- ํด๊ฒฐ
๋์ค์ฝ๋ ๋ง๋ฃ
๋์ค์ฝ๋๊ฐ ๋ง๋ฃ๋์๋๋ฐ ๋งํฌ์ข ์ฃผ์ธ์ ์๊ฐํ์ด์ง๋ ์๋๊ณ ์ง๋ฌธํ์ด์ง๋ ์๋ฉ๋๋ค
kafkaapache-sparkpysparkdata-lake์นด์นด์ค๊ณต์ฑ-๊ฐ๋ฐ์ ์ ํ
ใป
5๋ฌ ์
0
58
2
- ๋ฏธํด๊ฒฐ
Zookeeper ์ค์น ์ค๋ฅ
8์๋ง 9์์ด์ ๋น์ทํ ์ง๋ฌธ๋ณด๊ณ ํด๊ฒฐํ๋ คํ๋๋ฐ 3.8.4๊ฐ url์์ ์์ด์ง๊ฑฐ ๊ฐ์๋ฐ ์ด๋ป๊ฒ ํด์ผํ๋์?<img src="https:
kafkaapache-sparkpysparkdata-lake์นด์นด์ค๊ณต์ฑ-๊ฐ๋ฐ์ ์ ํ
ใป
5๋ฌ ์
1
73
3
- ๋ฏธํด๊ฒฐ
github ๋ ํ์งํ ๋ฆฌ ์์ฑ ๋ฐ ์ฐ๊ฒฐ ๊ด๋ จ ์ง๋ฌธ๋๋ฆฝ๋๋ค!
์๋ ํ์ธ์ ๊ฐ์ฌ๋ ์์ง ๋ชจ๋ฅด๋๊ฒ ํฌ์ฑ์ด์ธ ์๊ฐ์์ ๋๋ค. ๊ฐ์ฌ๋๊ป์๋ ๊นํ๋ธ ์ ์ฅ์๋ฅผ ์์ฑํ ๋ค ํ ํฐ์ ๋ฐ๊ธ๋ฐ์ผ์๋๋ฐ ๊ตฌ๊ธ๋ง์ ํด๋ณด๋ ํ ํฐ์ ์ฌ์ฉํ๋ฉด ๋ณด์๊ณผ
kafkaapache-sparkpysparkdata-lake๊น๋ฏผ๊ท
ใป
6๋ฌ ์
0
45
2
- ๋ฏธํด๊ฒฐ
git action์คํ ์๋จ
์๋ ํ์ธ์ ๊ฐ์ฌ๋!ch03.8 git action ์คํ ๊ฐ์ ์๊ฐ ์ค ์ ๋๋ค.๊ฐ์์์ ๋์จ๋๋ก ๋๋ ํ ๋ฆฌ
kafkaapache-sparkpysparkdata-lake์นด์นด์ค๊ณต์ฑ-๊ฐ๋ฐnayun1945
ใป
6๋ฌ ์
0
126
1
- ๋ฏธํด๊ฒฐ
ํฐ๋ฏธ๋์์ NAT ์ธ์คํด์ค๋ก ์ง์ ๋ก๊ทธ์ธ ์๋จ
16๊ฐ ansible ์ค์น๋ฅผ ์ํด ํฐ๋ฏธ๋์์ NAT ์ธ์คํด์ค๋ก ์ง์ ๋ก๊ทธ์ธํ๋ ค๊ณ ํ๋๋ฐ ์ค๋ฅ๊ฐ๋ฉ๋๋ค. PS C:\Users\nayun\do
kafkaapache-sparkpysparkdata-lakenayun1945
ใป
6๋ฌ ์
0
59
1
- ํด๊ฒฐ
AWS EC2 ์์ฑํ๊ธฐ 2๋ถ55์ด ๋ถ๋ถ
<img src="https://cdn.inflearn.com/public/files/posts/eb4b5bc7-0b45-4c8b-9687-2b4f5c12cc4b/94af24ce-5a2a-4a23-823e-bc82773c3091.png" media-type="img"
kafkaapache-sparkpysparkdata-lake์ ์ ํ
ใป
6๋ฌ ์
0
48
2
- ๋ฏธํด๊ฒฐ
git action์์ install_codedeploy-agent.yml
์๋ ํ์ธ์! ๊ฐ์ฌ๋ <img src="https://cdn.inflearn.com/public/files/posts/373d10f2-51aa-4c53-bbec-6d45f9bb50d7/e27d
kafkaapache-sparkpysparkdata-lakerosy
ใป
6๋ฌ ์
0
48
2
- ๋ฏธํด๊ฒฐ
consumer ์คํ ์ค๋ฅ ์ง๋ฌธ: connect ip ๊ด๋ จ
์๋ ํ์ธ์3์ฃผ๋ง์ ์นดํ์นด๋ฅผ ์คํ์ํค๋ Consumer ์คํ์ ๋ฌธ์ ๊ฐ ์์ด ์ง๋ฌธ ๋จ๊น๋๋ค๋์ค์ฝ๋์๋ ๊ธ์
kafkaapache-sparkpysparkdata-lake๋ค๋ผ๋ผ๋์ฅ
ใป
6๋ฌ ์
0
78
2






