hyunjinkim
@hyunjinkim
Học viên
1,582
Đánh giá khóa học
104
Đánh giá khóa học
4.9
Bài viết
Hỏi & Đáp
[참고] Cannot connect to host host.docker.internal:8080
안녕하세요 logt님! 오 좋은 글 남겨주셔서 너무 감사드립니다.윈도우에서는 제가 안올려봐서 저런 이슈가 있는지 몰랐네요. 해당 챕터 부분에 조만간 업데이트 해놓겠습니다.감사합니다 👍
- Lượt thích
- 0
- Số bình luận
- 2
- Lượt xem
- 26
Hỏi & Đáp
repartition 전후 persist 용량 차이가 나는 이유가 궁금합니다
안녕하세요 홍석주님! 강의 잘 듣고 계시다니 좋은 소식이네요 🙂질문에 답을 드리자면 Spark이 생각보다 똑똑해서 그렇습니다.첫 번째 persist() 후 사이즈를 봤을 때 247.5MB밖에 안 나온 것은 별다른 트랜스폼 명령 없이 show()만 수행하면 show() 로 출력되는 일부 영역만 읽어들이기 때문입니다. (기본적으로 show() 는 20줄만 출력하므로 그에 해당하는 일부 영역만 읽어들입니다) 그래서 첫 번째 persist()를 하고 바로 show()를 하지 않고 .filter() 를 통해 != '' 같은 구문을 넣고 show()를 해보시면 아마 사이즈가 전체가 나올거에요. 아니면 show() 대신 count()를 넣어도 전체가 나올 것 같습니다. 한번 해보시고 결과를 남겨주시면 제가 또 답변드릴께요 🙂
- Lượt thích
- 0
- Số bình luận
- 1
- Lượt xem
- 23
Hỏi & Đáp
40강 Multi GPU 필요성 설명이 두번 나오는 것 같아요
안녕하세요 chongin12 님!제보해주셔서 너무너무 감사드립니다. 처음 구간 촬영 후 맘에 들지 않아 재촬영 했는데 중복해서 들어갔네요 😭아무튼 잘 보고계시다니 다행입니다. 또 보시다가 질문 혹은 이상한 점이 있다면 언제든 문의주세요 👍
- Lượt thích
- 0
- Số bình luận
- 2
- Lượt xem
- 35
Hỏi & Đáp
There are no longer any instances available with the requested specifications. Please refresh and try again.
안녕하세요 logt님보니까 Unavailable 이라 뜨는게 CUDA 12.8 이 없어서 그런건 아닌 것 같고 그냥 GPU 가 모잘라서 그런것 같습니다. 제가 녹화할 당시에도 CUDA 12.8 골라도 Unavailable 뜨는게 많았습니다. 그때는 빨간색으로 떴었는데 지금은 회색이네요. 아마 동일한 현상인 것 같습니다. (사진)지금 Community Cloud 존에 CUDA==12.8 필터해서 본건데 원래도 이정도이긴 했어요 ^^
- Lượt thích
- 0
- Số bình luận
- 2
- Lượt xem
- 57
Hỏi & Đáp
질문있는데요.. vLLM은 말씀하신 사양에 적용이되나요?
안녕하세요 이경용님Vllm은 gpu가 필요합니다. 그래서 일반 pc에서 vllm 돌리기는 어려울거에요. 그래서 실습 환경으로 runpod을 사용합니다. 실습 사양에 적어놓은 스펙은 로컬 pc 에서 수행할 open webui, fastapi 기동을 위한 스펙입니다. 참고부탁드려요 :)참고로 kanana 모델은 본 강의에서도 잠깐 사용합니다 (가드레일 용)
- Lượt thích
- 0
- Số bình luận
- 2
- Lượt xem
- 52
Hỏi & Đáp
섹션4 AWS NAT Instance생성하는 과정에서 오류가 지속해서 발생합니다.
안녕하세요 백승우님!혹시 처음 접속 시도하는 걸까요? 아니면 원래 됐었는데 갑자기 안되는 거에요? 일단 가장 유력한 이유는 방화벽 설정을 안했을 가능성이 높습니다. 아래처럼 EC2 메뉴에서 보안그룹 -> public-nat 들어가셔서(사진) 아래처럼 SSH 부분을 내 IP로 지정해주셔야 합니다 (그러면 자동으로 공인 IP가 잡혀서 등록됩니다)(사진)기본적으로 이렇게 하셔야 하고, 혹시 public-nat 서버는 t2-micro 로 만드신거 맞죠? 한번 확인 부탁드려요
- Lượt thích
- 0
- Số bình luận
- 1
- Lượt xem
- 34
Hỏi & Đáp
강의 영상 오류
안녕하세요 이원준님!알려주셔서 너무 감사드립니다.직접 편집하고 확인했는데도 이런게 생기네요 ^^ 문제된 부분은 수정해서 다시 업로드했습니다. 감사합니다!
- Lượt thích
- 0
- Số bình luận
- 1
- Lượt xem
- 81
Hỏi & Đáp
파이참 25.3.4 버전에서 한폴더에 두개 프로젝트 생성하는 방법은?
안녕하세요 이종석님!datalake 디렉토리가 있을 때 기존 kafka-producer의 디렉토리와 동일 레벨로 맞추시면 됩니다. 그러니까 아래처럼 kafka-consumer 디렉토리를 먼저 만드시고 그 폴더를 open 해주시면 되요. datalake/ |----- kafka-producer/ |----- kafka-consumer/ |----- kafka_venv/ 이렇게 하시고 작업하실때는 kafka-consumer 디렉토리를 열기 하셔서 그 안에서 작업하시면 되요.해결 됐을까요?
- Lượt thích
- 0
- Số bình luận
- 2
- Lượt xem
- 44
Hỏi & Đáp
pykrx 회원제 전환으로 인한 실습 불가
안녕하세요! johaejin 님답글이 늦어 죄송합니다. 해당 부분은 사실 chatGPT와의 연동을 통한 실습을 위한 부분인데많은 시간이 지나다보니 chatGPT도 무료 토큰제가 사라지게 되고 티스토리 블로그도 API 기능이 사라지게 되어서 이 부분의 실습도 진행하기 어려운 상태가 됐습니다.그래서 이 부분에 요즘 트렌드에 맞는 새로운 실습을 추가하려고 생각하고 있습니다.감사합니다
- Lượt thích
- 0
- Số bình luận
- 2
- Lượt xem
- 130
Hỏi & Đáp
consumer가 모든 파티션을 읽지 않는 이슈가 있습니다
프로듀서가 계속 데이터를 올리고 있는데도 컨슈머가 모든 파티션을 컨슘하고 있지 않다면 이 현상은 정상입니다. 캡쳐해주신대로 consumer 마다 파티션 지정은 완료된 상태입니다. 위에 올려주신대로 보면 컨슈머1은 파티션 0, 1, 2 담당하고 있고 컨슈머 2는 파티션 3,4,5 담당하고 있는데 컨슈머1: 파티션 1만 처리 중컨슈머2: 파티션 3, 5 만 처리중 이런 상태이죠? 이건 컨슈머가 컨슘할 때 여러 파티션에서 메시지를 골고루 꺼내오지 않아서 그렇습니다. poll_consumer에서 메시지를 한번에 100개씩 꺼내오도록 설정되어 있을 거에요. 바구니 크기가 100이라 해볼께요. 그럼 컨슈머는 특정 파티션 하나에서 우선 가져올 수 있는 만큼 가져옵니다. 그럼 특정 파티션 하나에서 이미 100개가 다 찹니다. 그래서 다른 파티션에서 가져올 여유가 없어서 지금 마치 하나의 파티션만 컨슘하고 있는 것처럼 보이게 됩니다. (예: 컨슈머1: 파티션 1 / 컨슈머2: 파티션3 ) 그러다가 컨슈머가 어느 순간 파티션을 바꾸어 가지고 오기도 합니다. (예: 컨슈머1: 파티션 1 / 컨슈머2: 파티션5 ) 지금 올려주신걸 보면 3개만 가져오는 걸로 보이는데 정확히는 파티션 3개를 동시 컨슘하고 있는게 아니라 여전히 파티션 2개를 컨슘하고 있는 중입니다. 3개로 보이는 이유는 commit 기록이 남아 있어서 보일 뿐입니다. (예: 파티션 3)저 상황에서 한번 캡쳐 떠보시고, 한 10초 뒤에 캡쳐 다시 떠보시면 파티션 2개만 컨슈머의 current offset이 증가한게 보일거에요. 나머지 1개의 current offset은 그대로 일겁니다. 다만 예전에 찍어놓은 commit 기록이 있어서 보일 뿐이에요. 그래서 밤바미님이 지금 테스트하신게, Producer의 속도가 압도적으로 높은 상황에서 consumer가 따라가지 못하는 상황을 본 것입니다. 일반적으로 kafka 는 컨슈머의 부하량이 더 높습니다. 그래서 컨슈머의 부하 처리에 더 관심이 높고, 컨슈머 프로그램을 파티션 개수만큼 띄우는 이유컨슈머 처리량으 느려지면 파티션을더 늘리고 컨슈머를 그만큼 더 띄우는 이유 모두 컨슈머가 속도를 못 따라갈때 대응하기 위한 방법들입니다. 그래서 컨슈머 6개를 올려보세요. 서버는 중복되어도 상관없습니다. 서버1에서 2개, 서버2에서 2개, 서버3에서 2개 올리시고kafka web ui에서 consumer 의 컨슘 현황 캡쳐해보고, 10초 뒤에 다시 캡쳐해서 current_offset 비교해보시면 파티션 6개 처리되고 있는게 보일거에요. 그리고 consume_consumer.py 에서 로직을 이렇게 바꿔서 테스트해보세요. # 로직 처리 부분 # Kafka 레코드에 대한 전처리, Target Sink 등 수행 self.logger.info(f'message 처리 로직 시작') from collections import defaultdict partition_count = defaultdict(int) for msg in msg_lst: if msg is None: continue if msg.error(): print("Error:", msg.error()) continue partition_count[msg.partition()] += 1 print("Partition message count:") for partition, count in partition_count.items(): print(f"partition {partition}: {count}") #msg_val_lst = [json.loads(msg.value().decode('utf-8')) for msg in msg_lst] #df = pd.DataFrame(msg_val_lst) #print(df[:10]) 그럼 파티션별로 메시지를 몇 개 꺼내오는지 출력해서 확인할 수 있습니다.구동해보시면 파티션 1개에서만 가져오는게 보일 거에요. 간혹 파티션 2개에서 꺼내오는 순간이 있긴한데 대부분 파티션 1개에서만 가져옵니다. 한번 테스트해보시겠어요?
- Lượt thích
- 0
- Số bình luận
- 3
- Lượt xem
- 98




