묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[아파치 카프카 애플리케이션 프로그래밍] 개념부터 컨슈머, 프로듀서, 커넥트, 스트림즈까지!
네트워크 비용관련 설명 질문드립니다.
안녕하세요.프로듀서에서 토픽으로 데이터가 들어갈때, 초당 데이터가 1건/1000건의 예시를 들으셨는데,해당부분을 배치로 묶어서 1000건을 100개당 1건으로 가정하여 1000건의 처리를 100건으로 줄이는 부분에 대해서 카프카만이 할수있는 부분인가요?
-
미해결15일간의 빅데이터 파일럿 프로젝트
JAVA 1.8 버전 설치 관련 에러
java 버전을 확인해보니 1.7 이더라고요그래서 1.8 버전을 설치 하려고 yum unstall oracle-j2sdk1.8 했는데 다음과 같은 에러가 납니다. [root@server01 yum.repos.d]# yum install oracle-j2sdk1.8Loaded plugins: fastestmirror, refresh-packagekit, securitySetting up Install ProcessDetermining fastest mirrorsYumRepo Error: All mirror URLs are not using ftp, http[s] or file. Eg. Invalid release/repo/arch combination/removing mirrorlist with no valid mirrors: /var/cache/yum/x86_64/6/base/mirrorlist.txtError: Cannot find a valid baseurl for repo: base 그런데 실습은 하지 말라고 했는데 1.8 버전 설치 안해도 되는건가요??
-
미해결[아파치 카프카 애플리케이션 프로그래밍] 개념부터 컨슈머, 프로듀서, 커넥트, 스트림즈까지!
컨슈머 랙 모니터링 아키텍처 관련 질문
안녕하세요. 좋은 강의 잘 보고 있습니다. 컨슈머 랙 모니터링 아키텍처 관련 질문이 있습니다.카프카 버로우, 텔레그래프 application에 대해서 각각의 노드에서 구성하는 것이 일반적인지 아니면 카프카 버로우, 텔레그래프를 하나의 노드에서 동작시켜도 무방한 건지에 대한 부분이 궁금합니다.
-
미해결실리콘밸리 엔지니어와 함께하는 Apache Airflow
airflow tasks test error
안녕하세요.강의 실습중에 'airflow tasks test postgres_loader execute_sql_query 2023-01-01 ' 터미널에서 실행후 아래와 같은 오류가 발생해서 여쭤보고자 질문드립니다.Error 본문DB 연결 정보DB Table 생성 정보Airflow UI실행 환경Mac 14 proPython 3.11.5pip freeze aiohttp==3.8.5 aiosignal==1.3.1 alembic==1.11.3 anyio==3.7.1 apache-airflow==2.7.0 apache-airflow-providers-common-sql==1.7.0 apache-airflow-providers-ftp==3.5.0 apache-airflow-providers-http==4.5.0 apache-airflow-providers-imap==3.3.0 apache-airflow-providers-postgres==5.6.0 apache-airflow-providers-sqlite==3.4.3 apispec==6.3.0 argcomplete==3.1.1 asgiref==3.7.2 async-timeout==4.0.3 attrs==23.1.0 autobahn==23.1.2 Automat==22.10.0 Babel==2.12.1 backoff==1.10.0 blinker==1.6.2 cachelib==0.9.0 cachetools==5.3.1 cattrs==23.1.2 certifi==2023.7.22 cffi==1.15.1 channels==4.0.0 charset-normalizer==3.2.0 click==8.1.7 clickclick==20.10.2 colorama==0.4.6 colorlog==4.8.0 ConfigUpdater==3.1.1 connexion==2.14.2 constantly==15.1.0 cron-descriptor==1.4.0 croniter==1.4.1 cryptography==41.0.3 daphne==4.0.0 Deprecated==1.2.14 dill==0.3.1.1 distlib==0.3.5 Django==4.1.4 djangorestframework==3.11.2 dnspython==2.4.2 docutils==0.20.1 email-validator==1.3.1 exceptiongroup==1.1.3 filelock==3.8.0 Flask==2.2.5 Flask-AppBuilder==4.3.3 Flask-Babel==2.0.0 Flask-Caching==2.0.2 Flask-JWT-Extended==4.5.2 Flask-Limiter==3.3.1 Flask-Login==0.6.2 Flask-Session==0.5.0 Flask-SQLAlchemy==2.5.1 Flask-WTF==1.1.1 frozenlist==1.4.0 google-auth==2.22.0 google-re2==1.1 googleapis-common-protos==1.60.0 graphviz==0.20.1 grpcio==1.57.0 gunicorn==21.2.0 h11==0.14.0 httpcore==0.16.3 httpx==0.23.3 hyperlink==21.0.0 idna==3.4 importlib-resources==6.0.1 incremental==22.10.0 inflection==0.5.1 itsdangerous==2.1.2 Jinja2==3.1.2 jsonschema==4.19.0 jsonschema-specifications==2023.7.1 kubernetes==27.2.0 lazy-object-proxy==1.9.0 limits==3.5.0 linkify-it-py==2.0.2 lockfile==0.12.2 Mako==1.2.4 Markdown==3.4.4 markdown-it-py==3.0.0 MarkupSafe==2.1.3 marshmallow==3.20.1 marshmallow-oneofschema==3.0.1 marshmallow-sqlalchemy==0.26.1 mdit-py-plugins==0.4.0 mdurl==0.1.2 multidict==6.0.4 oauthlib==3.2.2 opentelemetry-api==1.15.0 opentelemetry-exporter-otlp==1.15.0 opentelemetry-exporter-otlp-proto-grpc==1.15.0 opentelemetry-exporter-otlp-proto-http==1.15.0 opentelemetry-proto==1.15.0 opentelemetry-sdk==1.15.0 opentelemetry-semantic-conventions==0.36b0 ordered-set==4.1.0 packaging==23.1 pathspec==0.11.2 pendulum==2.1.2 platformdirs==2.5.2 pluggy==1.2.0 prison==0.2.1 protobuf==4.21.12 psutil==5.9.5 psycopg2-binary==2.9.7 pyasn1==0.4.8 pyasn1-modules==0.2.8 pycparser==2.21 pydantic==1.10.12 Pygments==2.16.1 PyJWT==2.8.0 pyOpenSSL==23.0.0 python-daemon==3.0.1 python-dateutil==2.8.2 python-nvd3==0.15.0 python-slugify==8.0.1 pytz==2023.3 pytzdata==2020.1 PyYAML==6.0.1 referencing==0.30.2 requests==2.31.0 requests-oauthlib==1.3.1 requests-toolbelt==1.0.0 rfc3339-validator==0.1.4 rfc3986==1.5.0 rich==13.5.2 rich-argparse==1.2.0 rpds-py==0.9.2 rsa==4.9 service-identity==21.1.0 setproctitle==1.3.2 six==1.16.0 sniffio==1.3.0 SQLAlchemy==1.4.49 SQLAlchemy-JSONField==1.0.1.post0 SQLAlchemy-Utils==0.41.1 sqlparse==0.4.4 tabulate==0.9.0 tenacity==8.2.3 termcolor==2.3.0 text-unidecode==1.3 Twisted==22.10.0 txaio==23.1.1 typing_extensions==4.7.1 uc-micro-py==1.0.2 unicodecsv==0.14.1 urllib3==1.26.16 virtualenv==20.16.3 websocket-client==1.6.2 Werkzeug==2.2.3 wrapt==1.15.0 WTForms==3.0.1 yarl==1.9.2 zope.interface==5.5.2제가 생각하는 에러 원인오류 본문을 보고 DB 연결 문제라 생각이 들어 DB를 재생성 하여지만 아직도 원인은 똑같았습니다. 제가 작성한 코드는 아래 github에 올렸습니다.https://github.com/saohwan/learn-airflow
-
미해결다양한 사례로 익히는 SQL 데이터 분석
order by 정렬 문의
안녕하세요 강사님 group by + distinct를 비교해보다 이유는 모르겠지만 위에 distinct를 넣은 것은 day 컬럼이 자동으로 정렬이 되었고아래의 distinct를 넣지 않은 컬럼은 정렬 되지 않았습니다 아래도 역시 distinct 를 넣으니 자동 오름차순이 되었습니다 (count( DISTINCT oi.order_id)) 혹시 그 이유가 궁금합니다 또, order by 처리 시 쿼리 속도가 느려진다는 말이 있는데 이런식으로 order by 를 넣지 않고 자동 정렬 되는 것이 있다면 쿼리 속도 향상에 도움이 될까요? 쿼리문자동 정렬 SELECT date_part( 'day', o.order_date) AS DAY, sum(amount) AS sum_amount, count(DISTINCT o.order_id) AS daily_ord_cutFROM orders o, order_items oiWHERE 1 = 1AND o.order_id = oi.order_idGROUP BY date_part( 'day', o.order_date)ORDER BY 1;정렬 안됨SELECT date_part( 'day', o.order_date) AS DAY, sum(amount) AS sum_amount, count( oi.order_id) AS daily_ord_cutFROM orders o, order_items oiWHERE 1 = 1AND o.order_id = oi.order_idGROUP BY date_part( 'day', o.order_date);
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
후속 강의 계획 질문드립니다.
혹시 part2 는 언제쯤 계획하고 계신지그리고 다음 강의는 어떤 강의 준비하고 계신지 궁금합니다!
-
미해결Airflow 마스터 클래스
pythonoperator 를 이용한 unzip 오류
python operator를 이용한 파일 unzip 시 permision denied 오류 발생했습니다.airflow 는 wsl을 이용하여 설치하였고, unzip을 이용하여 네트워크 드라이브에 압축을 풀어 저장하고자 합니다.이때[2023-09-01, 18:12:33 KST] {taskinstance.py:1824} ERROR - Task failed with exception Traceback (most recent call last): File "/home/xxx/airflow_env/lib/python3.10/site-packages/airflow/operators/python.py", line 181, in execute return_value = self.execute_callable() File "/home/xxx/airflow_env/lib/python3.10/site-packages/airflow/operators/python.py", line 198, in execute_callable return self.python_callable(*self.op_args, **self.op_kwargs) File "/home/xxx/airflow/dags/Answersheet_dp_2.py", line 66, in unzipfiles zip_ref.extractall(extract_path) File "/usr/lib/python3.10/zipfile.py", line 1647, in extractall self._extract_member(zipinfo, path, pwd) File "/usr/lib/python3.10/zipfile.py", line 1701, in extractmember open(targetpath, "wb") as target: PermissionError: [Errno 13] Permission denied: '/mnt/s/04.xxxxx/'와 같은 오류가 발생하였습니다.위 문제를 해결하려면 어떻게 해야하나요?
-
미해결실리콘밸리 엔지니어와 함께하는 Apache Airflow
블로그에 글을 올려도 되나요?
강의 내용들을 정리하여 까먹지 않고 앞으로도 찾아서 사용할 수 있게 블로그에 올리고 싶은데 가능할까요?가능하다면 적절한 정도가 어느정도 될지, 그이외에 주의할 점으로 링크등을 남긴다는 점등이 필요할지가 궁금합니다감사합니다
-
미해결따라하며 배우는 도커와 CI환경 [2023.11 업데이트]
frontend 변경사항 반영
지금 nginx 를 이용해서 웹서버 랑 proxy랑 둘다 하는걸로 이해했는데그럼 docker-compose.yml 측에서 frontend 빌드시Dockerfile.dev 사용하니까frontend 변경사항이 바로 보여야 하는지 아닌지 궁금합니다frontend 변경 -> nginx 에서 정적파일을 가져와서 제공 지금 이런식인데docker-compose yml 에서nginx: restart: always build: dockerfile: Dockerfile context: ./nginx ports: - "3000:80"여기에서는 볼륨이 딱히 보이지 않아서요 nginx에서는 변경사항이 있으면 어떻게 tracking 하는건가요?프론트엔드가 변경되어도 그 변경된 사항을 다시 빌드해서 웹서버에서 제공이 되야하는건가요 안되는건가요? 현재는 프론트엔드 변경사항이 바로 반영이 되지 않아 제가 틀린건지 궁금해서 여쭙니다
-
미해결다양한 사례로 익히는 SQL 데이터 분석
Pandas 연계 오류
안녕하세요, Pandas 연계 과정 중 위와 같은 오류가 지속적으로 발생합니다.아나콘다 관리자모드에서 psycopg2-binary 인스톨 완료했으며, 패스워드와 로컬호스트 넘버도 이상 없습니다. 버전도 모두 상위 버전으로 이상 없습니다.해결 방법 문의 드립니다.감사합니다.
-
미해결Data Engineering Course (1) : 빅데이터 하둡 직접 설치하기
하둡 명령어 실행시 오류 문의
~/hadoop$ hadoop fs -ls2023-08-29 12:55:53,700 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable이 에러로 문의드렸습니다. 네 가지 설정파일 캡처 첨부해 재문의드립니다.참고로 저는 계정명을 hadoop으로 설정하여 neuavenue를 hadoop으로 바꿔서 입력하였습니다.제발 답변 부탁드려요.. 같은 부분에서 막혀 지우고 재설치만 세번째입니다 ㅠㅠ
-
미해결Data Engineering Course (1) : 빅데이터 하둡 직접 설치하기
하둡 명령어 실행시 오류
~/hadoop$ hadoop fs -ls2023-08-29 12:55:53,700 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable fs 명령어를 실행하면 native-hadoop library를 load할 수 없다는 경고가 뜨면서 명령이 실행되지 않습니다. 하둡 설치 및 설정 과정은 제공해주신 문서 두세번씩 훑으면서 제대로 설정했는데, 어떻게 해야 고칠 수 있을까요 ㅠㅠ? 혹시 우분투를 22.04.3 LTS로 설치하였는데 버전이 달라서 생기는 문제인가요..?참고로 하둡 설치할 때 강의에 나온 링크는 존재하지 않는다고 나와서 $wget https://archive.apache.org/dist/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz여기서 설치하였습니다. 자바는 동일한 버전인 8u271을 설치하였는데, 강의와 다르게 Linux ARM 64 Compressed Archive로 설치했어요.
-
미해결[아파치 카프카 애플리케이션 프로그래밍] 개념부터 컨슈머, 프로듀서, 커넥트, 스트림즈까지!
min.cleanable.dirty.ratio 옵션에 대한 질문이 있습니다.
카프카 강의 세그먼트와 삭제주기챕터에서min.cleanable.dirty.ratio 설정에 대한 내용을 듣던중 궁금한 점이 생겼습니다. 액티브 세그먼트가 용량이나 시간 정책에 따라 헤드 세그먼트가 되었을 때 테일 세그먼트와 비교해서 ratio가 충족되지 않았을 경우에는 compact가 이뤄지지 않는 것인가요? 만약 그렇게 된다면 이 헤드 세그먼트는 앞으로 계속 더티 레코드를 가지고 있는 상태가 유지가 되는 것인지, 이 헤드 세그먼트가 시간이 지나 테일 세그먼트가 되었을 때는 새로운 헤드 세그먼트와 비교를 하게 될텐데 클린 레코드가 아닌데 ratio가 의미없어지는게 아닌지 생각이 들더라구요. 이에 대해서 알려주시면 감사하겠습니다 :)
-
미해결따라하며 배우는 도커와 CI환경 [2023.11 업데이트]
Docker Volumes 안됩니다 도와주세요
container 들어가서 files 확인해보면 server.js 변경사항이 잘 반영되어 있습니다근데 terminal로 들어가서 확인하면 변경사항이 반영이안되고 있어요컨테이너 자체는 file이 변경사항 update는 잘되고 있는거 같은데 껏다 켯다 해봐도 terminal에서는 update가 안됩니다. 웹브라우져 캐시 clear 해봤구요 다른 포트에서도 띄워봐도 똑같이 나와요npm이 변경사항을 감지를 못하나 싶어서 nodemon 깔아서 해볼까 하는데 강의자님은 nodemon 까신건 아닌거같은데좀 도와주세요 ㅠㅠ~~~보니까 바인드 마운트는 잘된거 같은데 ㅜㅜ
-
미해결15일간의 빅데이터 파일럿 프로젝트
우지 설치중 오류가 뜹니다
어떤 식으로 해결해야할 지 잘 모르겠습니다 ㅠ밑 캡처본은 Assign Roles 현황입니다
-
미해결따라하며 배우는 도커와 CI환경 [2023.11 업데이트]
도커 이미지 빌드 시 내부 도커를 사용할 수 있을까요?
도커파일로 이미지 빌드 시 멀티 스테이지로 테스트를 실행하려고 합니디.테스트 실행 시 testcontainers mysql를 도커로 실행되어야 하는데 가능한건지 궁금합니다.여러 시도를 했지만 실패했네요..이미지 빌드 시가 아닌 컨테이너 실행 후 내부에서는 도커가 실행되는 것을 확인했습니다.도커 파일의 RUN에서는 컨테이너가 실행되지 않았습니다.
-
미해결[아파치 카프카 애플리케이션 프로그래밍] 개념부터 컨슈머, 프로듀서, 커넥트, 스트림즈까지!
KStream, KTable 조인 스트림즈 애플리케이션에서 에러가 발생하고 있습니다.
... [order-join-application-05b24bf4-65d2-4fda-83be-a754a4988a43-StreamThread-1] INFO org.apache.kafka.streams.processor.internals.StreamThread - stream-thread [order-join-application-05b24bf4-65d2-4fda-83be-a754a4988a43-StreamThread-1] State transition from PARTITIONS_ASSIGNED to PENDING_SHUTDOWN [order-join-application-05b24bf4-65d2-4fda-83be-a754a4988a43-StreamThread-1] INFO org.apache.kafka.streams.processor.internals.StreamThread - stream-thread [order-join-application-05b24bf4-65d2-4fda-83be-a754a4988a43-StreamThread-1] Shutting down [order-join-application-05b24bf4-65d2-4fda-83be-a754a4988a43-StreamThread-1] INFO org.apache.kafka.clients.consumer.KafkaConsumer - [Consumer clientId=order-join-application-05b24bf4-65d2-4fda-83be-a754a4988a43-StreamThread-1-restore-consumer, groupId=null] Unsubscribed all topics or patterns and assigned partitions [order-join-application-05b24bf4-65d2-4fda-83be-a754a4988a43-StreamThread-1] INFO org.apache.kafka.clients.producer.KafkaProducer - [Producer clientId=order-join-application-05b24bf4-65d2-4fda-83be-a754a4988a43-StreamThread-1-producer] Closing the Kafka producer with timeoutMillis = 9223372036854775807 ms. [order-join-application-05b24bf4-65d2-4fda-83be-a754a4988a43-StreamThread-1] INFO org.apache.kafka.streams.processor.internals.StreamThread - stream-thread [order-join-application-05b24bf4-65d2-4fda-83be-a754a4988a43-StreamThread-1] State transition from PENDING_SHUTDOWN to DEAD [order-join-application-05b24bf4-65d2-4fda-83be-a754a4988a43-StreamThread-1] INFO org.apache.kafka.streams.KafkaStreams - stream-client [order-join-application-05b24bf4-65d2-4fda-83be-a754a4988a43] State transition from REBALANCING to ERROR [order-join-application-05b24bf4-65d2-4fda-83be-a754a4988a43-StreamThread-1] ERROR org.apache.kafka.streams.KafkaStreams - stream-client [order-join-application-05b24bf4-65d2-4fda-83be-a754a4988a43] All stream threads have died. The instance will be in error state and should be closed. [order-join-application-05b24bf4-65d2-4fda-83be-a754a4988a43-StreamThread-1] INFO org.apache.kafka.streams.processor.internals.StreamThread - stream-thread [order-join-application-05b24bf4-65d2-4fda-83be-a754a4988a43-StreamThread-1] Shutdown complete Exception in thread "order-join-application-05b24bf4-65d2-4fda-83be-a754a4988a43-StreamThread-1" java.lang.UnsatisfiedLinkError: /private/var/folders/16/xqv9hsq91sn7glvzckc__r100000gn/T/librocksdbjni3612565276450787735.jnilib: dlopen(/private/var/folders/16/xqv9hsq91sn7glvzckc__r100000gn/T/librocksdbjni3612565276450787735.jnilib, 0x0001): tried: '/private/var/folders/16/xqv9hsq91sn7glvzckc__r100000gn/T/librocksdbjni3612565276450787735.jnilib' (mach-o file, but is an incompatible architecture (have 'x86_64', need 'arm64e'))샘플 코드 실행 시 해당 에러가 계속 발생하고 있습니다.원인을 알 수 있을까요?
-
미해결카프카 완벽 가이드 - 코어편
mac (m1) - utm 에서 고정 ip 할당하는법
mac os 환경에서 utm에 ubuntu 설치해서 사용중입니다.고정 IP할당하는 부분에서, 강의는 virtual box로 설명되어 세팅값 설정하는데 어려움이 있습니다구글링 해봐도 "utm ubuntu 수동 ip 설정" 관련해서는 따로 자료가 없어서요! ㅠㅠutm > edit selected vm > Devices > 네트워크 > 고급 설정 보기다음에 어떤걸 설정해야되는지 모르겠습니다!
-
미해결다양한 사례로 익히는 SQL 데이터 분석
실습용 데이터 복원 에러
데이터 복원 과정에서 에러가 발생하여 문의 드립니다.OS는 윈도우 11 사용하고 있구요, DBeaver는 23.1.5버전, Postgresql은 11.2.1 버전 사용하고 있습니다.
-
미해결[아파치 카프카 애플리케이션 프로그래밍] 개념부터 컨슈머, 프로듀서, 커넥트, 스트림즈까지!
consume lag 모니터링 툴로 prometheus + grafana는 어떻게 생각하시나요?
consume lag 모니터링 툴로 prometheus + grafana는 어떻게 생각하시나 궁금합니다~! prometheus에서 슬라이딩 윈도우를 지원하는 것으로 아는데, 블로그를 보다 kafka jmx exporter를 prometheus jmx metrics를 봐서요!