묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션4 - 모의고사1 - 3번 문제
안녕하세요 수강생입니다.강의듣다가 질문이 있어 이렇게 글남깁니다. 섹션4 - 모의고사1 - 3번 문제의 replace를 활용하거나 map을 활용하는 부분입니다. 저는 .replace.replace.replace를 반복하지 않고 아래와 같이 곧바로 딕셔너리 형태로 코드를 치니 마치 map에 딕셔너리를 리스트로 담은 것처럼 동작을 하던데 올바른 방법인지 모르겠습니다.막상 답이 133으로 동일하게 나오다보니 replace나 map의 차이점 또는 딕셔너리의 올바른 활용(?) 부분이 궁금해지네요. import pandas as pd df = pd.read_csv('members.csv') df = df.dropna(subset=['views']) # print(df.isnull().sum()) df['f3'] = df['f3'].fillna(0) df['f3'] = df['f3'].replace({'silver':1, 'gold':2, 'vip':3}) # print(df.head()) print(int(df['f3'].sum()))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
삭제 예정 강의(섹션17) 질문 및 공부 방향
안녕하세요~지난 6회 실기 떨어지고.. ㅜㅜ 이번에 7회 재도전하는 수험생입니다~ 여러 유튜브 강의를 들어보았으나 퇴근후딴짓님 강의가 제일 저랑 잘맞는것 같아서 인프런에서 수강하고 있습니다. 강의를 계속 듣다 보니 추가적으로 업데이트 되는 강의도 많고 섹션 17(3유형)은 곧 삭제 예정이라고 하는데 섹션17은 꼭 볼 필요는 없는건가요? 아직 초반 듣고 있어서요.. 다음은 공부 방향에 대한 질문입니다..지난 6회는 3유형이 신설되었고 비전공자 직장인이라 충분한 연습을 못하고 갔습니다. 1유형은 하필 datetime 변환 문제가 시험장에서 기억이 안나서 2문제 날려버렸고.. 2유형은 베이스라인 외워서 전처리부터 모델링까지 다했음에도 10점 나오더군요.. ㅠㅠ 3유형은 유튜브에 여러 무료 강의와 데이터진흥원의 샘플 문제를 여러 차례 연습했음에도 달랑 1문제 맞은 것 같아요..많은 좌절감을 느끼며 이번에는 최대한 잘 준비해서 꼭 합격하고 싶습니다. 이번 퇴근후딴짓 커리큘럼만 잘 이해하고 숙지하면 충분할까요? 긍정의 에너지와 격려 말씀부탁드립니다~
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리시 궁금점!
데이터 전처리시 범주형(object)이면 라벨 or 원핫 인코딩수치형(int or float) 이면 민맥스스켈러 or z스켈러인데 타겟값이 범주형인가 수치형인가에 따라 전처리 방법을 다르게 하는건가요 아니면타겟값과 상관 없이 문자형, 수치형 둘다 해보는건지 또는 문자형 or 수치형 중에 아무거나 해도상관없는건지 궁금합니다! 또 어떠한 경우에 라벨, 원핫, 민맥스스켈러, z스켈러를 사용하는지도 궁금합니다! ex) 작업형2번 모의문제 1번에서는 타겟 값이 수치형 이지만 전처리시 민맥스스켈러 혹은 z스켈러를 이용하지 않고 문자형컬럼을 제거하거나 라벨, 원한 인코딩을 한 이유가 있을까요?타겟값이 범주형이기 때문에 그런건가요..ㅠㅠ파이썬이 처음이라 개념이 잘 안잡혀 있어서 헷갈리네요 ㅜㅜ
-
미해결비트코인 선물거래 자동매매 시스템(저자직강)
ec2 사용하려고하는데 사이즈
안녕하세요 강사님!해당 프로그램 ec2 인스턴스로 돌리고 싶은데사이즈는 어느정도가 좋을까요?백테스트나 다른 것들은 로컬에서 돌릴예정이고실제 트레이딩 봇만 구동하려고합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터프레임을 객체로 저장하거나, csv로 내보내기/불러오기를 할 때 record들의 순서
df.to_csv('data2.csv', index=False)를 할 때 인덱스를 제외하고 저장을 한다면, to_csv 후 이를 다시 read_csv를 해서 불러왔을 때 데이터프레임 내의 record들의 순서는 바뀌지 않고 고정인가요? SQL을 사용할 때는 Select를 할 때 record의 순서는 계속 바뀌던데 판다스에서는 특별히 조작을 하지 않는 이상 record들의 순서는 바뀌지 않는 것으로 이해하면 될까요?
-
미해결공공데이터로 파이썬 데이터 분석 시작하기
shift + tab 눌러도 아무 반응이 없습니다.
Nbextensions 에서 뭔가 추가를 해줘야 하는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3유형 업데이트 혹시 언제 될 예정이실까요?
3유형 업데이트 강의 대략 몇월 언제정도에 출시될 계획이신지 공유해주시면 매우 도움이 될 것 같습니다 ㅠㅠ 그리고 기존 버전의 3유형 강의만 충실히 소화해도 시험 합격하는 데에는 무리가 없는지도 궁금합니다. 감사합니다!
-
미해결파이썬 무료 강의 (활용편5) - 데이터 분석 및 시각화
오류
이 오류가 나는 이유를 모르겠어요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 준비 실기 영상 관련
항상 좋은 강의 감사드립니다 :)3유형 업데이트 일정을 알고 싶어 남겼습니다.감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
가설검정과정
가설 검정 과정 강의에서 가설검정 오류 부분에 일반적으로 1종 오류를 2종 오류보다 더 중요하게 생각함 이라고 적혀있습니다.강사님 강의 내용에서는 2종이 더 심각하게 받아들여진다 라고 말씀주셨는데,두 개 중 어떤 부분이 맞는건가요?
-
미해결[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]
강의자료 문의
머신러닝 배경지식: 머신러닝 모델과 성능평가의 이해의 설명해주시는 마크다운 파일(01-RECOGNITION.md)은 학습자료에 미포함인가요?시간될 때 마다 읽어보고 싶어서 문의드립니다!
-
미해결
python pandas dataframe을 엑셀 vlookup처럼 활용하고 싶은데 쉽지 않습니다. 도와주세요
하고 싶은 것일부 주문이 서비스 유형: 픽업임에도 배달메뉴코드로 생성되어 이를 찾고 싶습니다. (배달메뉴와 픽업메뉴 코드는 서로 다름)엑셀 vookup을 사용해서 상품코드를 배달 메뉴 테이블에서 검색하고, 검색되지 않으면 오주문으로 판단하는 코드를 구현했습니다. 같은 프로그램을 파이썬을 통해 구현해보고 싶은데, 다른 dataframe에 없는 값을 찾아 행을 추가하는 과정이 어려워 조언을 구하고 싶습니다. 파이썬 코드df_pickup = 픽업 주문내역 데이터 프레임 delivery_menu_code = df_delivery_menu["상품코드"] df_misorder = pd.DataFrame() # 픽업 주문내역에서 상품코드를 꺼내 해당 상품코드가 배달 메뉴 코드에 포함되어 있는지 확인 # 만약에 코드가 없으면 해당 row를 df_misorder에 추가 for idx, row in df_pickup.iterrows(): misorder = df_delivery_menu[delivery_menu_code.str.contains(row["상품코드"], na = False)] if len(misorder) != 0: df_misorder.concat(row) else: pass # 어떻게 추가해도 계속 0개로 나와서, 도와주시면 감사드리겠습니다! len(df_misorder)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
블로그 포스팅 관련 문의
안녕하세요 강사님먼저 좋은 강의 만들어주셔서 감사드립니다.빅데이터 관련 영역을 조금씩 배워나가고 싶어 강의를 신청하게 됐습니다. 다름이 아니라 혹시 강의 영상 혹은 수업 관련 자료중 필요한 부분을 캡처해서 제 개인 티스토리 블로그에 올려도 되는지 여쭙고자 글을 작성했습니다.다른 분들과 공유보다는 스스로 복습하는 용도로 글을 작성하는 목적이 크지만 인터넷에 올라오는 내용인 만큼 먼저 허락을 구하고자 합니다.상업적인 목적은 없으며 블로그 광고 연동도 신청하지 않을 것입니다.만약 혹시라도 하게 된다면 다시 한 번 말씀드리겠습니다.만약 캡처 사진을 올리는게 불가하시다면 비공개 처리하여 공유 및 열람이 안 되도록 조치한 후 저 혼자만글을 읽을 수 있도록 하겠습니다.감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험 및 문제 질문
안녕하세요. 이번 12월달에 있는 빅데이터분석기사 실기 시험을 준비중인 학생입니다.비전공자에다가 파이썬을 이번 강의 수강하면서 처음 접해봤는데 강의만 열심히 듣고 따라해도 합격하는데 있어서는 문제가 없을까요?!그리고 강의 수강하면서 궁금점도 있습니다.문자변경시에 replace를 사용해서 하는 경우는 df = df.replace('아메리카노','룽고') 이런 식으로 df= <-이부분 에다 대입해서 하시고 loc를 사용하신 경우에는 df= 을 적지 않고 바로df.loc[3,'원두'] 를 사용하셨는데 df= 에다 대입하는 경우의 차이가 있을까요? 그리고 '' , "" (작은 따옴표, 큰 따옴표)는 문자 사용 시 아무거나 사용해도 괜찮나요?
-
미해결파이썬(Python)으로 데이터 기반 주식 퀀트 투자하기 Part1
강의자료
선생님이 사용하시는 강의자료 따로 다운 받을 수 있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
질문
개정 시험 반영된 것 맞나요?
-
미해결[Python 실전] 웹크롤링과 데이터분석 : 전세계 축구 선수 몸값 분석
국적 2개 출력
강의 코드대로 작성하면 국적이 하나밖에 나오지 않는데, 국적 칸에 두 나라가 들어가있는 경우는 어떻게 출력해야 할까요?
-
해결됨파이썬(Python)으로 데이터 기반 주식 퀀트 투자하기 Part1
2.6 reindex 관련 예제 질문
아래의 에러가 발생했을 때 어떻게 진행해야 할지 모르겠습니다.df1과 df2의 실행이 안됩니다.--------------------------------------------------------------------------- KeyError Traceback (most recent call last) File ~\anaconda3\Lib\site-packages\pandas\core\computation\scope.py:198, in Scope.resolve(self, key, is_local) 197 if self.has_resolvers: --> 198 return self.resolvers[key] 200 # if we're here that means that we have no locals and we also have 201 # no resolvers File ~\anaconda3\Lib\collections\__init__.py:1004, in ChainMap.__getitem__(self, key) 1003 pass -> 1004 return self.__missing__(key) File ~\anaconda3\Lib\collections\__init__.py:996, in ChainMap.__missing__(self, key) 995 def __missing__(self, key): --> 996 raise KeyError(key) KeyError: 'Timestamp' During handling of the above exception, another exception occurred: KeyError Traceback (most recent call last) File ~\anaconda3\Lib\site-packages\pandas\core\computation\scope.py:209, in Scope.resolve(self, key, is_local) 205 try: 206 # last ditch effort we look in temporaries 207 # these are created when parsing indexing expressions 208 # e.g., df[df > 0] --> 209 return self.temps[key] 210 except KeyError as err: KeyError: 'Timestamp' The above exception was the direct cause of the following exception: UndefinedVariableError Traceback (most recent call last) File ~\anaconda3\Lib\site-packages\pandas\core\computation\expr.py:666, in BaseExprVisitor.visit_Call(self, node, side, **kwargs) 665 try: --> 666 res = self.visit(node.func) 667 except UndefinedVariableError: 668 # Check if this is a supported function name File ~\anaconda3\Lib\site-packages\pandas\core\computation\expr.py:415, in BaseExprVisitor.visit(self, node, **kwargs) 414 visitor = getattr(self, method) --> 415 return visitor(node, **kwargs) File ~\anaconda3\Lib\site-packages\pandas\core\computation\expr.py:549, in BaseExprVisitor.visit_Name(self, node, **kwargs) 548 def visit_Name(self, node, **kwargs): --> 549 return self.term_type(node.id, self.env, **kwargs) File ~\anaconda3\Lib\site-packages\pandas\core\computation\ops.py:85, in Term.__init__(self, name, env, side, encoding) 84 self.is_local = tname.startswith(LOCAL_TAG) or tname in DEFAULT_GLOBALS ---> 85 self._value = self._resolve_name() 86 self.encoding = encoding File ~\anaconda3\Lib\site-packages\pandas\core\computation\ops.py:109, in Term._resolve_name(self) 107 is_local = False --> 109 res = self.env.resolve(local_name, is_local=is_local) 110 self.update(res) File ~\anaconda3\Lib\site-packages\pandas\core\computation\scope.py:211, in Scope.resolve(self, key, is_local) 210 except KeyError as err: --> 211 raise UndefinedVariableError(key, is_local) from err UndefinedVariableError: name 'Timestamp' is not defined During handling of the above exception, another exception occurred: ValueError Traceback (most recent call last) Cell In[2], line 2 1 # 삼성전자 ----> 2 df1 = fdr.DataReader("005930", '2018-01-02', '2018-10-30') 4 # KODEX 200 (ETF) 5 df2 = fdr.DataReader("069500", '2018-01-03', '2018-10-30') File ~\anaconda3\Lib\site-packages\FinanceDataReader\data.py:19, in DataReader(symbol, start, end, exchange, kind) 16 start, end = _validate_dates(start, end) 17 if (symbol.isdigit() and len(symbol)==6 and exchange==None) or \ 18 (symbol.isdigit() and exchange and exchange.upper() in ['KRX', '한국거래소']): ---> 19 return NaverDailyReader(symbol, start, end, exchange, kind).read() 21 if (symbol.isdigit() and exchange and exchange.upper() in ['KRX-DELISTING']): 22 return KrxDelistingReader(symbol, start, end, exchange, kind).read() File ~\anaconda3\Lib\site-packages\FinanceDataReader\naver\data.py:29, in NaverDailyReader.read(self) 26 df.sort_index(inplace=True) 27 df['Change'] = df['Close'].pct_change() ---> 29 return df.query('index>=%r and index<=%r' % (self.start, self.end)) File ~\anaconda3\Lib\site-packages\pandas\util\_decorators.py:331, in deprecate_nonkeyword_arguments.<locals>.decorate.<locals>.wrapper(*args, **kwargs) 325 if len(args) > num_allow_args: 326 warnings.warn( 327 msg.format(arguments=_format_argument_list(allow_args)), 328 FutureWarning, 329 stacklevel=find_stack_level(), 330 ) --> 331 return func(*args, **kwargs) File ~\anaconda3\Lib\site-packages\pandas\core\frame.py:4474, in DataFrame.query(self, expr, inplace, **kwargs) 4472 kwargs["level"] = kwargs.pop("level", 0) + 2 4473 kwargs["target"] = None -> 4474 res = self.eval(expr, **kwargs) 4476 try: 4477 result = self.loc[res] File ~\anaconda3\Lib\site-packages\pandas\util\_decorators.py:331, in deprecate_nonkeyword_arguments.<locals>.decorate.<locals>.wrapper(*args, **kwargs) 325 if len(args) > num_allow_args: 326 warnings.warn( 327 msg.format(arguments=_format_argument_list(allow_args)), 328 FutureWarning, 329 stacklevel=find_stack_level(), 330 ) --> 331 return func(*args, **kwargs) File ~\anaconda3\Lib\site-packages\pandas\core\frame.py:4612, in DataFrame.eval(self, expr, inplace, **kwargs) 4609 kwargs["target"] = self 4610 kwargs["resolvers"] = tuple(kwargs.get("resolvers", ())) + resolvers -> 4612 return _eval(expr, inplace=inplace, **kwargs) File ~\anaconda3\Lib\site-packages\pandas\core\computation\eval.py:353, in eval(expr, parser, engine, truediv, local_dict, global_dict, resolvers, level, target, inplace) 344 # get our (possibly passed-in) scope 345 env = ensure_scope( 346 level + 1, 347 global_dict=global_dict, (...) 350 target=target, 351 ) --> 353 parsed_expr = Expr(expr, engine=engine, parser=parser, env=env) 355 # construct the engine and evaluate the parsed expression 356 eng = ENGINES[engine] File ~\anaconda3\Lib\site-packages\pandas\core\computation\expr.py:813, in Expr.__init__(self, expr, engine, parser, env, level) 811 self.parser = parser 812 self._visitor = PARSERS[parser](self.env, self.engine, self.parser) --> 813 self.terms = self.parse() File ~\anaconda3\Lib\site-packages\pandas\core\computation\expr.py:832, in Expr.parse(self) 828 def parse(self): 829 """ 830 Parse an expression. 831 """ --> 832 return self._visitor.visit(self.expr) File ~\anaconda3\Lib\site-packages\pandas\core\computation\expr.py:415, in BaseExprVisitor.visit(self, node, **kwargs) 413 method = "visit_" + type(node).__name__ 414 visitor = getattr(self, method) --> 415 return visitor(node, **kwargs) File ~\anaconda3\Lib\site-packages\pandas\core\computation\expr.py:421, in BaseExprVisitor.visit_Module(self, node, **kwargs) 419 raise SyntaxError("only a single expression is allowed") 420 expr = node.body[0] --> 421 return self.visit(expr, **kwargs) File ~\anaconda3\Lib\site-packages\pandas\core\computation\expr.py:415, in BaseExprVisitor.visit(self, node, **kwargs) 413 method = "visit_" + type(node).__name__ 414 visitor = getattr(self, method) --> 415 return visitor(node, **kwargs) File ~\anaconda3\Lib\site-packages\pandas\core\computation\expr.py:424, in BaseExprVisitor.visit_Expr(self, node, **kwargs) 423 def visit_Expr(self, node, **kwargs): --> 424 return self.visit(node.value, **kwargs) File ~\anaconda3\Lib\site-packages\pandas\core\computation\expr.py:415, in BaseExprVisitor.visit(self, node, **kwargs) 413 method = "visit_" + type(node).__name__ 414 visitor = getattr(self, method) --> 415 return visitor(node, **kwargs) File ~\anaconda3\Lib\site-packages\pandas\core\computation\expr.py:750, in BaseExprVisitor.visit_BoolOp(self, node, **kwargs) 747 return self._maybe_evaluate_binop(op, node.op, lhs, rhs) 749 operands = node.values --> 750 return reduce(visitor, operands) File ~\anaconda3\Lib\site-packages\pandas\core\computation\expr.py:743, in BaseExprVisitor.visit_BoolOp.<locals>.visitor(x, y) 742 def visitor(x, y): --> 743 lhs = self._try_visit_binop(x) 744 rhs = self._try_visit_binop(y) 746 op, op_class, lhs, rhs = self._maybe_transform_eq_ne(node, lhs, rhs) File ~\anaconda3\Lib\site-packages\pandas\core\computation\expr.py:739, in BaseExprVisitor._try_visit_binop(self, bop) 737 if isinstance(bop, (Op, Term)): 738 return bop --> 739 return self.visit(bop) File ~\anaconda3\Lib\site-packages\pandas\core\computation\expr.py:415, in BaseExprVisitor.visit(self, node, **kwargs) 413 method = "visit_" + type(node).__name__ 414 visitor = getattr(self, method) --> 415 return visitor(node, **kwargs) File ~\anaconda3\Lib\site-packages\pandas\core\computation\expr.py:723, in BaseExprVisitor.visit_Compare(self, node, **kwargs) 721 op = self.translate_In(ops[0]) 722 binop = ast.BinOp(op=op, left=node.left, right=comps[0]) --> 723 return self.visit(binop) 725 # recursive case: we have a chained comparison, a CMP b CMP c, etc. 726 left = node.left File ~\anaconda3\Lib\site-packages\pandas\core\computation\expr.py:415, in BaseExprVisitor.visit(self, node, **kwargs) 413 method = "visit_" + type(node).__name__ 414 visitor = getattr(self, method) --> 415 return visitor(node, **kwargs) File ~\anaconda3\Lib\site-packages\pandas\core\computation\expr.py:536, in BaseExprVisitor.visit_BinOp(self, node, **kwargs) 535 def visit_BinOp(self, node, **kwargs): --> 536 op, op_class, left, right = self._maybe_transform_eq_ne(node) 537 left, right = self._maybe_downcast_constants(left, right) 538 return self._maybe_evaluate_binop(op, op_class, left, right) File ~\anaconda3\Lib\site-packages\pandas\core\computation\expr.py:458, in BaseExprVisitor._maybe_transform_eq_ne(self, node, left, right) 456 left = self.visit(node.left, side="left") 457 if right is None: --> 458 right = self.visit(node.right, side="right") 459 op, op_class, left, right = self._rewrite_membership_op(node, left, right) 460 return op, op_class, left, right File ~\anaconda3\Lib\site-packages\pandas\core\computation\expr.py:415, in BaseExprVisitor.visit(self, node, **kwargs) 413 method = "visit_" + type(node).__name__ 414 visitor = getattr(self, method) --> 415 return visitor(node, **kwargs) File ~\anaconda3\Lib\site-packages\pandas\core\computation\expr.py:670, in BaseExprVisitor.visit_Call(self, node, side, **kwargs) 667 except UndefinedVariableError: 668 # Check if this is a supported function name 669 try: --> 670 res = FuncNode(node.func.id) 671 except ValueError: 672 # Raise original error 673 raise File ~\anaconda3\Lib\site-packages\pandas\core\computation\ops.py:614, in FuncNode.__init__(self, name) 612 def __init__(self, name: str) -> None: 613 if name not in MATHOPS: --> 614 raise ValueError(f'"{name}" is not a supported function') 615 self.name = name 616 self.func = getattr(np, name) ValueError: "Timestamp" is not a supported function
-
해결됨[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]
RMSLE의 사용에 관한 질문입니다
머신러닝 적용을 위한 Feature Engineering 강의 10:10 부분에서 질문 드립니다!이번 강의에서는 RMSLE 계산을 위해 아래와 같이 함수를 만들었습니다.def get_rmsle(y_actual, y_pred): diff = np.log(y_pred + 1) - np.log(y_actual + 1) mean_error = np.square(diff).mean() return np.sqrt(mean_error) 그리고 이를 rmsle_scorer 객체로 만든 후rmsle_scorer = make_scorer(get_rmsle, greater_is_better=False)GridSearchCV 의 scoring에 넣어줬는데요,lasso_grid=GridSearchCV(estimator = Lasso(), param_grid = hyperparams, verbose=True, scoring=rmsle_scorer, cv=5, n_jobs=-1) 전에 강의에서는 RMSLE를 계산하기 위해 아래와 같은 과정을 거쳤던 것이 생각났습니다.from sklearn.metrics import mean_squared_log_error print("RMSLE:", np.sqrt(mean_squared_log_error(y_true, y_pred))) 이번 강의에서 np.sqrt(mean_squared_log_error(y_true, y_pred)) 를 사용하지 않고, RMSLE를 계산하기 위한 함수를 따로 만든 이유는 GridSearchCV의 scoring에 적용을 하기 위함이라고 이해하면 되는 것인지 궁금합니다! 그리고, 함수를 필수적으로 만들어야 한다면def get_rmsle(y_actual, y_pred): return np.sqrt(mean_squared_log_error(y_true, y_pred)) 와 같은 형식으로 함수를 만들 수도 있는 것인지 여쭙고 싶습니다!
-
해결됨[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]
머신러닝 적용을 위한 Feature Engineering 강의 질문입니다
머신러닝 적용을 위한 Feature Engineering 강의 8:20 부분에서 질문입니다!!EDA를 통해 humidity와 대여량의 관계를 그래프로 파악했을 때, humidity가 70 이상일 때 대여량이 크게 감소하는 것을 파악했고, 이를 기반으로 humid 컬럼을 만들었습니다.이때, humid 컬럼의 값이 1 이면 humidity가 70 이상으로, 습한 날씨이며, 결국 자전거를 타기에 '좋은 날씨는 아니다 '라는 의미로 이해를 하였는데요위에서 fit 컬럼을 만들 때에는 값이 1일 때, 자전거를 타기 '좋은 날씨이다' 라고 표현을 하였던 것과 반대라는 것이 눈에 띄었습니다.이렇게 feature engineering을 진행할 때, 척도의 의미가 컬럼별로 달라도 관계가 없는 것인지 궁금합니다!!보통 설문지 문항에서 척도의 의미가 다른 경우, 역코딩을 했던 기억이 있는데, 머신러닝의 경우에는 다른 것인지 여쭙고 싶습니다..!