블로그
전체 4#카테고리
- 데이터 분석
- 수학
#태그
- 데이터과학
- 데이터분석
- 해석가능성
- 설명가능성
- 수학
- 산업계
- 이공계
- 비전공
- 맷수달
- 송주은
- 통계학
- 논리학
- 증인
- 독립성
- 명제논리
- 술어논리
- 귀류법
- 모순
- 수리논리학
- 파이썬
- 코딩
- 알고리즘
- 괴델
- 불완전성정리
- 인공지능
- 컴퓨터과학
- 과학
2025. 08. 18.
1
한국 데이터 산업계에서 IML이 덜 언급되는 이유와 그 함의
미국에서는 널리 회자되지만, 한국 데이터 산업계에서는 이상할 만큼 언급 빈도가 낮은 책이 있다. Christoph Molnar의 'Interpretable Machine Learning'(이하 IML)이다. 굳이 "산업계"라고 한 이유는, 학계에서는 비교적 널리 읽히는 것으로 보이기 때문이다.흔히 드는 설명은 이렇다. 책 속 수식과 개념의 밀도가 데이터 분석가에게는 다소 높게 느껴진다는 것. 그러나 IML이 요구하는 수학은 대체로 이공계 학부 1–3학년 수준의 선형대수·확률·기초 최적화이며, 체계적으로 접근하면 충분히 소화 가능하다. 그렇다면 "모든 분석가가 이공계 출신은 아닌데, 여전히 장벽이 높지 않은가?"라는 반론이 따라온다. 핵심은 분명하다. 공짜 점심은 없다.여기서 말하는 ‘공짜 점심’은 학습 비용 없이 실무 역량을 얻을 수 없다는 상식적 주장이지, 최적화 이론의 No Free Lunch 정리 그 자체를 말하는 것은 아니다.한국 산업계에서 IML이 덜 언급되는 배경에는 여러 요인이 겹쳐 있다.1.도구 의존성: 라이브러리가 기본 제공하는 SHAP/Feature Importance 등을 코드 몇 줄로 호출하면 결과는 손쉽게 얻는다. 그러나 그 과정에서 가정(독립성·배경 데이터 선택), 한계(불안정성·상관 편향), 반례(비현실적 조합·오프매니폴드 설명)를 판단하는 역량이 뒤로 밀린다.예: PD(Partial Dependence)는 피처 상관이 클 때 존재하지 않는 조합을 평균할 수 있고, ALE가 이를 완화한다. LIME은 지역 근사 특성상 샘플링·시드에 민감하며, SHAP은 배경 분포 선택과 피처 상관 구조에 따라 귀속값이 크게 달라질 수 있다. 2.교육 경로의 공백: 비이공계 전공자가 분석가가 되는 경로는 많지만, 그 사이 수학적 기초를 보강하는 체계는 상대적으로 약하다. “모형을 돌리는 법”은 빠르게 배우지만, “왜 그런 결과가 나왔는지”를 규명하는 해석·검증의 언어가 부족해진다. 3.직무 정의와 우선순위의 차이: 미국은 채용 단계에서부터 통계·ML·수학적 문해력을 전제하는 포지션이 많다. 반면 한국은 리포팅·BI 중심 분석의 비중이 높은 팀도 적지 않아, IML의 필요성이 조직 구조상 낮게 관찰될 수 있다. 반대로 금융·의료·공공처럼 규제와 책임이 강한 도메인에선 IML의 실익이 크다. 4.제품화 압력: 빠른 배포·AB 테스트·지표 운영이 1차 목표인 팀에서는, 사후 설명기법의 신뢰성·재현성 검증에 시간 투입이 어렵다. 그 결과 "설명"이 전달물로만 소비되고, 품질 보증 도구로 기능하지 못한다.이 지점에서 개념을 분리해 두면 좋다.해석가능성(interpretability): 모델이 구조적으로 사람이 이해 가능한가(선형 모형, GAM, 단조 제약 모델, 규칙 기반 등).설명가능성(explainability): 사후(post‑hoc) 기법으로 블랙박스의 의사결정을 해석 가능한 형태로 근사·요약하는가(LIME, SHAP, PD/ICE, ALE, counterfactual(반사실) 등).IML이 요구하는 수학은 실제로 다음과 대응된다.LIME: 지역(linear) 근사, 가중 최소제곱 → 선형대수학·회귀분석 기초.SHAP: 협력게임 이론의 공정 분배, 조건부 기댓값 → 확률론·조합론 기초.PD/ICE/ALE: 기댓값·적분, 상호작용 해석 → 확률론·미적분학 기초.Counterfactual: 제약하 최적화, 거리 측도, 실현가능성 → 최적화 기초.개인적 경험으로도, 현업 분석 경험이 전무했을 때조차 IML을 정독한 덕에 해석과 검증의 공용어로 소통할 수 있었고, 팀의 분석과 결정을 한 단계 전진시키는 데 기여할 수 있었다.한국 시장 역시 해석가능성·설명가능성의 기본 소양을 전제하는 방향으로 수렴할 가능성이 크다. 선택은 각자의 몫이다. 다만 그 선택이 학습 비용을 뒤로 미루는 선택이라면, 결국 품질·신뢰·책임의 요구 앞에서 더 큰 비용으로 돌아온다. 그런 의미에서 IML은 비용 대비 효율이 뛰어난 입문서이자 실무서다.마지막으로, 공학용 계산기가 미적분을 해결해준 지는 오래고, 요즘은 LLM도 상당량의 수식을 다룬다. 그러나 결과를 선택·검증·해석하는 사람은 결국 개념을 이해한 사람이다. 도구는 계산을 대신할 수 있어도, 판단은 대체되지 않는다.결론IML을 미루게 만드는 장벽은 "수식의 양"이 아니라 "가정·한계·반례를 판별하는 개념적 근육"의 부재다. 그 근육을 키우는 비용은 피할 수 없고, IML은 그 비용을 가장 싸게 치르는 길 중 하나다.
데이터 분석
・
데이터과학
・
데이터분석
・
해석가능성
・
설명가능성
・
수학
・
산업계
・
이공계
・
비전공
・
맷수달
・
송주은
2025. 08. 11.
3
'독립이어야만 통계적으로 유의미하다'는 필요조건의 착각을 명제·술어논리로 반증하기
0. 독립적인 사건들이라야 통계적으로 의미가 있다.많은 사람들이 이렇게 말합니다."자료가 독립적이어야만 통계가 의미가 있다.""독립적이지 않다면 쓸모 없다."결론부터 말하면 이러한 문장들은 거짓입니다. 독립성(independence)은 분석을 쉽게 만들어 주는 편리한 가정일 뿐, 추정·검정·예측의 타당성을 보장하는 필요조건은 아닙니다. 이 글은 그 주장을 명제논리와 술어논리로 형식화해 "필요조건이 아니다"가 정확히 무슨 뜻인지 구체적으로 보여 줍니다. 그리고 그 주장을 뒷받침하는 "증인(witness)" 사례도 제시합니다.1. 논의의 준비: 기호와 뜻원자 명제(참/거짓):I: "데이터(혹은 모형)에서 독립성이 성립한다."E: "선택한 절차가 타당한 추정을 제공한다."T: "선택한 절차가 유효한 검정을 제공한다." (설계된 유의수준 충족)P: "선택한 절차가 유효한 예측을 제공한다."우리가 말하는 "통계적 의미"를M ≡ E ∨ T ∨ P로 묶겠습니다. 즉, 추정·검정·예측 중 하나 이상이 제대로 작동한다는 뜻입니다.2. 명제논리로 본 "필요조건이 아니다""I가 M의 필요조건이다"의 형식은M ⇒ I.즉 M이면 반드시 I여야 한다."필요조건이 아니다"는 위 명제의 부정입니다:¬(M ⇒ I).고전 항등식 ¬(P ⇒ Q)≡P∧¬Q를 쓰면 ¬(M ⇒ I) ≡ M∧¬I라는 결론이 나옵니다.해석: "독립성은 필요조건이 아니다"란 말은,'통계적 의미 M은 성립하지만 독립성 I은 깨지는' 상황이 하나라도 존재함을 뜻합니다.필요조건 논쟁은 거창해 보이지만, 사실상 "반례 하나면 끝"이라는 말과 동치입니다.같은 논리를 각 E,T,P에 적용하면¬(E ⇒ I) ⟺ E∧¬I, ¬(T ⇒ I) ⟺ T∧¬I, ¬(P ⇒ I) ⟺ P∧¬I.즉 추정/검정/예측 각각에 대해 "독립성 없이도 된다"는 반례가 하나라도 있으면, 필요조건 주장은 무너집니다.3. 술어논리(양화)와 집합론으로 본 정밀 해석분석 세팅들의 집합을 S라 두고, 각 세팅 s∈S는데이터 생성 메커니즘 D와 절차 Π의 쌍 s=(D,Π)라고 합시다.술어:I(s): 세팅 s에서 독립성이 성립E(s),T(s),P(s): 각각 s에서 추정/검정/예측의 타당성M(s)≡E(s)∨T(s)∨P(s)M(s)그때"I는 M의 필요조건" ⟺ ∀s∈S, M(s) ⇒ I(s).따라서 “필요조건이 아니다” ⟺ ∃s*∈S: M(s*)∧¬I(s*)입니다. 즉 단 하나의 증인 s* 만으로 결론이 납니다.집합론 표기로는I:={s:I(s)},M:={s:M(s)}.필요조건 ⟺ M⊆I.필요조건 아님 ⟺ M⊈I ⟺ M∖I≠∅.4. 증인(Witness) 제시: M∧¬I의 구체 사례실제 통계에서 자주 등장하는 사례들을 짚어 보겠습니다. 4.1 추정이 유효하지만 독립이 깨진다: 시계열(AR(1))4.2 검정이 유효하지만 독립이 깨진다: HAC(뉴이–웨스트)4.3 예측이 유효하지만 독립이 깨진다: 마르코프 체인4.4 표본추출: 복원 없는 단순무작위추출(SRSWOR)즉, 실제 통계에서 M∧¬I는 드문 예외가 아니라 전혀 아닙니다.5. 흔한 오해와 정리오해1: "독립이 아니면 통계가 다 망가진다."답변: 망가지는 건 대개 독립을 전제한 분산 공식과 유의수준 계산입니다. 해결은 간단합니다. 의존 구조를 모델링하거나(시계열·공간·군집), 강건 분산(HAC, 군집화-강건, 블록부트스트랩 등)으로 교정하면 됩니다.오해2: "그럼 독립은 쓸모없다?"답변: 절대 그렇지 않습니다. 독립은 많은 교과서 공식과 정리를 단순화하는 강력한 충분조건입니다. 단지 필요조건은 아닙니다. 즉, 다른 조건들(혼합, 에르고딕성, 교환가능성, 마팅게일 차분 등)로도 M을 확보할 수 있다는 뜻입니다.6. 논리식 요약명제논리:“I는 M의 필요조건이 아니다” ⟺ ¬(M ⇒ I) ⟺ M∧¬I (반례 하나면 충분)술어논리:∀s [M(s) ⇒ I(s)]가 거짓 ⟺ ∃s* [M(s*)∧¬I(s*)] (증인의 존재)집합론:M⊈I ⟺ M∖I≠∅8. 맺음말독립성은 무적이 아닙니다. 논리의 언어로 말하면, 독립성은 M의 충분조건으로 자주 쓰이지만, 필요조건은 아닙니다. 그리고 그 사실은 M∧¬I인 증인의 존재로 간단하게 증명 할 수 있습니다.
수학
・
수학
・
통계학
・
논리학
・
증인
・
독립성
・
명제논리
・
술어논리
・
데이터과학
・
맷수달
・
송주은
2025. 06. 15.
3
귀류법(RAA) 한눈에 이해하기 - 개념부터 파이썬 코드까지
0. 법정 드라마 속 예시 상황우리는 법정 드라마에서 다음과 같은 내용을 종종 볼 수 있습니다.피고인: "사건이 벌어진 밤 9시에 저는 집에서 TV를 보고 있었습니다."검사 : "피고인의 말을 그대로 믿어 보겠습니다. 하지만 사건 현장은 차로 1 시간 거리입니다. 그 밤 9시에 피고인을 그곳에서 보았다는 증인이 있습니다. 두 진술을 함께 받아들이면 모순이 됩니다. 따라서 피고인의 알리바이는 거짓입니다."위의 내용에서 검사는 "당신 주장을 인정해도 모순이 생긴다"는 형식으로 논증을 전개합니다. 이 구조가 바로 귀류법 (reductio ad absurdum, RAA)입니다.1. 귀류법의 정의귀류법은 아래의 4단계를 거쳐서 수행 됩니다.부정 가정: 증명하고 싶은 명제 R의 부정 ¬R을 임시 전제로 가정합니다.논리 전개: 공리, 정리, 정의와 임시 전제로 가정한 ¬R을 가지고 추론을 진행합니다.모순 도출: 예: S∧¬S, "0 불가능한 진술을 얻습니다. 이 상태를 ⊥라 합니다.가정 부정 → 결론: 모순이 나왔으므로 ¬R의 거짓(⇒ ¬¬R). 고전 논리의 이중부정 제거(DNE) 로 R이 참임을 얻습니다.요약하면¬R⊢⊥ ⟹ ¬¬R ⟹ R.2. 조건명제를 귀류법으로 다룰 때의 '전체 부정'의 중요성조건명제 P ⇒ Q를 증명하려면 단순히 Q만 부정해서는 안 됩니다.즉, P ⇒ Q를 부정 해야 합니다. 그 결과는 ¬(P⇒Q)≡P∧¬Q 입니다. 이 결과는 진리표로 간단하게 동치임을 확인 할 수 있습니다.반면 대우(contrapositive) 증명은 ¬Q를 가정해 ¬P를 도출하는 별도 기법입니다. 이것은 귀류법과는 다른 논증으로 귀류법과 대우증명을 혼동하지 마세요.3. 모순(⊥)을 만드는 다양한 예시동일 명제, 반명제: 예를 들어 x>5와 x≤5, P와 ¬P집합 관계 충돌: 예를 들어 A⊆B이고 a∈A 인데 a∈B공리 위반: 예를 들어 ZF Set Theory 정칙성 위배(순환 포함)자명한 거짓: 예를 들어 0여기서 중요한 것은 모순이 발생(존재)했다는 사실만 중요합니다. 어떠한 형태의 모순인지는 중요하지 않습니다.4. 귀류법이 작동하기 위한 논리 공리 , 고전 VS 구성주의5. 파이썬 진리표 실험 , 두 개의 핵심 동치 검증파이썬을 통해서 귀류법을 시뮬레이션해 보겠습니다. 아래의 코드로 귀류법과 관련된 모든 진리값을 표 형태로 확인할 수 있습니다. 출력 결과를 비교함으로써, 귀류법이 의존하는 아래의 두 핵심 동치가¬(P→Q) ≡ P∧¬Q(¬R→⊥) ≡ R실제 파이썬으로 구현한 boolean 연산에서도 정확히 성립함을 검증할 수 있습니다.import pandas as pd rows = [] for P in (True, False): for Q in (True, False): # 1) 조건명제와 부정 cond = (not P) or Q # P → Q not_cond = not cond # ¬(P → Q) (≡ ¬R) not_cond_equiv = P and (not Q) # P ∧ ¬Q # 2) 모순(⊥)을 False로 모델링 bottom = False # 3) (¬R → ⊥) ≡ ¬¬R ≡ R 계산 notR_implies_bottom = (not not_cond) or bottom rows.append({ "P": P, "Q": Q, "P → Q": cond, "¬(P → Q)": not_cond, "P ∧ ¬Q": not_cond_equiv, "¬R → ⊥ (≡ R)": notR_implies_bottom }) df = pd.DataFrame(rows) print(df.to_string(index=False)) 출력결과:위의 출력된 표를 보면¬(P→Q) 열과 P∧¬Q열의 진리값이 동일합니다.P→Q 열과 ¬R→⊥열의 진리값이 동일합니다. (¬R→⊥)≡R 임을 확인할 수 있습니다.6. 결론, 귀류법의 실용적 가치와 활용 범위많은 분들이 귀류법을 법정 드라마 속 검사,변호사의 날카로운 심문 기술로만 기억하지만, 실제로 이 기법을 가장 체계적이고 빈번하게 활용하는 집단은 수학자입니다. 정리,정의,공리 체계 안에서 모순을 끌어내고 결론을 확정하는 과정이 수학적 증명 곳곳에 스며 있기 때문입니다.그러나 귀류법은 특정 전문가의 전유물이 아닙니다. 이번 글에서 살펴본 네 단계(글중 1. 귀류법의 정의 부분) 절차만 잘 이해한다면 예를 들어학술 논문에서 반례 가능성을 반박할 때,대학,대학원 과제에서 명제의 참을 엄밀히 증명할 때,연구 보고서,기술 문서에서 설계 가정의 일관성을 검증할 때,일상적 토론,블로그 글쓰기에서 상대 주장에 논리적 허점을 지적할 때누구나 신뢰도 높은 반증(argument by contradiction)을 구성할 수 있습니다.귀류법으로 사고 과정을 정리하다 보면, 자연스럽게 명제 논리, 술어 논리와 친숙해질 수도 있고 자신의 논증 구조를 한층 명료하게 다듬을 수 있습니다. 이제 스스로도 법정 드라마 속 변호사 못지않은 논리적 설득력을 발휘해 보시기 바랍니다.
수학
・
귀류법
・
논리학
・
모순
・
수리논리학
・
수학
・
파이썬
・
코딩
・
알고리즘
・
맷수달
・
송주은
2025. 06. 15.
3
괴델의 불완전성 정리에 대한 오해
괴델의 불완전성 정리에 대한 흥미로운 영상이 유튜브에 최근 업로드 되었습니다.(영상은 아래의 링크 참조)유튜브 링크: The Most Abused Theorem in Math (Gödel's Incompleteness)영상의 핵심 메시지와 제 생각을 정리하면 다음과 같습니다."괴델이 증명했으니 물리학의 만물이론(TOE)은 불가능하다"거나 "괴델 정리가 수학 전체가 불완전하다는 걸 보여준다" 같은 주장은 자주 들리지만 정확하지 않습니다.괴델의 불완전성 정리가 적용되는 형식 체계의 조건:1. 자연수의 산술을 표현할 수 있을 만큼 충분히 강력함 (페아노 산술(PA) 이상)2. 공리와 추론 규칙이 재귀적으로 열거 가능함3. 무모순성 (consistency)이러한 조건을 만족하는 형식 체계를 S라고 할 때, 중요한 점은 이 정리가 자연법칙이나 윤리학 자체가 아닌, 이들을 형식화한 특정 체계에만 적용된다는 것입니다. 만약 물리학의 TOE가 충분히 강력한 수학적 형식 체계로 표현된다면, 그 체계 내에서 결정불가능한 명제가 존재할 것이지만, 이것이 TOE 자체의 불가능성을 의미하지는 않습니다.괴델의 불완전성 정리가 실제로 말하는 것:제1불완전성 정리: 체계 S가 무모순이면, S에서는 참이지만 증명도 반증도 할 수 없는 산술 명제가 반드시 존재한다.제2불완전성 정리: 체계 S가 무모순이면, S는 자신의 무모순성을 스스로 증명할 수 없다.이 결과는 힐베르트의 야심찬 프로그램, 수학의 완전성과 무모순성을 한 번에 증명하려던 시도에 종지부를 찍었습니다. 하지만 이것이 수학의 종말을 의미한 것은 아닙니다.오히려 수학자들은 결정불가능한(undecidable) 명제를 만나면 새로운 공리를 추가하거나 더 강력한 체계로 이동하며 계속 전진해왔습니다. 예를 들어, 연속체 가설이 ZFC에서 독립적임이 밝혀진 후에도 집합론은 계속 발전했습니다.괴델의 불완전성 정리가 보여주는 것은:1. 어떤 단일 형식 체계도 산술의 모든 진리를 포착할 수 없음2. 그러나 더 강력한 체계로의 확장 가능성은 항상 열려 있음즉, 이 정리는 수학의 한계를 선언한 것이 아니라, 단일 형식 체계의 본질적 한계를 인식하고 더 풍부한 수학적 구조를 탐구하도록 이끄는 나침반 역할을 합니다. '하나의 닫힌 체계로는 모든 진리를 포착할 수 없다'는 깨달음이, 역설적으로 새로운 공리와 이론을 도입하게 만드는 동력이 됩니다.상대성 이론을 '모든 것이 상대적'이라 오해하듯, 불완전성 정리를 '모든 것이 증명 불가능'이라 오해하는 것은 안타까운 일입니다. 괴델이 남긴 진정한 유산은 한계의 선언이 아니라 수학적 탐구가 끝없이 계속될 수밖에 없음을 보여준 것입니다.괴델은 20세기 가장 위대한 논리학자이자 수학자중 한명으로, 그의 업적은 수학과 논리학의 기초를 영원히 바꾸어 놓았습니다.
수학
・
괴델
・
불완전성정리
・
수학
・
논리학
・
알고리즘
・
인공지능
・
컴퓨터과학
・
과학
・
맷수달
・
송주은