🔥딱 8일간! 인프런x토스x허먼밀러 역대급 혜택

한국 데이터 산업계에서 IML이 덜 언급되는 이유와 그 함의

한국 데이터 산업계에서 IML이 덜 언급되는 이유와 그 함의

미국에서는 널리 회자되지만, 한국 데이터 산업계에서는 이상할 만큼 언급 빈도가 낮은 책이 있다. Christoph Molnar의 'Interpretable Machine Learning'(이하 IML)이다. 굳이 "산업계"라고 한 이유는, 학계에서는 비교적 널리 읽히는 것으로 보이기 때문이다.

흔히 드는 설명은 이렇다. 책 속 수식과 개념의 밀도가 데이터 분석가에게는 다소 높게 느껴진다는 것. 그러나 IML이 요구하는 수학은 대체로 이공계 학부 1–3학년 수준의 선형대수·확률·기초 최적화이며, 체계적으로 접근하면 충분히 소화 가능하다. 그렇다면 "모든 분석가가 이공계 출신은 아닌데, 여전히 장벽이 높지 않은가?"라는 반론이 따라온다.

 

핵심은 분명하다. 공짜 점심은 없다.
여기서 말하는 ‘공짜 점심’은 학습 비용 없이 실무 역량을 얻을 수 없다는 상식적 주장이지, 최적화 이론의 No Free Lunch 정리 그 자체를 말하는 것은 아니다.


한국 산업계에서 IML이 덜 언급되는 배경에는 여러 요인이 겹쳐 있다.

1.도구 의존성: 라이브러리가 기본 제공하는 SHAP/Feature Importance 등을 코드 몇 줄로 호출하면 결과는 손쉽게 얻는다. 그러나 그 과정에서 가정(독립성·배경 데이터 선택), 한계(불안정성·상관 편향), 반례(비현실적 조합·오프매니폴드 설명)를 판단하는 역량이 뒤로 밀린다.

  • 예: PD(Partial Dependence)는 피처 상관이 클 때 존재하지 않는 조합을 평균할 수 있고, ALE가 이를 완화한다. LIME은 지역 근사 특성상 샘플링·시드에 민감하며, SHAP은 배경 분포 선택과 피처 상관 구조에 따라 귀속값이 크게 달라질 수 있다.

     

     

     

     


    2.교육 경로의 공백: 비이공계 전공자가 분석가가 되는 경로는 많지만, 그 사이 수학적 기초를 보강하는 체계는 상대적으로 약하다. “모형을 돌리는 법”은 빠르게 배우지만, “왜 그런 결과가 나왔는지”를 규명하는 해석·검증의 언어가 부족해진다.

     

     

     

     


    3.직무 정의와 우선순위의 차이: 미국은 채용 단계에서부터 통계·ML·수학적 문해력을 전제하는 포지션이 많다. 반면 한국은 리포팅·BI 중심 분석의 비중이 높은 팀도 적지 않아, IML의 필요성이 조직 구조상 낮게 관찰될 수 있다. 반대로 금융·의료·공공처럼 규제와 책임이 강한 도메인에선 IML의 실익이 크다.

     


    4.제품화 압력: 빠른 배포·AB 테스트·지표 운영이 1차 목표인 팀에서는, 사후 설명기법의 신뢰성·재현성 검증에 시간 투입이 어렵다. 그 결과 "설명"이 전달물로만 소비되고, 품질 보증 도구로 기능하지 못한다.


이 지점에서 개념을 분리해 두면 좋다.

  • 해석가능성(interpretability): 모델이 구조적으로 사람이 이해 가능한가(선형 모형, GAM, 단조 제약 모델, 규칙 기반 등).

  • 설명가능성(explainability): 사후(post‑hoc) 기법으로 블랙박스의 의사결정을 해석 가능한 형태로 근사·요약하는가(LIME, SHAP, PD/ICE, ALE, counterfactual(반사실) 등).


IML이 요구하는 수학은 실제로 다음과 대응된다.

  • LIME: 지역(linear) 근사, 가중 최소제곱 → 선형대수학·회귀분석 기초.

  • SHAP: 협력게임 이론의 공정 분배, 조건부 기댓값 → 확률론·조합론 기초.

  • PD/ICE/ALE: 기댓값·적분, 상호작용 해석 → 확률론·미적분학 기초.

  • Counterfactual: 제약하 최적화, 거리 측도, 실현가능성 → 최적화 기초.


개인적 경험으로도, 현업 분석 경험이 전무했을 때조차 IML을 정독한 덕에 해석과 검증의 공용어로 소통할 수 있었고, 팀의 분석과 결정을 한 단계 전진시키는 데 기여할 수 있었다.

한국 시장 역시 해석가능성·설명가능성의 기본 소양을 전제하는 방향으로 수렴할 가능성이 크다. 선택은 각자의 몫이다. 다만 그 선택이 학습 비용을 뒤로 미루는 선택이라면, 결국 품질·신뢰·책임의 요구 앞에서 더 큰 비용으로 돌아온다. 그런 의미에서 IML은 비용 대비 효율이 뛰어난 입문서이자 실무서다.

마지막으로, 공학용 계산기가 미적분을 해결해준 지는 오래고, 요즘은 LLM도 상당량의 수식을 다룬다. 그러나 결과를 선택·검증·해석하는 사람은 결국 개념을 이해한 사람이다. 도구는 계산을 대신할 수 있어도, 판단은 대체되지 않는다.


결론

IML을 미루게 만드는 장벽은 "수식의 양"이 아니라 "가정·한계·반례를 판별하는 개념적 근육"의 부재다. 그 근육을 키우는 비용은 피할 수 없고, IML은 그 비용을 가장 싸게 치르는 길 중 하나다.

댓글을 작성해보세요.

채널톡 아이콘