머신 러닝. 여러분 팀이 필요로 하는 것, 여러분 상사가 요구하는 것, 그리고 여러분의 커리어가 사랑하는 것입니다. LinkedIn은 '기업이 가장 필요로 하는 역량' 중 하나이자 미국 내 가장 부상하고 있는 직군으로 머신 러닝을 꼽았습니다.
머신 러닝(일명 '예측 분석')을 배포하기 위해서는, 그 작동 원리를 알아야 합니다. 자신이 실무자가 아닌 기업가라 해도(직접 수치를 다루지 않는 경우), 전반적인 프로젝트를 처리하기 위해서는 머신 러닝의 기본 메커니즘을 파악하고 있어야 합니다. 다시 말해 경영진, 의사결정권자, 또는 운영 관리자 등 직무와 관계없이 예측 모델을 통합하여 의사 결정을 내리는 방법을 감독하는 사람이라면, 가지고 있는 정보가 많을수록 더 나은 결과를 얻을 수 있습니다.
작동 원리를 자세히 살펴보는 일은 아주 재미있을 겁니다. 머신 러닝의 메커니즘은 흥미롭고 놀라울 뿐 아니라, 직관적으로도 이해가 쉽습니다. 전 세계적으로 머신 러닝의 영향력이 빠르게 커지고 있습니다. 이제는 데이터 예측력을 입증하고, 이를 과학적으로 활용하는 방법을 명확히 해야 할 때입니다.
본 강좌는 머신 러닝의 작동 원리를 다루고 있습니다. 복잡한 계산 없이 기초적인 원리, 데이터에서 통찰력을 얻는 방법, 이러한 통찰력을 신뢰할 수 있는 방법, 예측 모델의 성능은 어느 정도인지 등을 살펴봅니다. 이는 분석 전문가들 뿐 아니라 모든 비즈니스 전문가에게도 필요한 내용입니다.
또한 본 강좌에서는 일반적인 수준의 머신 러닝과 더불어 최신 고급 기법을 다룰 뿐 아니라, 굉장히 흔하지만 간과하기 쉬운 함정을 피할 수 있는 방법을 제시합니다. 본 강좌에서는 이러한 주제를 심층적으로 다루고 있지만, 기술적인 지식이 없는 학습자와 입문자도 쉽게 이해할 수 있도록 구성되었습니다.
본 강좌에서는 다음과 같이 성능이 우수하거나 그렇지 않은 기법, 그리고 그 경계에 있는 기법 등을 다루고 있으며, 이를 통해 어떤 기법이 효과적인지를 학습합니다.
– 의사결정 나무, 로지스틱 회귀, 신경망 등 예측 모델링 알고리즘의 작동 원리
– 과적합, p-해킹, 상관관계로부터 인과관계를 추정하는 오류 등의 위험한 함정
– 예측 모델을 해석하는 방법과 그 작동 원리를 설명하는 방법
– 앙상블 모델링, 업리프트 모델링(일명 ‘설득 모델링’) 등의 고급 기법
– 수많은 머신 러닝 소프트웨어 옵션 중 툴을 선정하는 방법
– 비즈니스 측면에서의 예측 모델 평가 방법
– 보호 계층에 대한 잠재적 편향이 내재된 예측 모델을 가려내는 방법 (AI 윤리)
심층적인 주제를 쉽게 풀이. Columbia University 교수 시절 티칭 어워드를 수상한, 업계 선두주자 Eric Siegel이 여러분을 초대합니다. 본 커리큘럼은 심도 있는 내용으로 수강생의 참여를 유도하며, 머신 러닝이라는 주제를 놀라울 정도로 쉽게 풀이하는 과정 중 하나로 손꼽힙니다.
이론 중심, 복잡한 계산 배제. 본 강좌에서는 실습보다는, 비즈니스 리더와 급부상하는 데이터 과학자 모두가 활용할 수 있도록 최신 기술과 가장 치명적인 함정을 폭넓게 다루고 있습니다. 따라서 코딩이나 머신 러닝 소프트웨어 사용과 관련된 실습은 진행하지 않습니다. 예외적으로, 평가 과제 중 하나로 Excel 또는 Google Sheets를 통해 예측 모델을 직접 만들어보고, 해당 모델이 어떻게 개선되는지 눈으로 직접 확인하는 실습 과정이 포함되어 있습니다.
전문적 지식을 갖춘 수강생에게도 적합한 강의. 바로 실습에 뛰어들기 전에, 분석 전문가들처럼 잘 생각해 보세요. 이 커리큘럼은 훌륭한 기술 전문가들에게도 필요한 여러 보충적 노하우를 제공합니다. 이 강의는 탄탄한 개념 구조 속에 핵심 기술을 위치시킵니다. 또한 대부분의 기술 분야 강좌에서 다루지 않는 업리프트 모델링(설득 모델링)이나 위험한 함정에 대해서도 다루고 있습니다.
벤더 중립적. 본 강좌에는 SAS 제품을 사용한 머신 러닝 소프트웨어 데모 강의가 포함되어 있습니다. 그러나 이 커리큘럼은 벤더 중립적이며. 범용적으로 적용될 수 있습니다. 본 강좌에서 다루는 내용과 학습 목표는 어떤 머신 러닝 소프트웨어 툴을 사용하느냐에 관계없이 적용됩니다.
선행강좌. 본 강좌를 수강하기에 앞서, 전문 강좌의 'The Power of Machine Learning'(강좌 1)과 'Launching Machine Learning'(강좌 2)을 먼저 수강하시기 바랍니다.
Overview
Syllabus
- 1단원. 머신 러닝에 대한 기초 원리
- 데이터가 클수록 위험한 경우는 언제일까요? 무작위 노이즈의 함정에 빠지지 않고 과학적 발견의 신뢰성을 입증할 수 있는 방법은 무엇일까요? 이번 단원에서는 머신 러닝이 효과적인 성능을 발휘하는 근본적인 방법에는 무엇이 있는지 살펴봅니다. 먼저, 일반적이면서도 골칫거리인 세 가지 함정(과적합, p-해킹, 상관관계만으로 인과관계를 추정하는 오류)을 알아보겠습니다. 그 다음으로는 머신 러닝 기법 설계의 바탕이 되는 기본 원칙을 정립해 보겠습니다.
- 2단원. 평범하지만 믿음직스러운 머신 러닝 기법
- 이번 단원에서는 일반적인 머신 러닝 기법 네 가지(의사결정 나무, 나이브 베이즈, 선형 회귀, 로지스틱 회귀)를 다룹니다. 네 가지 기법의 작동 원리를 알아봄과 동시에, 예시 데이터 세트에 대한 각각의 예측 성능을 확인하고, 각 기법의 의사결정 경계 시각화를 통해 기능을 비교 및 대조합니다. 향상도 및 이윤 측면에서 모델을 평가하는 방법과, 모델의 확률 추정치 개선이 중요한 이유를 알 수 있습니다.
- 3단원. 고급 기법, 기법 비교, 모델링 소프트웨어
- 뛰어난 고급 머신 러닝 기법인 딥 러닝을 도입해야 하는 시점과, 딥 러닝의 복합성이 과도해지는 시점은 언제일까요? 신경망이 지닌 복잡성의 영향을 받지 않으면서도, 모델의 기능 및 성능을 단순하면서도 명쾌하게 향상시킬 수 있는 방법은 무엇일까요? 이번 단원에서는 신경망, 딥 러닝, 앙상블 모델 등 고급 모델링 기법을 살펴보겠습니다. 그 다음으로 모든 모델링 기법을 전반적으로 비교 대조하고, 수많은 머신 러닝 소프트웨어 툴 중 자유롭게 사용할 수 있는 툴은 무엇인지를 간략하게 소개해드리겠습니다. 그런 다음, 업리프트 모델링(설득 모델링)이라 불리는 특수한 고급 기법을 다루며, 결과를 예측하는 것을 넘어 의사결정이 결과에 미치는 영향을 예측해 봅니다. 이러한 업리프트 모델링을 적용한 마케팅과, US Bank 및 Obama 대통령의 2012년 재선 운동 등의 성공 사례를 살펴보겠습니다.
- 4단원. 함정, 편향, 그리고 결론
- 범죄예측모델은 스스로 인종적 형평성을 판단하여 실현하지 못합니다. 어떤 의미에서는 인종적 형평성을 갖춘 모델이 다른 의미에서는 그렇지 않다는 것이 밝혀졌습니다. 이를 머신 러닝 편향이라 합니다. 대출 승인, 보험 책정, 인사 결정, 그리고 의료 현장에서의 중증도 분류 등 예측 모델을 통해 의사결정이 이루어지는 상황에서도 이러한 딜레마가 발생하고 있습니다. 이번 단원에서는 머신 러닝 편향으로 인해 발생하는 난제와 더불어, 이에 대한 해결책으로 고려할 수 있는 내용을 심층적으로 살펴봅니다. 또한, 이에 관련하여 모델 투명성, 설명 가능한 머신 러닝, 설명 요구권 등을 지지하는 최근의 흐름에 대해서도 살펴보겠습니다. 마지막으로는 윤리적 문제, 기술적 함정, 그리고 여러분이 머신 러닝 분야에서 배움과 경력을 쭉 이어나가기 위해 선택할 수 있는 것들을 요약하며, 세 강좌짜리 전문 과정을 마치고자 합니다.
Taught by
Eric Siegel