이 포스팅은 Google의 실용적인 머신러닝 속성 입문 과정 머신러닝 단기집중과정에 dependency해 작성되는 글입니다.
용어 이해에 앞서...
머신러닝에서 자주 사용되는 용어들에 대해서 살펴보자.
대부분의 용어들은 번역과정에서 조금 어색하게 바뀌어 버리는 경우가 있기에 가급적이면 영어 용어를 같이 학습하는게 좋을 것 같다.
머신러닝의 가장 기초가 되는 Supervised Learning에 대해 살펴보자. 우리는 Supervised Learning과 Unsupervised Learning 의 차이에 대해 정확히 이해 할 필요가 있어 보인다.
Supervised Learning (지도 학습)
데이터에 대해 명시적인 정답(Label)이 주어진 상태에서 컴퓨터를 학습 시키는 방법이다. 형태 (Data, Label)
뭔가 어렵다.... 여기서 말하는 Label에 대해 알아보자.
Label(레이블)
라벨은 예측하는 항목입니다(단순 선형 회귀의 y
변수)
(Google 머신러닝 단기집중과정에 명시된 설명)
Label은 이름표로 이해를 하는게 좋다.
상품번호도 좋다. 바코드도 좋다. 번호가 아니라 해당 상품의 종류가 되더라도 Label이 될 수 있다.
해당 데이터가 어떤 것인지 명시된 것이 Label이다.
그런데 왜 y 변수가 Label이라 하는 것인가? 이후에 나오는 선형 모델에서 우리는 x 변수를 통해 y를 예측하기 때문이다.
Features(특성)
특성은 입력 변수입니다(단순 선형 회귀의 x
변수)
(Google 머신러닝 단기집중과정에 명시된 설명)
Features는 데이터이다. 우리가 확보할 수 있는 데이터로 이해하시면 쉽다.
예를 들어 스팸메일을 분류한다고 생각해보자. 스팸메일을 자주 받다보면.... 경험에 의해 데이터가 누적이 된다.(패턴이 생긴다)
간단하게 이해하기 쉽게 특정 단어가 들어갔을때 스팸메일로 분류를 하려고 한다고 가정하자.
해당 데이터를 통해 우리는 스팸메일여부를 확인하고 싶다하면 (X, Y) 이것은 X에는 메일내용이 들어갈 것이고, Y는 스팸메일 여부가 되는 것이다. 이때 메일내용에 특정단어가 들어갔는지 여부에 따라 Y의 값이 정해지는데.... Features는 X를 가르킨다.
개념을 이해하고.... 구분을 할 줄 알면 된다. Features는 무엇인지.... 그리고 Label은 무엇인지.... 두개를 헷갈리지 않고 구분할 줄 안다면 성공하는 것이다. 이 모든 것은 우리가 학습하면서 의사소통을 원할하게 할 수 있는 기초적인 용어학습이 주 목적이다.
너무 깊게 들어가지 말기를....(마치 산수를 하기 위해 숫자와 등호를 배워야 하는 것처럼....)
Model(모델)
모델은 특성과 라벨의 관계를 정의합니다.
(Google 머신러닝 단기집중과정에 명시된 설명)
Model은 조금 추상적인 개념이다. 쉽게 와닿지 않을 수 있지만.... 예를 보면서 이해하는게 가장 좋다.
키라는 특성이 있고 키에 따른 몸무게 값이 있다고 가정하자. 우리는 키라는 특성을 이용해 몸무게 값을 예측하려고 한다.
이때 기존에 보유하고 있던 키와 몸무게 값을 학습 시킨다고 한다면.... 이것을 학습 모델 이라고 한다.
'Machine Learning' 카테고리의 다른 글
머신러닝 단기집중과정 - 텐서플로우 첫걸음 (0) | 2018.07.18 |
---|---|
머신러닝 단기집중과정 - 손실 줄이기 (0) | 2018.07.18 |
머신러닝 단기집중과정 - 선형 회귀 (0) | 2018.07.17 |
머신러닝에 관심을 가지기 시작하면서..... (0) | 2018.07.17 |