머신러닝 관련 포스팅을 시작하기 전 관련 용어에 대한 정리가 필요할 것 같아서 정리를 시작한다. 음 용어는 머신러닝을 설명하면서 함께 설명해야 하는 게 맞지만 알고리즘 설명의 흐름을 깰 수가 있어 용어를 따로 정리한다.
1. 머신러닝(기계학습, machine learning)
인공지능의 한 분야로 경험을 통해 자동으로 문제를 개선하는 컴퓨터 알고리즘을 말한다. 말 그대로 특정 문제를 해결하기 위한 기계가 스스로 학습하는것을 말한다.
2. 모델(Model)
모델은 우리가 아는 컴퓨터 프로그램과 같다. 우리가 사용하는 계산기 프로그램은 오로지 숫자의 계산을 위해서만 사용된다. 모델도 마찬가지다. 예를 들어 사람을 구분하는 카메라를 만든다고 하면 여기에는 사람을 구분하는 프로그램이 들어가야 한다. "사람을 구분하는 프로그램 = 머신러닝 모델"이다.
3. 학습(Learning)
"머신러닝 = 기계(머신, Machine) + 학습(러닝, Learning)" 머신러닝은 우리나라말로 바꾸면 기계 학습이다. 말 그대로 기계장치가 학습을 한다는 말이다. 머신러닝에서 말하는 학습에는 지도 학습(Supervised Learning)과 비지도 학습(Unsupervised Learning)으로 나누어진다.
3.1 지도학습(Supervised Learning)
지도 학습이란 이미 특징이 정해져 있는 데이터(사람의 얼굴이 찍혀 있는 사진 등)를 사용해서 모델을 미리 학습시키는 것을 말한다. 즉, 먼저 정답을 알려주고 그 정답과 얼마나 일치하는지를 찾아낸다고 말할 수 있다. 학습된 데이터를 기반으로 입력되는 새로운 데이터에 대한 특징을 추론하는 것이다.
3.2 비지도학습(Unsupervised Learning)
비지도 학습이란 지도 학습과는 달리 미리 학습된 데이터가 없고, 입력된 데이터의 구성이 어떻게 되어있는지를 분석하는 것을 목표로 한다. 즉, 새로운 데이터에 대한 결과를 예측하는 방법이다.
4. 훈련
머신러닝 모델이 특징을 추론하고자 하는 대상과 유사한 데이터로 학습하는 과정을 훈련, Model 훈련 이라고 한다. 예를 들어 이미지에서 볼펜을 찾는 머신러닝 모델을 개발했다면, 볼펜이 있는 여러 장의 이미지를 머신러닝 모델이 미리 학습시키는 과정을 훈련이라 한다.
6. 평가
머신러닝에서 모델의 평가란 모델이 데이터의 특징을 추론하기 위해 얼마나 잘 훈련되어 있는가를 정량적인 숫자로 나타낸것이다.
9. 예측
훈련된 모델에 데이터를 입력했을때, 입력된 데이터가 모델이 추론하고자 하는 특징과 얼마나 일치하는지를 나타내는 수치다.
5. 타깃
모델이 찾고자 하는 목표다. 즉 모델이 맞춰야 하는 정답을 의미한다.
7. 세트
"셋트", "데이터 세트", "데이터셋" 보통 이렇게 부른다. 모델을 훈련시키고, 평가하기 위한 데이터들의 집합을 의미한다.
8. 입력
모델이 추론해야하는 데이터를 말한다.
용어에 대한 부분은 시간이 나는 대로 조금씩(?) 자세히 기록해보도록 하겠다. 잘못된 부분이 있다면 댓글 부탁드립니다!
- 끝 -