Overview머신러닝 프로젝트에서 데이터셋을 고르는 일은 단순히 "유명한 데이터"를 고르는 것이 아니다. 좋은 모델은 좋은 데이터로부터 시작되며, 그 데이터는 문제에 ‘적합’하고 그 구조를 ‘이해’해야만 제대로 사용할 수 있다. 이번 글에서는 머신러닝 실습이나 연구를 할 때 중요한 두 가지 개념인 적합성(suitability)과 기반 개념(underlying concept)에 대해 이야기해보겠다. 적합성(Suitability)이란?적합성이란 간단히 말해, "이 데이터셋이 내 문제를 해결하는 데 적합한가?"를 의미한다. 예시분류 문제를 풀고 싶은데, 타깃(Label)이 없는 데이터셋이라면 적합하지 않다.실제 애플리케이션은 시계열 데이터인데, 정적인 샘플만 있다면 부적절하다. 적합성 판단 기준..