데이터 전처리의 중요성 | 머신러닝 EDA? 엑셀부터 차근차근

shimshim 2024. 7. 9. 22:02

 

 

데이터 분석가 초심자로서 요즘 가장 중요하다고 느끼는 부분이 있다. 바로 데이터 전처리이다. 데이터 전처리가 제대로 되지 않은 상태에서 데이터 집계를 하게 되면 처음엔 아무리 사소했을 지라도 결국엔 '스노우볼(snow ball)효과' 처럼 그 끝엔 꽤나 참담한? 결과를 얻을 수 있다. 내가 그랬다.

 

● 엑셀을 소홀히 하지 말자.. '절대'

이론으로 처음 배운 '데이터 전처리'라고 한다면 EDA가 있는데 그 당시에는 머신러닝, 딥러닝 등 고차원 수준에서만 사용하는 행위로 여겼다.

엑셀, 구글시트 등 보다 보편적인 데이터 업무 환경에서부터 전처리 과정을 생활화 해 두는 게 바람직하고, 결과적으로도 훨씬 더 나은 작업물을 낼 수 있다.

나같이 데이터를 많이 다뤄보지 않고 국비 교육을 통해 데이터를 다루기 시작한 사람들은 SQL, 파이썬 등 프로그래밍 언어로만 분석을 한다고 생각하기 쉽다. 그러나 그 전에 엑셀, 구글시트 내의 데이터 먼저 꼼꼼히 보려는 마인드가 더욱 중요하다고 생각한다.

가장 보기 쉬운 툴이 엑셀이기 때문에 엑셀도 친숙하지 않다면 그 이상의 데이터 형식을 가공할 생각은 더욱 하기 어려울 것이다.

 

● 전처리? 거창할 필요 없이 우선 마우스 하나로

전처리를 어렵게 생각할 것 없이 그냥 컬럼에 필터를 설정하고 각각의 컬럼마다 어떤 데이터들이 들어있는지 보는 것 부터 시작한다.

웹서핑 하듯 '아 이 컬럼엔 이런 데이터들이 들어있구나, 저 컬럼엔 저런 데이터들이 들어있구나' 마우스로 슥슥 내려 나가다 보면 눈에 띄는 불규칙함이 있을 것이다. 그런 경우 불규칙함의 패턴을 찾아내고 어떻게 발라낼 것인지, 발라내지 못한다면 어떤 참사?가 일어날지 상상해 보는 습관이 중요하다고 생각한다. 

그렇게 탐색하다 보면 전처리가 필요한 컬럼 혹은 특이점이 보일 것이고, 해당 사항들을 따로 메모해두고 항목별로 없앨 수 있는 규칙을 함께 써내려 가는 것이 좋다. 단숨에 전처리까지 하기에는 떠올리기 어려울 수 있다.

이 과정에서 쉽게는 단순 필터링, 피봇팅, 좀 더 나아가 vlookup 함수 등의 기능 정도만 사용할 수 있어도 꽤 많은 상황에 전처리 작업을 끝낼 수 있게 된다.

 

 

chat gpt로 수만가지 코드를 짤 수 있는 요즘, 엑셀 데이터부터 내가 보고자 하는 형식으로 자유롭게 셋팅할 수 있다면 다른 어떤 분석 언어 혹은 툴이 생겨도 그를 위한 초석(硝石)은 충분히 다질 수 있다고 생각한다.