데이터 분석? Kaggle?


현실적인 관점에서의 데이터 분석이 무엇인지 설명한다. 현실과 이론, 무엇이 다른지 알아보도록 한다.

1. 기본적인 데이터 분석의 흐름

  1. 데이터 수집 : 소스별 데이터 추출 및 저장(Loading)
  2. 데이터 전처리 : 기초통계(Descriptive Statistics) + 붙이기(Curation) + 없애기(Remove) + 채우기(Fill) + 필터(Filter) + 변경(Transform)
  3. 데이터 정리 : 데이터 한 곳에 담기(Data WareHouse) + 바꾸기 및 정리(Data Mart) + 분리(Data Split)
  4. 데이터 분석 : 기초통계(Descriptive Statistics) + 모델링(Algorithm) + 검증(Evaluation) + 에러분석(Error Analysis)
  5. 결과정리 : 시각화(Visualization / DashBoard) + 의사결정(Decision Support) + 지식화(Knowledge) + 공유(Reporting)

보통 다음과 같은 흐름으로 데이터 분석을 진행한다. 대부분 공감할 수 있는 내용일 것이며 다음의 내용을 토대로 위의 내용에 대한 이상적인 흐름과 현실적인 흐름이 어떻게 다른지 확인해보도록 한다.

1. 흔히 아는 데이터 분석의 흐름

이상적인 관점에서 :

AnalysisCycle2

우리가 흔히 아는 데이터 분석은 위의 그림과 같이 정형화 되어있는 과정을 지나고 있다. 즉, “1. 내,외부 데이터를 저장소에 저장”, “2.저장된 데이터를 정리”, “3.데이터 분석”, “4.이를 시각화”, “5.얻은 인사이트를 바탕으로 사업화”를 진행한다. 하지만 이것이 현실에서 정말 원할한 흐름대로 진행이 될까? 다음은 현실적인 관점에서의 데이터 분석의 흐름을 시각화한 자료이다.

2. 현실적인 데이터 분석의 흐름

현실적인 관점에서 :

Analysis_Real1

다소 복잡해 보이는 그림이지만 현실 속에서 다루는 데이터분석에 대한 직관적인 그림이라고 할 수 있다. 도통 어디에서 데이터를 얻고, 수정하는지 알 수 없는게 현실이며 전략은 무엇인지 문제는 무엇인지도 제대로 정의되지 않는 경우가 많다고 한다.

다음은 위의 그림을 어느정도 정리하여 그린 그림이다. Analysis_Real2

보통 1~8번 과정을 모두 마쳐야 어떤 한 프로젝트가 끝나는데 위의 그림에서 볼 수 있듯이 중간 중간에 앞으로 되돌아 과정들이 끊임없으며 문제 정의, 데이터의 문제, 모델링 한계점 등등에서 막히는 부분이 수도 없이 많아 제대로 끝나는 경우가 적다고 한다.

본 강의를 듣고 있는 수강생본인 역시 짧은 기간 실습생으로서 경험해본 것 밖에 없지만 격하게 공감할 수 있는 내용이었다.

3. 데이터 분석 현실 요약

데이터 분석의 경우 우리가 흔히 아는 Kaggle, Dacon과는 많이 다르다. 데이터 분석의 경우 문제정의 부터, 필요데이터 파싱 혹은 정리, 전처리, 모델링, 사업화까지를 아우르는 반면의 Kaggle, Dacon과 같은 경진대회에서는 대부분 문제가 정의 되어있고 데이터가 다소 정리되어있으며 정확도 혹은 원하는 평가지표의 점수가 가장 높은 것을 목표로하기에 보통 전처리부터 모델링까지로 볼 수 있다.

간략하게 표현하면 다음과 같이 데이터 분석을 표현할 수 있다. Analysis_Process 1단계 : 문제정의 - 어떤 문제를 풀고 싶은지
2단계 : 생각단계 - 어떻게 문제를 해결할 것인지(방법론적인 측면)
3단계 : 평가단계 - 이게 정말로 문제를 해결할 수 있는지
간략하게 위의 3단계로 정의할 수 있을 것이다.

하지만 각 단계 역시 많은 시간과 노력이 필요하며 어떠한 단계도 쉬운 단계는 없다.
보통 1~3단계가 현실적인 데이터 분석의 진행과정이며 Kaggle 및 Dacon의 경우 2단계만 진행하다고 보면 이해하기 쉬울 것이다.

마지막으로 간략히 본인의 생각을 더하자면, 흔히 대학생(특히 수강생본인 및 주변인)의 경우 2단계에 대한 공부를 위주로 진행하며 1,3단계에 대한 경험을 할 수 있는 기회는 많지 않은 것 같다. 그리고 2단계(주어진 문제를 해결하는 모델링(대표적으로 Kaggle))를 해결하는 것 역시 수준높은 모델링 실력, 데이터 전처리 실력을 필요로 하기에 모든 과정이 순탄하지많은 않은 것 같다.




© 2019.04. by theorydb

Powered by jjonhwa