데이터 분석에 대한 기본적인 용어


시계열 알고리즘을 이해하기 위한 최소한의 수학, 통계 용어에 대하여 설명하도록 한다. 데이터의 종류, 필수적인 통계량, 데이터의 함정을 공부하도록 한다.

1. 시계열 데이터를 부르는 용어

흔히 일괄적으로 시계열이라고 총칭하는 시계열 데이터는 총 4가지로 분류되며 각각 횡단면 데이터(Cross Sectional Data), 시계열 데이터(Time Series Data), 시계열 횡단면 데이터(Pooled Cross Section Data), 패널(Panel)가 있다. 우리가 흔히 알고 있는 데이터는 시계열 횡단면 데이터인 경우가 많고 경우에 따라서는 패널 데이터가 있기도 하다.

Data_Type

  1. 횡단면 데이터(Cross Sectional Data) : ‘특정 시점 + 다수의 독립변수’를 뜻하는 데이터로 우리가 아는 데이터에서 여러개의 칼럼을 가진 한 개의 행을 의미한다. (위 그림에서의 횡단면 참고)
  2. 시계열 데이터(Time Series Data) : ‘다수 시점 + 특정독립변수’를 뜻하는 데이터로 시계열(다수 시점)에 대한 하나의 칼럼만을 가진 데이터를 의미한다. (위 그림에서의 시계열 참고)
  3. 시계열 횡단면 데이터(Pooled Cross Section) : ‘다수시점 + 다수의 독립변수’를 뜻하는 데이터로 우리가 흔히 아는 데이터이며 각 데이터가 서로 다른 시점에 채워져 있어 중간중간에 결측치가 있는 데이터를 의미한다. 보통 현실에서 활용되는 데이터이다. 여기에서 결측치가 채워진 데이터를 패널 데이터라고 한다.
  4. 패널 데이터(Panel) : ‘다수시점 + 다수의 독립변수 + 각 변수들은 동일한 시점의 데이터를 가짐’를 뜻하는 데이터로 데이터프레임에서 모든 데이터가 깔끔하게 채워져 있는 형태의 데이터이다. 보통 패널 데이터를 만들기 위해 시계열 횡단면 데이터를 보완하고 전처리한다고 생각하면 쉽다.

2. 기본적인 데이터 용어 정리

  • Raw Data(원데이터) : 수집되어 차례로 기록되어 있는 데이터로 처리되지 않고 순서화 되지 않은 데이터를 의미한다.(Ex, Log Data, Table Data)
  • Variable(변수) : 정보가 수집되는 특정한 개체나 대상(흔히 Feature라고 많이 불리며 데이터 분석에서는 칼럼 값을 의미한다.)
  • 질적변수 : 카테고리에 포함 시키도록 하는 변수(Ex, 색상, 성별, 종교 등), 명목변수, 순위변수가 있다.
    • 명목변수 : 특정한 카테고리에 속하지만 순위는 존재하지 않는 변수(Ex, 혈액형)
    • 순위변수 : 특정한 카테고리에 속하지만 순위를 가지는 변수(Ex, 성적(A,B,C,…))
  • 양적변수 : 수치적으로 나타낼 수 있는 변수(Ex, 키, 몸무게, 소득 등)
    • 이산변수 : 하나하나 셀 수 있는 변수(Ex, 정수)
    • 연속변수 : 각 값 사이에 무수히 많은 다른 값들이 존재하는 변수(Ex, 실수)
      • 등간변수 : 변수들 순서뿐만 아니라 순서 사이의 간격을 알 수 있는 변수
      • 비율변수 : 등간변수에 더하여 각 데이터 간의 비율계산이 가능한 변수
  • 독립변수(Independent Variable) : 다른 변수의 영향을 미치는 변수. 다른 변수의 영향을 받지 않는 변수
  • 종속변수(Dependent Variable) : 다른 변수의 영향을 미치지 못하고, 다른 변수의 영향을 받는 변수

3. 통계 기본 용어(Descriptive Statistics)

  1. 중심 통계량 - 데이터의 중심을 나타내는 통계량으로 결측치를 보완할 떄 주로 사용한다.
    • 평균(Average) : 표본데이터의 중심값(산술평균, 기하평균, 조화평균, 가중평균)
    • 중앙값(Median) : 표본데이터의 중앙에 위치한 값
    • 최빈값(Mode) : 표본데이터의 가장 빈번한 값
  2. 변동 통계량 - 데이터의 변동을 나타내는 수치
    • Range(범위) : Max - Min
    • Deviation(편차) : 관측값 - 평균값(편차의 합은 0)
    • Variance(분산) : 편차 제곱합 / 데이터의 수 (데이터의 퍼짐 정도를 의미한다.)
    • Standard Deviations(표준편차) : 분산의 루트 (데이터의 퍼짐 정도를 의미한다.)
  3. 형태 통계량 - 데이터의 분포형태와 왜곡을 나타내는 수치 형태 통계량을 사용하는 이유는 여러개의 데이터에서 평균과 표준편차가 동일하다고 해서 값이 전부 똑같은 데이터는 아니며 그 중에서도 편향되어있는 데이터가 존재할 수 있기 때문에 형태 통계량을 사용한다.
    • 왜도(Skewness) : 평균을 중심으로 좌우로 데이터가 편향되어 있는 정도
    • 첨도(Kurtosis) : 뾰족함 정도
    • 이상치(Outlier) : 오류로 판단하는 값이지만 기준이 불명황

Statistics_Skew_Kurt

부연 설명을 하자면, 첨도의 경우 뾰족함 정도를 의미하지만 그래프에 플랏팅하여 볼 때 양 끝점이 빠르게 수렴하는지 천천히 수렴하는지 정도가 중요하다. 이를 토대로 Outlier를 선정하는 기준이 바뀔 수 있으며 데이터의 해석, 비즈니스의 방향성이 달라질 수 있기 때문이다.(아마존의 경우 꼬리가 두터운 고객을 타겟으로 한 비즈니스를 진행한다고 한다.)

이상치 역시 데이터를 어떻게 해석하냐에 따라 기준점이 많이 달라기지 때문에 각 데이터 및 문제에 따라서 기준을 설정하고 분석을 진행하도록 한다.

  1. 관계 통계량 - 데이터 간의 관계를 나타내는 통계량
    • 상관관계(Correlation) : 각 변수들 사이의 선형적인 관계를 나타낸다. 상관관계를 구하는 식은 공분산 / sqrt(각 변수들의 분산의 곱)이다.
    • 인과관계(Causality) : 각 변수들 사이에서 어떤 변수가 원인이 되고 어떤 다른 변수가 결과가 되는 관계성을 나타낸다. 이해하기 쉽도록 설명하자면, 여름일 때 아이스크림이 많이 팔린다. 여름일 때 익사자 수가 늘어난다.라는 관계는 ‘A로 인해 B증가’로 인과관계를 의미하며, 아이스크림의 판매 수가 증가하니까 익사자 수도 증가하더라라는 관계는 인과관계는 아니지만 어떤 선형적인 관계가 있는 것으로 상관관계를 의미한다.
  2. 함정
    • skew되어있지 않다고 해서 오류가 없는 것은 아니다.
    • 그래프가 skew 되어있지 않지만 모집단 자체가 편향되어 있을 경우 조작된 함정일 수 있다.
    • 데이터가 많아 그래프를 그렸을 때 skew되어있지 않다는 것만으로 오류가 없다는 것을 뜻하는 것은 아니다.
    • Outler를 어떻게 설명하는지에 따라, 넣을 것인지 빼버릴 것인지에 따라 조작적인 함정에 빠질 수 있다.





© 2019.04. by theorydb

Powered by jjonhwa