본문 바로가기

코딩공부

[SQL] 데이터 분석을 위한 SQL 레시피 : 1~2장

 

 

 


 

 

업무용 데이터

 

1. 트랜잭션 데이터

사용자의 행동을 기록한 데이터. (구매 데이터, 리뷰 데이터, 게임 플레이 데이터)

2. 마스터 데이터

상품, 이용자의 마스터 데이터 (이름, 상품명, 카테고리)

 

특징 

1. 데이터 정밀도가 높다 ; 트랜잭션 & 롤백 기능이 있어서 데이터 처리 중 문제 발생 시 제거 가능. (데이터 정합성 보증)

2. 갱신형 데이터 

3. 테이블 수가 많음 : 여러 테이블을 결합해야 데이터 전체 내용 파악 가능

 

데이터 축적방법

1. 모든 데이터 변경하기 : 항상 모든 데이터를 업데이트하여 최신 상태가 저장되나, 과거 정보 사라짐

2. 모든 레코드의 스냅샷을 날짜별로 저장하기 

3. 어제와의 변경사항만 누적하기 

 


 

 

3. 로그데이터

서비스의 처리에 영향이 거의 없는 사용자 엔드포인트, IP 주소, URL, Cookie 등 정보 저장

 

특징

1. 추출 방법에 따라 데이터 정밀도 달라짐

2. 기록은 누적될 뿐 과거 데이터가 변경되지 않음

 

데이터 축적방법

1. 태그, SDK를 통해 사용자 장치에 데이터 전송하고 출력하기 (비컨형태)

  • GA처럼 HTML에 특정 태그를 넣고 데이터 전송하는 형식,
  • 자바스크립트를 통해서도 전송 가능.
  • 크롤러 영향 적게 받음.

 

2. 서버에서 데이터를 추출하고 출력 (서버형태)

  • 클라이언트 쪽에서 별도의 처리를 하지 않고 서버에서 로그를 출력하는 형태.
  • 크롤러 접근을 막기 어려움.
  • 의도하지 않은 로그 제거 과정 필요.

 

 

 

(+) 데이터는 추출 시점에 따라 다르니, '추출 시점의 정보를 기반으로 작성된 리포트'임을 명시하는 것이 좋음