DataLake, DW의 LA, L0, L1, L2 용어정리
DataLake, DW의 LA, L0, L1, L2
흔히 Datalake나 Lakehouse 형태의 영역을 구축 시,
Data형태별 활용의 편의와 효율적인 Data 가공 Logic 반영을 위해
여러단계로 나눠서 Data 가공 단계를 거치는데,
간혹 쉽게 LA, L0, L1, L2 와 같은 용어로 분류를 하는 경우가 있다.
(Landing Area, Layer 0~2 ... 혹은 L0부터 출발하기도하고 정의하는 사람에 따라 제각각의 의미를 가지고 사용)
물론 이렇게 안나누고, 쉽게 수집/통합/마트 로 나누거나, Source/Silver/Gold로
나누는 등 여러 표현이 있을 수 있겠으나.. 외국계 컨설턴트들을 중심으로 이런 용어개념이 많이 넘어와서
쓰여지는 것 같다.
뭔가 다들 약속한 듯이, Layer별로 완벽히 동일한 정의를 사용하지 않는 경우가 많지만,
대게 유사한 의미의 단계로 용어를 사용하고 있기 떄문에,
업계에서 일하면서 가장 많이 활용되는 것 같은, 대략적인 기준이 되는 정의를 정리해본다.
LA (Landing Area)
Transactional DB, Sensor/Log Data등 File Base Data를 Source의 형태 그대로 1차저장하는 단계
L0 (Layer 0 - Staging)
Source Data의 오류등을 수정하고 Cleansing적용한 Data
형식은 Raw Data와 동일하나, Log성, 비정형에 가까운 Data의 경우 Table형태의 Data로 1차 가공하는 영역임
-------경우에 따라 LA , L0를 통합 해서 L0으로 운영하기도함-------
L1 (Layer 1 - Consolidation / Integration)
통합영역 Data, DW에서 활용할 형태의 업무 '주제영역'에 맞게, Data들이 통합/가공된 형태.
다만 분석이나 BI(Business Intelligence) 도구에 용이하게 Dimension/ Fact형태로 가공된 Data는 아님
이 Layer부터 SCD(Slowly Change Dimension) 같은걸 적용해서 변경이력 관리를 하기도함
L2 (Layer 2 - Data Mart, Gole Data)
분석용 Data Mart Data, Dimension, Fact형태의 Model 구조를 가진 Data (Star/Snoflake Schema modeling)