반응형
개요
데이터 레이크(Data Lake):
- 필요할 때까지 방대한 양의 원시 데이터를 기본 형식으로 보관하는 스토리지 저장소입니다.
- 데이터는 구조화, 반구조화 또는 비구조화될 수 있습니다.
- 다양한 데이터 유형을 대량으로 처리하도록 설계되었습니다.
데이터 웨어하우스(Data Warehouse):
- 여러 소스의 구조화된 데이터를 저장하는 중앙 집중식 저장소입니다.
- 데이터는 쿼리 및 분석을 위해 정리, 변환 및 구성됩니다.
- 일반적으로 비즈니스 인텔리전스 및 보고에 사용됩니다.
데이터 마트(Data Mart):
- 특정 비즈니스 라인이나 팀에 초점을 맞춘 데이터 웨어하우스의 하위 집합입니다.
- 특정 사용자 그룹의 요구에 맞춰 요약되거나 매우 구체적인 데이터가 포함되어 있습니다.
- 특정 목적을 위해 관련 데이터에 빠르게 액세스할 수 있도록 설계되었습니다.
자세한 비교
기능 | 데이터 레이크 | 데이터 웨어하우스 | 데이터마트 |
데이터 유형 | 구조화, 반구조화, 비구조화 | 구조화 | 구조화 |
스토리지 | 기본 형식의 원시 데이터 | 가공된 데이터, 분석에 최적화됨 | 처리되고 집계된 데이터 |
스키마 | 읽기 시 스키마(쿼리 시 정의됨) | 쓰기 시 스키마(데이터 로드 전에 정의됨) | 기록 중 스키마(웨어하우스와 정렬) |
목적 | 대규모 데이터 저장 및 처리 | 비즈니스 인텔리전스, 보고 | 부서별 분석 |
사용자 | 데이터 과학자, 분석가, 엔지니어 | 분석가, 비즈니스 사용자 | 부서별 분석가, 특정 사용자 그룹 |
성능 | 상당한 처리 시간이 필요할 수 있음 | 빠른 쿼리 성능을 위해 최적화 | 특정 쿼리에 대한 빠른 쿼리 성능 |
데이터 처리 | ETL 또는 ELT | ETL(추출, 변환, 로드) | ETL(종종 맞춤형 ETL 프로세스) |
비용 | 보관 비용 절감, 처리 비용 증가 | 더 높은 저장 비용, 최적화된 처리 | 특정 요구에 초점을 맞춘 저렴한 비용 |
확장성 | 확장성이 뛰어나고 페타바이트 규모의 데이터를 처리할 수 있음 | 확장 가능하지만 더 복잡함 | 제한된 확장성, 창고에 따라 다름 |
유연성 | 매우 유연하며 다양한 데이터 형식 지원 | 유연성이 낮고 구조화된 데이터 지원 | 유연성이 낮고 특정 요구에 맞게 조정됨 |
사용 사례 예시 | 빅데이터 분석, 데이터 발견, ML | 과거 데이터 분석, 비즈니스 보고 | 매출분석, 마케팅 성과 |
통합 | 다양한 데이터 소스와 통합 가능 | 트랜잭션 시스템과 통합 | 데이터 웨어하우스, 외부 데이터와 통합 |
< Modern Data Architecture >
출처 : https://www.snowflake.com/blog/beyond-modern-data-architecture/
고려할 핵심 사항
- 데이터 레이크:
- 데이터 웨어하우스:
- 데이터 마트:
올바른 솔루션 선택
- 광범위한 데이터 분석의 경우: 데이터 레이크는 대량의 다양한 데이터를 저장하고 다양한 데이터 처리 기술을 지원하는 기능으로 인해 최선의 옵션이 될 수 있습니다.
- 구조화된 보고 및 비즈니스 인텔리전스: 데이터 웨어하우스는 고성능 쿼리 및 보고서에 필요한 구조화되고 안정적인 환경을 제공합니다.
- 부서별 또는 특수 요구 사항: 데이터 마트는 전체 데이터 웨어하우스를 탐색하는 복잡함 없이 특정 사업부 또는 팀의 관련 데이터에 빠르고 쉽게 액세스할 수 있는 맞춤형 접근 방식을 제공합니다.
각 솔루션의 장점과 한계를 이해함으로써 조직은 특정 요구 사항을 충족하도록 데이터 인프라를 더 효과적으로 설계하여 기업 전체에서 데이터에 대한 액세스, 사용 및 가치를 보장할 수 있습니다.
반응형