1. Comparision of Data Lake & Data Warehouse
Data Lake | Data Warehouse | |
Stores all the raw data | Specific data for specific use | |
Can be petabytes (1 million GBs) | Relative small | |
Stores all data structures | Stores mainly structured data | |
Cost effective | More costly to update | |
Difficult to analyze | Optimized for data analysis | |
Requires an up-to-date data catalog | ||
Used by data scientists | Also used by data analysts and business analysts | |
Big data, real time analytics | Ad-hoc, read-only queries |
2. Data Catalog for data lakes
- What is the source of this data?
- Where is this data used?
- Who is the owner of the data?
- How often is this data updated?
- Good practice in terms of data governance
- Ensures reproducibility
'CS > DataEngineering' 카테고리의 다른 글
파이썬 코드로 배우는 Git GitHub (0) | 2023.10.22 |
---|---|
프로그래머스 데이터 엔지니어링 컨퍼런스 | 노을 데이터 엔지니어의 데이터 기반 의사 결정 가능한 환경을 처음부터 만들 때 일어나는 일 (0) | 2022.12.16 |
프로그래머스 데이터 엔지니어링 컨퍼런스 | 뱅크샐러드 데이터 엔지니어의 눈물! 호락호락하지 않은 공공데이터와의 전쟁 (0) | 2022.11.29 |
BigQuery (0) | 2022.09.20 |
SQL On Hadoop 분석 도구인 Hive와 Impala는 어떤 차이가 있을까? (0) | 2022.08.21 |
댓글