https://www.youtube.com/watch?v=NYUjHSt654s&ab_channel=Programmers
공공데이터는 개성이 강함
= 도메인지식(사전지식)이 많이 필요
1. 다른 자료를 참고해야 데이터를 온전히 알 수 있음
2. 데이터 제공기관에서 암묵적으로 사용하는 규칙대로 데이터를 제공
3. API간의 의존성(Dependency)이 있다.
4 동일한 값을 의미하는 변수의 이름이 제각기 다름
공공데이터 적재하기 Lessons Learned
1. 사전조사할 때는 보고 또 보기
a. 데이터의 특성은 넘치도록 공부해도 부족
b. 각 데이터의 특성에 맞는 코드를 구현하기 위해 기술적인 지식 습득이 필요
2. 외부요인에 대해 적극적 대응하기
a. 데이터엔지니어가 핸들링할 수 없는 범위의 외부요인이라도 대응할 수 있어야 함
b. 사례
i. 불안정한 API -> 1시간에 한 번씩 적재를 시도하도록 DAG의 retry를 24로 변경
ii. 공공데이터가 가진 각각의 개성 -> 공공데이터 클래스(class)를 생성하여 여러 속성들을 한 곳에서 관리할 수 있도록 구현
iii. 공공데이터 제공기관과의 커뮤니케이션 -> 질문 준비 + 한 번 문의한 내용은 따로 정리 + 여유로운 마음가짐
'CS > DataEngineering' 카테고리의 다른 글
프로그래머스 데이터 엔지니어링 컨퍼런스 | 노을 데이터 엔지니어의 데이터 기반 의사 결정 가능한 환경을 처음부터 만들 때 일어나는 일 (0) | 2022.12.16 |
---|---|
Data Lake vs Data Warehouse (0) | 2022.12.10 |
BigQuery (0) | 2022.09.20 |
SQL On Hadoop 분석 도구인 Hive와 Impala는 어떤 차이가 있을까? (0) | 2022.08.21 |
DATA ENGINEERING EXPLAINED (0) | 2022.08.14 |
댓글