본문 바로가기
CS/DataEngineering

프로그래머스 데이터 엔지니어링 컨퍼런스 | 뱅크샐러드 데이터 엔지니어의 눈물! 호락호락하지 않은 공공데이터와의 전쟁

by Diligejy 2022. 11. 29.

https://www.youtube.com/watch?v=NYUjHSt654s&ab_channel=Programmers 

공공데이터는 개성이 강함

= 도메인지식(사전지식)이 많이 필요

 

1. 다른 자료를 참고해야 데이터를 온전히 알 수 있음

2. 데이터 제공기관에서 암묵적으로 사용하는 규칙대로 데이터를 제공

3. API간의 의존성(Dependency)이 있다.

4 동일한 값을 의미하는 변수의 이름이 제각기 다름

 

공공데이터 적재하기 Lessons Learned

 

1. 사전조사할 때는 보고 또 보기

    a. 데이터의 특성은 넘치도록 공부해도 부족

    b. 각 데이터의 특성에 맞는 코드를 구현하기 위해 기술적인 지식 습득이 필요

 

2. 외부요인에 대해 적극적 대응하기

    a. 데이터엔지니어가 핸들링할 수 없는 범위의 외부요인이라도 대응할 수 있어야 함

    b. 사례

        i. 불안정한 API -> 1시간에 한 번씩 적재를 시도하도록 DAG의 retry를 24로 변경

        ii. 공공데이터가 가진 각각의 개성 -> 공공데이터 클래스(class)를 생성하여 여러 속성들을 한 곳에서 관리할 수 있도록 구현

        iii. 공공데이터 제공기관과의 커뮤니케이션 -> 질문 준비 + 한 번 문의한 내용은 따로 정리 + 여유로운 마음가짐

댓글