본문 바로가기

CS/DataEngineering18

Build An Airflow Data Pipeline To Download Podcasts [Beginner Data Engineer Tutorial] https://www.youtube.com/watch?v=s-r2gEr7YW4&ab_channel=Dataquest 1. 작업 전 생각하기 팁 : Pipeline 단계를 미리 설계하고 작업하는 게 좋을거 같다. 예를 들어 아래 사진처럼 나올 경우 첫 번째 단계는 create_table_sqlite 두 번째 단계는 get_episodes 이런식으로 2. 설치 공식문서에서 알려준대로 설치하면 docker-compose 사용하지 않고도 매우 쉽고 간단하게 설치가 가능하다 https://airflow.apache.org/docs/apache-airflow/stable/start/local.html Running Airflow locally — Airflow Documentation airflow.apache.o.. 2022. 6. 10.
Kubernetes Not Cloud, For on-premise Kubernetes 1. minikube 2. K3s 3. MicroK8s The Concept of Kubernetes 1. 선언형 인터페이스 2. Desired State 3. Master Node & Worker Node YAML 1. 데이터 직렬화(서비스간에 Data를 전송시 쓰이는 포맷으로 변환하는 작업)에 쓰이는 포맷/양식 중 하나 2. 사람이 읽기 쉽도록 디자인 되어있음. Minikube 1. https://minikube.sigs.k8s.io/docs/start/ minikube start minikube is local Kubernetes minikube.sigs.k8s.io 2. https://kubernetes.io/ko/docs/task.. 2022. 6. 2.
docker Docker 1. docker run -it -> interaciv한 terminal 로 실행하라는 의미. 2. -d -> 컨테이너 접속 종료해도 백그라운드에서 계속 실행되도록 하는 의미. 3. -f -> 계속 watch하며 출력 Dockerfile 1. FROM - Dockerfile이 base image로 어떠한 이미지를 사용할 것인지를 명시하는 명령어 https://bluese05.tistory.com/77 Dockerfile Entrypoint 와 CMD의 올바른 사용 방법 ENTRYPOINT 와 CMD 는 무엇인가 ENTRYPOINT 와 CMD는 해당 컨테이너가 수행하게 될 실행 명령을 정의하는 선언문이다. 즉, 컨테이너가 무슨 일을 하는지 결정하는 최종 단계를 정의하는 명령이라고 생 blues.. 2022. 6. 1.
Running Airflow 2.0 with Docker in 5 mins https://www.youtube.com/watch?v=aTaytcxy2Ck&ab_channel=DatawithMarc 1. curl -LfO "https://airflow.apache.org/docs/apache-airflow/stable/docker-compose.yaml" 2. mkdir ./dags ./plugins ./logs 3. echo -e "AIRFLOW_UID=$(id -u)\nAIRFLOW_GID=0" > .env 4. docker-compose up airflow-init 5. docker-compose up 6. localhost:8080 들어가보기 Bonus1 (Interact with airflow docker) - docker exec containerID + airflow.. 2022. 5. 26.
Airflow using Docker 삽질기록 Unable to find image 'apache/airflow:2.0.0-python3.8' locally 2022. 5. 24.
Airflow 처음 실행해봄 2022. 5. 23.