본문 바로가기

CS/DataEngineering18

스파크 완벽 가이드 2024. 1. 21.
러닝 스파크 p.2 구글 파일 시스템(Google File System, GFS), 맵리듀스(MapReduce, MR), 빅테이블(BigTable) 등을 만들어 내게 되었다. GFS가 클러스터 안에서 상용 서버에 장애 내구성이 있는 분산 파일 시스템을 제공한다면, 빅테이블은 GFS를 기반으로 구조화된 대규모 데이터의 저장 수단을 제공했다. 맵리듀스는 함수형 프로그래밍 개념을 기반으로 하여 GFS와 빅테이블 위에서 대규모 데이터 분산 처리가 가능한 새로운 병렬 프로그래밍의 패러다임을 소개했다. 좀 더 본질적으로는 맵리듀스 애플리케이션은 데이터를 애플리케이션으로 가져오는 게 아니라 맵리듀스 시스템과 연계하여 데이터의 지역성과 랙의 근접성 등을 고려해 데이터가 존재하는 곳으로 연산코드(맵 함수와 리듀스 함수)를 보내게 된.. 2024. 1. 10.
Apache Airflow 기반의 데이터 파이프라인 p.xvii 파이프라인이 동적으로 바뀌거나 실시간 스트림 처리 환경에선 적합하지 않다고 하니 참고해 주세요. p.9 잘 알려진 몇 가지 워크플로 관리자와 이들의 주요 특성에 대한 개요 이름 시작회사 워크플로 정의 개발 언어 스케쥴 관리 백필 사용자 인터페이스 플랫폼 설치 수평 확장 Airflow Arirbnb 파이썬 파이썬 예 예 예 Anywhere 예 Argo Applatix YAML Go 3rd party 예 Kubernetes 예 Azkaban LinkedIn YAML Java 예 아니오 예 Anywhere Conductor Netflix JSON Java 아니오 예 Anywhere 예 Luigi Spotify 파이썬 파이썬 아니오 예 예 Anywhere 예 Make Custom DSL C 아니오 .. 2024. 1. 9.
데이터 품질의 비밀 p.24~25 '데이터 다운타임 - data downtime'은 데이터가 수집되지 않아 누락되거나 부정확하게 측정되는 등의 데이터 손실로 인해 소프트웨어 또는 서비스의 가동이 중지되는 상황을 의미한다. 이는 혁신적인 테크 기업이나 데이터가 중심인 기업에서도 발생할 수 있는 이슈로 데이터를 다루는 기업들이 직면할 수 있는 큰 문제 중 하나다. 대시보드에 잘못된 데이터를 표시하여 잘못된 의사결정을 내릴 수 있기 때문이다. 다시 말해 데이터 다운타임은 신뢰할 수 없는 데이터가 너무 많을 때 일어난다. 데이터 다운타임은 기업에 대한 고객의 신뢰도에 부정적인 영향을 끼칠 뿐 아니라 기업이 연간 수백만 달러 이상의 비용을 지출하는 데 직접적인 영향을 미치기도 한다. 기업용 데이터베이스 업체인 줌인포에 따르면, 20.. 2023. 10. 28.
파이썬 코드로 배우는 Git GitHub p.76 -a는 --all 옵션과 동일한 기능을 하며, 수정하거나 삭제된 파일에 대한 스테이징을 자동으로 진행하는 옵션입니다. 단 untracked 파일에는 적용이 되지 않으므로 주의해야 합니다. p.79 git status -s의 표시 문자 별 파일의 상태 ?? : Untracked M : Modified MM : 파일이 스테이징된 후, 다시 Modified A : 경로가 스테이징된 후, 경로 내에 Untracked 파일 발생 p.81~ -p 또는 --patch 옵션은 각 로그의 상세 정보를 출력합니다. git log -p 여기에 -1 옵션을 추가해서 가장 최근 커밋만 상세 정보를 출력해 봅니다. git log -p -1 --pretty=oneline 옵션을 사용하면 커밋이 한 줄로 정리되어 출력됩니다.. 2023. 10. 22.
프로그래머스 데이터 엔지니어링 컨퍼런스 | 노을 데이터 엔지니어의 데이터 기반 의사 결정 가능한 환경을 처음부터 만들 때 일어나는 일 https://www.youtube.com/watch?v=WJJ9OB4X7os&ab_channel=Programmers 2022. 12. 16.