본문 바로가기

CS155

러닝 스파크 p.2 구글 파일 시스템(Google File System, GFS), 맵리듀스(MapReduce, MR), 빅테이블(BigTable) 등을 만들어 내게 되었다. GFS가 클러스터 안에서 상용 서버에 장애 내구성이 있는 분산 파일 시스템을 제공한다면, 빅테이블은 GFS를 기반으로 구조화된 대규모 데이터의 저장 수단을 제공했다. 맵리듀스는 함수형 프로그래밍 개념을 기반으로 하여 GFS와 빅테이블 위에서 대규모 데이터 분산 처리가 가능한 새로운 병렬 프로그래밍의 패러다임을 소개했다. 좀 더 본질적으로는 맵리듀스 애플리케이션은 데이터를 애플리케이션으로 가져오는 게 아니라 맵리듀스 시스템과 연계하여 데이터의 지역성과 랙의 근접성 등을 고려해 데이터가 존재하는 곳으로 연산코드(맵 함수와 리듀스 함수)를 보내게 된.. 2024. 1. 10.
Apache Airflow 기반의 데이터 파이프라인 p.xvii 파이프라인이 동적으로 바뀌거나 실시간 스트림 처리 환경에선 적합하지 않다고 하니 참고해 주세요. p.9 잘 알려진 몇 가지 워크플로 관리자와 이들의 주요 특성에 대한 개요 이름 시작회사 워크플로 정의 개발 언어 스케쥴 관리 백필 사용자 인터페이스 플랫폼 설치 수평 확장 Airflow Arirbnb 파이썬 파이썬 예 예 예 Anywhere 예 Argo Applatix YAML Go 3rd party 예 Kubernetes 예 Azkaban LinkedIn YAML Java 예 아니오 예 Anywhere Conductor Netflix JSON Java 아니오 예 Anywhere 예 Luigi Spotify 파이썬 파이썬 아니오 예 예 Anywhere 예 Make Custom DSL C 아니오 .. 2024. 1. 9.
빨리빨리 - 된다 맥북 & 아이맥 맥북을 처음 사용하는 사람이든 아니면 사용을 해본 사람이든 아마 이 책을 보면 최소한 1개 이상의 팁은 얻을 거라고 생각한다. 업무를 하면서 맥북을 사용하곤 했지만, 여기 책을 보다보니 그동안 활용하지 못한 기능 몇 개를 발견하고 덕분에 조금 더 내가 원하는 대로 환경설정을 할 수 있었다. 이 책은 그 용도다. 마치 드라이버와 같은 공구 같은 책이다. 그러니 너무 많은 걸 기대하지 말길 바란다. 다만, 맥북을 처음 써보는 사람에겐 이 책이 많이 도움이 될 거라고 생각한다. 윈도우에서 맥북으로 전환할 때 가장 먼저 헷갈리는 게 한/영 전환인데 그것도 그렇고, 기본적인 환경 셋팅을 알려주기 때문이다. 맥북이라고 해서 무조건 어렵진 않다. 다만 낯설 뿐이다. 이왕이면 업무때문에 어쩔 수 없이 윈도우에서 맥으로.. 2024. 1. 6.
기술보다는 문제에 - 머신러닝 엔지니어링 인 액션 머신러닝 붐이 일었을 때와 달리 점점 더 시간이 가면 갈수록 머신러닝 기법에 대한 강조보다는 어떻게 프로젝트를 구성하는지, 실무에서 어떤 점들을 고려해야 하는지, 재무적인 관점을 어떻게 어필해야 하는지와 같이 조금 더 실무와 가까운 내용의 책들이 나오고 있다. 이 책도 그런 책 중 하나다. 챕터 4까지 코드 한 줄 안나온다. 계속해서 문제 정의와 스코프 설정에 대한 내용을 강조한다. 저자는 처음부터 현자였던 걸까? 그렇게 포장할 수도 있겠지만, 저자는 포장하지 않고 자신의 아픈 상처를 드러낸다. 66쪽을 보면 이런 구절이 나온다. 흥미로운 최신 알고리듬을 사용하고 싶은 열정이 프로젝트에서 형편없이 발휘된 사례를 여러 번 목격했습니다. 대표적인 예는 이미지 해상도 업스케일링을 위한 GAN 프로젝트로, 12.. 2023. 12. 5.
데이터 드리븐 리포트 밑줄긋기 p.27 파는 것이 인간이다(To sell is Human) - 다니엘 핑크 p.36 엄청난 주장에는 엄청난 근거가 필요하다 - 칼 세이건 p.48 "통계로 거짓말하기는 쉬워도, 통계 없이 진실을 말하기는 어렵다." - 안드레예스 둥켈스 p.54~55 사내 데이터 분석 관련 보고서를 작성하는 동료 혹은 상사로부터 가끔씩 이런 메시지를 받을 때가 있다. "예전에 썼던 분석 보고서 포맷 좀 보내줘." "데이터는 있는데 어떻게 분석해야 할지 모르겠다. 분석 좀 해줘." "예쁜 그래프를 그리려면 어떻게 해야 하지?" 이런 연락에는 대부분 다음과 같은 질문만 역으로 던져도 한동안 정적이 흐르며 그들이 본질적인 고민을 하도록 돕는다. "분석 보고서의 목표(목적)가 무엇인가요? 증명하고자 하는 가설이 존재하.. 2023. 11. 15.
알고리즘 인사이드 with 파이썬 p.43 두 인스턴스가 지닌 좌표의 거리를 계산하여 출력하면 다음과 같습니다. origin = Coordinate() target = Coordinate(10, 10) dist = origin.calc_distance(target) print(dist) 이외에 클래스에 메서드의 접근 제어를 private으로 선언하려면 메서드 이름 앞에 _를 2개 붙이면 됩니다. def __reset(self): self.x = 0 __ 를 앞에 붙인 메서드는 private으로 선언되기 때문에 다음과 같이 호출할 수 없습니다. 따라서 다음과 같은 예외가 발생합니다. origin.__reset() Traceback (most recent call last): File "...coordinate.py", line 35, in.. 2023. 11. 8.