스파크1 러닝 스파크 p.2 구글 파일 시스템(Google File System, GFS), 맵리듀스(MapReduce, MR), 빅테이블(BigTable) 등을 만들어 내게 되었다. GFS가 클러스터 안에서 상용 서버에 장애 내구성이 있는 분산 파일 시스템을 제공한다면, 빅테이블은 GFS를 기반으로 구조화된 대규모 데이터의 저장 수단을 제공했다. 맵리듀스는 함수형 프로그래밍 개념을 기반으로 하여 GFS와 빅테이블 위에서 대규모 데이터 분산 처리가 가능한 새로운 병렬 프로그래밍의 패러다임을 소개했다. 좀 더 본질적으로는 맵리듀스 애플리케이션은 데이터를 애플리케이션으로 가져오는 게 아니라 맵리듀스 시스템과 연계하여 데이터의 지역성과 랙의 근접성 등을 고려해 데이터가 존재하는 곳으로 연산코드(맵 함수와 리듀스 함수)를 보내게 된.. 2024. 1. 10. 이전 1 다음