본문 바로가기

CS/DataEngineering18

Data Lake vs Data Warehouse 1. Comparision of Data Lake & Data Warehouse Data Lake Data Warehouse Stores all the raw data Specific data for specific use Can be petabytes (1 million GBs) Relative small Stores all data structures Stores mainly structured data Cost effective More costly to update Difficult to analyze Optimized for data analysis Requires an up-to-date data catalog Used by data scientists Also used by data anal.. 2022. 12. 10.
프로그래머스 데이터 엔지니어링 컨퍼런스 | 뱅크샐러드 데이터 엔지니어의 눈물! 호락호락하지 않은 공공데이터와의 전쟁 https://www.youtube.com/watch?v=NYUjHSt654s&ab_channel=Programmers 공공데이터는 개성이 강함 = 도메인지식(사전지식)이 많이 필요 1. 다른 자료를 참고해야 데이터를 온전히 알 수 있음 2. 데이터 제공기관에서 암묵적으로 사용하는 규칙대로 데이터를 제공 3. API간의 의존성(Dependency)이 있다. 4 동일한 값을 의미하는 변수의 이름이 제각기 다름 공공데이터 적재하기 Lessons Learned 1. 사전조사할 때는 보고 또 보기 a. 데이터의 특성은 넘치도록 공부해도 부족 b. 각 데이터의 특성에 맞는 코드를 구현하기 위해 기술적인 지식 습득이 필요 2. 외부요인에 대해 적극적 대응하기 a. 데이터엔지니어가 핸들링할 수 없는 범위의 외부요인이.. 2022. 11. 29.
BigQuery 1. Identify Duplicate Rows a. Query Syntax https://cloud.google.com/bigquery/docs/reference/standard-sql/query-syntax Seeing a sample amount of data may give you greater intuition for what is included in the dataset. To preview sample rows from the table without using SQL, click the preview tab. Scan and scroll through the rows. There is no singular field that uniquely identifies a row, so you n.. 2022. 9. 20.
SQL On Hadoop 분석 도구인 Hive와 Impala는 어떤 차이가 있을까? https://www.youtube.com/watch?v=TwMP1vtWFPo 1. Hive 특징 a. Hive QL이라고 불리는 SQL 같은 언어를 제공하여 Hadoop 데이터(파일)를 Query를 이용해서 분석할 수 있게 해주며 Map-Reduce의 모든 기능 지원 b. Oracle DBMS가 Data Dictionary를 통해 Table Schema 정보를 관리하고 참조하듯이, Hive 메타스토어를 통해 Table, Column 정보를 관리하며, 실데이터는 Hadoop HDFS에 저장합니다. c. Hive Query는 Map-Reduce로 변환되어 실행됩니다. Hive는 Query를 파싱, 실행계획 수립, 최적화 과정을 거쳐 Map-Reduce로 변환하여 처리하므로, 응답 시간이 매우 길며, 대량 .. 2022. 8. 21.
DATA ENGINEERING EXPLAINED https://www.youtube.com/watch?v=cAJCcpiVpOY 2022. 8. 14.
데이터 중심 애플리케이션 설계 p.xvii 하둡, 스파크 같은 오픈소스 대용량 분산 데이터 처리 솔루션은 집단 지성의 힘으로 수년에 걸쳐 발전했고 이 글을 쓰는 시점에는 이미 성숙 단계에 접어들었다. 이제는 시스템 운영에 있어 단순한 장비 장애나 데이터 이전 및 확장 등의 고민은 확실히 크게 줄었다. 하지만 시스템 설계자, 개발자, 운영자의 입장에서 현장에서 느끼는 불안감은 전혀 줄지 않았다. 이 불안감이 대체 어디서 오는 것일까? 이런 규모의 데이터를 빠르게 생성하고 유지하기 위해서는 매우 복잡한 여러 시스템을 거쳐야 한다. 이 복잡한 시스템들은 대개 여러 조직에 걸쳐 있을 뿐 아니라 각 시스템이 항상 정상적으로 동작한다고 보장할 수 없다. 장애에 대응하기 위해 전력을 다하더라도 오직 예측 가능한 상황만이 미리 대응 가능할 뿐 예측.. 2022. 6. 28.