본문 바로가기

CS155

04. AWS와 함께 달성한 일일 5억 건 이상의 광고 데이터 처리 노하우 리드 레플리카 데이터 플랫폼 구축의 필요성 - MySQL은 OLTP에 최적화된 데이터베이스 1. 성능의 한계 -> 데이터가 수백만 건을 넘어서는 시점부터 분석쿼리를 수행하기에는 MySQL의 성능 한계가 존재 2. 데이터 결합 -> 여러 서비스간의 데이터를 결합하여 분석하는데 어려움이 있습니다. 3. 아카이빙 -> 서비스 운영에 필요하지 않은 데이터를 MySQ에서 제거하여 불필요한 리소스 낭비를 막습니다. MSA의 원칙과 데이터 분석 1. MSA원칙 -> 각 서비스가 자신만의 데이터베이스를 가지고 있어야 한다는 점(for 서비스간의 종속성 최소화) 2. MSA vs 데이터 분석 -> MSA원칙 때문에 서비스 간의 데이터를 종합해서 보길 원하는 데이터분석 요구사항을 만족시키기 어려웠음 데이터 동기화 관련 1.. 2022. 5. 17.
sklearn개발자가 쓴 교과서 - 파이썬 라이브러리를 활용한 머신러닝 이 글은 책 증정 이벤트에 당첨되어 저자에게 책을 제공받아 작성하였습니다. (그렇지만 늘 그래왔듯 책을 받은 것과 별개로 최대한 주관적인 관점을 담아 적습니다) 머신러닝이 유행하고 계속해서 책이 쏟아져나옵니다만, 가끔 보면 비싼 돈을 주고 구매했는데 번역이 이상하거나 책의 내용이 너무 기초적이거나 혹은 반대로 너무 알아듣기 어렵게 서술되어있는 경우를 봅니다. 물론 잘 하시는 분은 책을 볼 필요도 없이 구글링만으로 뚝딱뚝딱 좋은 작품을 만들어내겠지만, 이 분야를 잘 모르거나, 책을 보는 성향이 강한 저 같은 사람에게는 좋은 책만큼 소중한 학습도구도 없습니다. 그렇지만 좋은 책이 나오기란 굉장히 어렵습니다. 능력의 문제가 아닌 구조적인 문제 때문입니다. 더 적나라하게 말해 돈과 시간의 문제라는 겁니다. 다른.. 2022. 5. 16.
머신러닝 실무 프로젝트 p.27 머신러닝 프로젝트 과정 1. 비즈니스 문제를 머신러닝 문제로 정의한다 2. 논문을 중심으로 유사한 문제를 조사한다. 3. 머신러닝을 사용하지 않는 방법은 없는지 검토한다. 4. 시스템 설계를 고려한다. 5. 특징량, 훈련 데이터와 로그를 설계한다. 6. 실제 데이터를 수집하고 전처리한다. 7. 탐색적 데이터 분석과 알고리즘을 선정한다. 8. 실제 데이터를 수집하고 전처리한다. 9. 시스템에 통합한다. 10. 예측 정확도, 비즈니스 지표를 모니터링한다. p.27 머신러닝으로 해결한 문제 사례를 찾으려면 다음 세 가지 사항을 중점적으로 살펴보는 것이 좋다. 1. 어떤 알고리즘을 사용했는가? 2. 어떤 데이터를 특징량으로 사용했는가? 3. 머신러닝 부분을 어떻게 통합했는가? p.28 일반적인 비즈니스.. 2022. 5. 14.
[데이터야놀자2020] Airflow로 똑똑한 배치관리하기 - 김은실님 https://www.youtube.com/watch?v=OB1euuIATkE&ab_channel=%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%95%BC%EB%86%80%EC%9E%90 목표 : 실적지표 자동화하기 1. 이전 작업 환경 a. 엑셀로 수기 관리 b. 엑셀 크기만 100MB 2. Data Flow Diagram 3. 데이터 설계 4. Airflow란? a. Airbnb에서 개발한 워크플로우 관리 도구 b. 스케쥴링 c. Python d. DAG 구성 5. Airflow 구조 목표 : 파이프라인 구성하기 1. DAG이란? a. Task로 구성 b. 방향성을 갖는 비순환 그래프 (Directed Acyclic Graph) 2. DAG in Airflow a. DAG파일 = 워크플로우 .. 2022. 5. 13.
머신러닝 시스템 디자인 패턴 p.8 머신러닝의 진정한 가치는 추론 결과에 있다. 추론 결과가 애플리케이션의 사용자나 비즈니스 프로세스에 대해 효과를 발휘해야만 도움이 되는 머신러닝이라 말할 수 있을 것이다. 학습 시 아무리 높은 정확도를 낼 수 있는 머신러닝 모델이라 할지라도 실전에서 사용되지 않으면 의미가 없기 때문이다. 머신러닝의 연구 분야에서는 학습한 모델의 평가 결과나 학습을 더욱 빠르게 하는 방법, 이전에 없던 새로운 것들을 생성하는 콘텐츠 등이 주로 이목을 끌지만, 프로덕트로서 사용자에게 가치를 제공하기 위해서는 머신러닝을 프로덕트에 포함해 제공할 필요가 있다. p.9 Google은 프로덕트 개발 과정에서 인간과 AI의 연관성에 관한 프랙티스를 정리한 가이드북인 'PAIR (People + AI Research)'를 공개.. 2022. 5. 10.
ML System Design https://github.com/mercari/ml-system-design-pattern GitHub - mercari/ml-system-design-pattern: System design patterns for machine learning System design patterns for machine learning. Contribute to mercari/ml-system-design-pattern development by creating an account on GitHub. github.com 2022. 5. 10.