본문 바로가기

CS/MachineLearning62

대규모 머신러닝 시스템 디자인 패턴 이 서평은 출판사의 후원을 받아 작성하였습니다. 어떤 분야가 되었건 마찬가지겠지만, 머신러닝도 똑같이 실무에 가면 이런저런 문제에 부닥친다. 특히 단순히 머신러닝의 수학적 모델링에 관한 문제뿐 아니라, 서버나 다른 인프라 같은 문제들이 실무를 해야 하는 사람들에게 풀기 어려운 과제가 되곤 한다.  풀기 어렵다는 말은 단순히 문제가 기술적인 측면에서 어렵다는 의미는 아니다.물론 기술적으로 어렵다. 분산처리 시스템인데 당연히 어려울 수밖에 없다.  하지만, 실무를 해야하는 곳이 분산처리 시스템을 운용해야할 만큼 규모가 큰 데이터를 다루는 곳이라면, 각 팀마다 R&R이 다를 것이고, 인프라를 다루는 팀이나 DBA나 각각 분리되어있고, PM 조직도 따로 있을 것이기 때문에 이들과의 소통 및 협업을 통해 원하는 .. 2024. 12. 23.
실무 프로젝트로 배우는 데이터 분석 with R p.3 분석 업무중 생기는 문제 1. 다른 직무로 일하다가 최근 분석 직무에 배정받은 경우 -> 아이디어는 있지만 어떻게 설계 및 구현을 해야 할지 모르는 상황 2. 분석 지식만 갖춘 신입의 경우 a. 이것도 되지 않을까? -> 이게 의미가 있나? b. 그러면 이렇게는 되지 않을까? -> 이것도 의미가 없겠다 c. 그러면 이렇게 하자 -> 데이터가 확보 안됐네? d. 그럼 이렇게 하지 -> 결과가 별로네. p.5 경영지원팀 'A'는 상사로부터 이번에 출시한 'P 상품'의 매출 분석을 해오라는 지시를 받았다. 'A'는 평소 하던것처럼 엑셀을 활용해 매출 데이터에 대한 피벗 테이블을 작성하고, 그래프를 그린 후, 상사에게 제출했다. 하지만 상사는 'A'에게 '이 정도는 그냥 현황파악이지 누가 할 줄 모르나?.. 2024. 2. 9.
밑바닥부터 시작하는 딥러닝 4 p.29 일반적인 강화 학습 문제에서 환경에는 상태 정보가 있습니다. 에이전트가 어떤 행동을 하면 환경의 상태가 바뀌고, 에이전트는 새로운 상태를 관찰하여 적절한 행동을 취합니다. 다만 밴디트 문제에서는 플레이어가 이용하는 슬롯머신들의 확률 설정에 변화가 없습니다. 즉, 환경의 상태가 변하지 않으므로 따로 고려할 필요가 없습니다. p.30 여기서 기억할 것은 슬롯머신 플레이 같은 확률적 사건은 '기댓값'으로 평가할 수 있다는 사실입니다. 다르게 말하면 무작위성에 현혹되지 않기 위해 '기댓값'을 기준으로 삼아야 합니다. 밴디트 문제에서는 보상의 기댓값을 가치(value)라는 특별한 이름으로 부르곤 합니다. 특히 '행동의 결과로 얻는 보상의 기댓값'을 행동 가치(action value)라고 합니다. 그래서 .. 2024. 1. 27.
MLOps 실전 가이드 p.35~36 마이크로서비스는 의존성이 거의 없고 (심지어는 아예 없기도 한) 독립적인 기능을 가진 소프트웨어 서비스를 의미한다. 예를 들어 머신러닝 추론 엔드포인트(endpoint)는 마이크로서비스로 구성하기에 매우 적합하다. 대표적으로 플라스크(Flask)는 파이썬 기반 마이크로서비스 구현을 돕는 인기 있는 프레임워크 중 하나다. 이러한 마이크로서비스는 서비스형 함수(Function as a Service - FaaS)를 포함한 다양한 기술을 사용할 수 있다. AWS 람다는 클라우드에서 제공되는 다양한 서비스형 함수를 대표한다. 마이크로서비스는 컨테이너 환경에서 즉시 실행 가능하도록 구성할 수 있다. 서비스형 컨테이너(Container as a Service- CaaS)를 사용하여 도커파일과 함께 플.. 2024. 1. 18.
기술보다는 문제에 - 머신러닝 엔지니어링 인 액션 머신러닝 붐이 일었을 때와 달리 점점 더 시간이 가면 갈수록 머신러닝 기법에 대한 강조보다는 어떻게 프로젝트를 구성하는지, 실무에서 어떤 점들을 고려해야 하는지, 재무적인 관점을 어떻게 어필해야 하는지와 같이 조금 더 실무와 가까운 내용의 책들이 나오고 있다. 이 책도 그런 책 중 하나다. 챕터 4까지 코드 한 줄 안나온다. 계속해서 문제 정의와 스코프 설정에 대한 내용을 강조한다. 저자는 처음부터 현자였던 걸까? 그렇게 포장할 수도 있겠지만, 저자는 포장하지 않고 자신의 아픈 상처를 드러낸다. 66쪽을 보면 이런 구절이 나온다. 흥미로운 최신 알고리듬을 사용하고 싶은 열정이 프로젝트에서 형편없이 발휘된 사례를 여러 번 목격했습니다. 대표적인 예는 이미지 해상도 업스케일링을 위한 GAN 프로젝트로, 12.. 2023. 12. 5.
기초부터 탄탄히 - 만들면서 배우는 생성AI 만들면서 배우는 생성AI라고 하면 뭔가 생성모델 쪽 라이브러리를 가지고 실습만 하는 책으로 생각할 수 있겠지만 그렇지 않다. 이 책은 매우 기초적인 내용부터 하나하나 다루고 실무적인 팁까지 다루는 책이다. 패딩이 무엇인지, 임베딩이란 무엇인지 기초개념까지 저자가 그리고 역자가 하나하나 가르쳐주면서 이끌어가는 책이다. 사실 처음 AI를 접했을 때 임베딩이라는 단어를 많이 접했고 대충 느낌적인 느낌(?!)으로 임베딩이 뭐겠다 라고 알고는 있었지만, 임베딩이 무엇인지와 같이 기초를 잡고 가지 않아서 나중에 헷갈릴 때가 많았다. 그러니 아무리 활용 위주로 AI를 사용한다고 하더라도 기초적인 용어나 개념같은 건 이런 책을 통해 배우고 가면 좋을 거라고 생각한다. 책이 기초부터 다루고 있긴 하지만 쉬운 책은 아니다.. 2023. 10. 18.