본문 바로가기

머신러닝9

실무로 통하는 인과추론 with 파이썬 p.38 아쉽게도 머신러닝은 만병통치약이 아닙니다. 까다롭게 정해진 범주 내에서 엄청난 성능을 발휘할 수 있지만, 데이터가 모델에 적합된 것에서 조금만 달라져도 제대로 작동하지 않을 수 있습니다. [Prediction Machines]에서 소개하는 또 다른 예를 보시죠. 대부분의 산업에서 낮은 가격은 낮은 매출과 연관이 있습니다. 예를 들어, 호텔 업계에서 비성수기에는 숙박 요금이 낮고, 수요가 가장 많고 호텔이 만실인 성수기에는 요금이 높습니다. 해당 데이터를 바탕으로 모델링하면, 머신러닝 모델은 가격을 올리면 더 많은 객실이 판매될 것이라는 순진한 예측을 할 수 있습니다. 이렇게 머신러닝은 변수 간의 연관관계를 이용해서 변수들을 다른 변수에서 예측합니다. 예측에 사용하는 변수를 변경하지 않는 한 머신.. 2024. 3. 9.
기술보다는 문제에 - 머신러닝 엔지니어링 인 액션 머신러닝 붐이 일었을 때와 달리 점점 더 시간이 가면 갈수록 머신러닝 기법에 대한 강조보다는 어떻게 프로젝트를 구성하는지, 실무에서 어떤 점들을 고려해야 하는지, 재무적인 관점을 어떻게 어필해야 하는지와 같이 조금 더 실무와 가까운 내용의 책들이 나오고 있다. 이 책도 그런 책 중 하나다. 챕터 4까지 코드 한 줄 안나온다. 계속해서 문제 정의와 스코프 설정에 대한 내용을 강조한다. 저자는 처음부터 현자였던 걸까? 그렇게 포장할 수도 있겠지만, 저자는 포장하지 않고 자신의 아픈 상처를 드러낸다. 66쪽을 보면 이런 구절이 나온다. 흥미로운 최신 알고리듬을 사용하고 싶은 열정이 프로젝트에서 형편없이 발휘된 사례를 여러 번 목격했습니다. 대표적인 예는 이미지 해상도 업스케일링을 위한 GAN 프로젝트로, 12.. 2023. 12. 5.
기초부터 탄탄히 - 만들면서 배우는 생성AI 만들면서 배우는 생성AI라고 하면 뭔가 생성모델 쪽 라이브러리를 가지고 실습만 하는 책으로 생각할 수 있겠지만 그렇지 않다. 이 책은 매우 기초적인 내용부터 하나하나 다루고 실무적인 팁까지 다루는 책이다. 패딩이 무엇인지, 임베딩이란 무엇인지 기초개념까지 저자가 그리고 역자가 하나하나 가르쳐주면서 이끌어가는 책이다. 사실 처음 AI를 접했을 때 임베딩이라는 단어를 많이 접했고 대충 느낌적인 느낌(?!)으로 임베딩이 뭐겠다 라고 알고는 있었지만, 임베딩이 무엇인지와 같이 기초를 잡고 가지 않아서 나중에 헷갈릴 때가 많았다. 그러니 아무리 활용 위주로 AI를 사용한다고 하더라도 기초적인 용어나 개념같은 건 이런 책을 통해 배우고 가면 좋을 거라고 생각한다. 책이 기초부터 다루고 있긴 하지만 쉬운 책은 아니다.. 2023. 10. 18.
머신러닝 파워드 애플리케이션 https://link.coupang.com/a/bcHhWd 머신러닝 파워드 애플리케이션:아이디어에서부터완성된제품까지강력한머신러닝애플리케이션 COUPANG www.coupang.com p.43~44 모델 한 문장에서 다른 문장으로 매핑하는 모델은 앞서 언급한 생성 모델에 속합니다. 이런 모델은 최근 몇 년간 급격히 발전했습니다. 시퀀스-투-시퀀스(sequence-to-sequence) 모델은 번역 작업을 위해 2014년 개발되어 기계 번역과 사람 번역 사이의 간격을 좁혔습니다. 하지만 이런 모델의 성공은 대부분 문장 수준의 작업에 기반했고, 한 문단보다 긴 텍스트를 처리하는 데 자주 사용되지 않았습니다. 지금까지 한 문단을 다른 언어로 옮길 때, 긴 범위에 걸친 문맥을 감지할 수 없었기 때문입니다. 또한.. 2023. 10. 16.
케글 메달리스트가 알려주는 캐글 노하우 https://link.coupang.com/a/bcwWoT 캐글 메달리스트가 알려주는 캐글 노하우 COUPANG www.coupang.com 여러 명의 저자가 공동 집필하고 각자 파트별로 집필한 만큼, 중복되는 내용도 가끔씩 나온다. 밑줄긋기 p.34 Code Competition은 Simple Competition가 비교했을 때 몇 가지 장점이 있습니다. 첫째, 점수 계산에 사용될 테스트 셋을 참가자에게 공개하지 않고 컴페티션을 진행할 수 있습니다. 정답 파일을 만들기 위해서는 테스트 셋에 대한 예측이 필요하기 때문에 일반적으로는 정답을 제이한 테스트 셋을 참가자들에게 공개합니다. 다만, 이 과정에서 테스트 셋의 정보를 모델 생성에 활용하거나 테스트 셋의 분포를 미리 파악해 테스트 셋에 적합한 솔루션.. 2023. 10. 14.
좋은 교과서 - 데이터과학자를 위한 실전 머신러닝 이 서평은 출판사의 지원을 받아 작성하였습니다. 결론부터 말하겠다. 좋은 책이다. 이유는 뭐냐? 어려워서다. 어려워서 좋은 책이라니 무슨 말인가. 비유하자면 이런거다. 맵지만 맛없는 음식이 있고 매운데 맛있는 음식이 있다. 이 책은 매운데 맛있는 그런 음식과 같다. 맵지만 맛없는 음식의 대표적인 예는 번역을 이상하게 하는 경우다. 쉬운 책이든 어려운 책이든 번역을 이상하게 하면 가독성이 안좋아지고 어려워진다. 이 책은 그와 반대로 국내 저자가 썼기 때문에 그런 번역 문제에서 자유롭다. 그리고 다루는 주제를 보면 일반적으로 머신러닝 서적에서 자주 다루는 내용을 다루고 있다. (당연한 이야기이긴 하다. 모든 분야가 그렇겠지만 일반적으로 머신러닝 서적에서 자주 다루는 내용을 실무에서 사용하지, 그렇지 않은 내.. 2023. 8. 23.