본문 바로가기

Growth147

실무로 통하는 인과추론 with 파이썬 p.38 아쉽게도 머신러닝은 만병통치약이 아닙니다. 까다롭게 정해진 범주 내에서 엄청난 성능을 발휘할 수 있지만, 데이터가 모델에 적합된 것에서 조금만 달라져도 제대로 작동하지 않을 수 있습니다. [Prediction Machines]에서 소개하는 또 다른 예를 보시죠. 대부분의 산업에서 낮은 가격은 낮은 매출과 연관이 있습니다. 예를 들어, 호텔 업계에서 비성수기에는 숙박 요금이 낮고, 수요가 가장 많고 호텔이 만실인 성수기에는 요금이 높습니다. 해당 데이터를 바탕으로 모델링하면, 머신러닝 모델은 가격을 올리면 더 많은 객실이 판매될 것이라는 순진한 예측을 할 수 있습니다. 이렇게 머신러닝은 변수 간의 연관관계를 이용해서 변수들을 다른 변수에서 예측합니다. 예측에 사용하는 변수를 변경하지 않는 한 머신.. 2024. 3. 9.
SQL로 시작하는 데이터 분석 p.20 분석은 단순히 적절한 방법론을 사용해 정확한 숫자를 만들어내는 일 이상을 의미합니다. 분석이란 호기심을 갖고 '왜' 그 숫자가 나왔는지 질문을 던지는 일입니다. 또한 다양한 패턴과 이례적인 현상들 그리고 비즈니스가 어떻게 움직이고 인간이 어떻게 행동하는지 이해하기 위한 단서를 찾고 해석하는 일입니다. p.29~30 분석 업무는 항상 질문을 던지는 데서 시작합니다. 예를 들어, '신규 고객이 얼마나 유입됐는가?', '판매 추이가 어떠한가?', '왜 어떤 고객은 한번 서비스를 이용한 후 다시 돌아오지 않는 반면, 어떤 고객은 지속해서 서비스를 사용하는가?' 등의 질문이 생기고 나면 데이터가 어디에서 나오고 어디에 저장되는지, 분석 계획은 무엇이며 결과를 어떻게 발표할지 생각해야 합니다. p.36 열.. 2024. 2. 17.
데이터 과학자의 가설사고 p.19 데이터 과학자는 데이터를 파악할 때 데이터를 읽는 목적과 데이터에 있는 배경을 생각합니다. 예를 들어 편의점 매출 데이터를 파악할 때도 '왜 그 상품이 이 시간대에 팔렸는가를 생각하면서 데이터와 마주하지요. p.28-29 세 점포의 평균값은 같지만, 막대 그래프로 보면 경향이 다르다는 사실을 알 수 있습니다. A점포는 평일 매출이 적고, 주말 매출이 많습니다. 근처에 돔구장이 있기 떄문에 주말에 개최되는 이벤트의 영향으로 매출이 늘어난 것으로 추측됩니다. A점포는 주말 매출이 매우 크기에 일주일 평균 판매 개수도 그 영향으로 커졌습니다. 이에 반해 B점포는 주말에 비해 평일 매출이 많습니다. B점포는 오피스 거리에 있기 떄문에 근처 사무실에 근무하는 사람이 많이 구입할 것으로 추측할 수 있습니다.. 2024. 2. 17.
Michael Crawley - Introduction to Statistics using R p.1 The truth is that there is no substitute for experience: the way to know what to do is to have done it properly lots of times before. p.1~2 It is essential, therefore, tha tyou know: - which of your variables is the response variable? - which are the explanatory variables? - are the explanatory variables continuous or categorical, or a mixture of both? - what kind of response variable have y.. 2024. 2. 10.
파이썬 비즈니스 통계분석 p.4~5 시잠점유율 (Market Share)은 여전히 기업에게 중요한 성과지표임에도 불구하고, 시장점유율이라는 외형적인 지표만으로 기업의 지속적인 성장을 보여주지 못한다. 최근 기업의 마케팅 목표는 시장점유율뿐만 아니라, 내실 있는 기업경영 지표로서 고객점유율 (Customer Share)을 높이는 데 있다. 고객점유율은 한 고객이 소비할 수 있는 특정 상품/서비스 영역의 총 소비량 중에 자사의 상품/서비스가 차지하는 비율을 의미한다. 시장점유율은 자사의 총 판매량 정보만 알면 쉽게 산출이 가능하지만, 고객점유율은 고객 개개인의 구매력 정보를 획득하거나, 고객들의 잠재소비량을 통계적으로 추론해야 한다. 고객점유율을 기업의 중대한 핵심성과지표로 활용하기 위해서는 막연한 개념뿐만 아니라 구체적인 데이터분.. 2024. 2. 4.
데이터 스마트 p.40 파이 차트의 유혹에 넘어가지 않기를 바란다. 특히 엑셀이 제공하는 입체 파이 차트는 절대로 이용하지 않기를 바란다. 그렇지 않으면 내가 죽어 귀신이 되면 여러분을 해칠지도 모른다. 그것들은 매우 흉측해서 데이터를 잘 표현해 주지 않는다. 그리고 입체 효과는 내가 다니는 치과 병원의 벽에 있는 조개 그림보다도 못하다. p.68 k-평균 군집화의 목적은 공간상의 어느 점들을 선택하고, 그것들을 k개의 그룹으로 나누는 것이다(몇 개의 k군으로 나눌지는 선택할 수 있다). k개의 그룹은 달에 어떤 깃발을 고정시켜 놓고 "여기가 내 그룹의 중심이야. 이 깃발에 가깝다고 생각하면 내 곁으로 와."하고 말하는 것처럼 그 중심점으로 정의된다. 이런 그룹의 중심점(군집 중심점이라 한다)에서 k-평균이라는 이름이.. 2024. 2. 4.