본문 바로가기

Growth/통계46

실무로 통하는 인과추론 with 파이썬 p.38 아쉽게도 머신러닝은 만병통치약이 아닙니다. 까다롭게 정해진 범주 내에서 엄청난 성능을 발휘할 수 있지만, 데이터가 모델에 적합된 것에서 조금만 달라져도 제대로 작동하지 않을 수 있습니다. [Prediction Machines]에서 소개하는 또 다른 예를 보시죠. 대부분의 산업에서 낮은 가격은 낮은 매출과 연관이 있습니다. 예를 들어, 호텔 업계에서 비성수기에는 숙박 요금이 낮고, 수요가 가장 많고 호텔이 만실인 성수기에는 요금이 높습니다. 해당 데이터를 바탕으로 모델링하면, 머신러닝 모델은 가격을 올리면 더 많은 객실이 판매될 것이라는 순진한 예측을 할 수 있습니다. 이렇게 머신러닝은 변수 간의 연관관계를 이용해서 변수들을 다른 변수에서 예측합니다. 예측에 사용하는 변수를 변경하지 않는 한 머신.. 2024. 3. 9.
데이터 과학자의 가설사고 p.19 데이터 과학자는 데이터를 파악할 때 데이터를 읽는 목적과 데이터에 있는 배경을 생각합니다. 예를 들어 편의점 매출 데이터를 파악할 때도 '왜 그 상품이 이 시간대에 팔렸는가를 생각하면서 데이터와 마주하지요. p.28-29 세 점포의 평균값은 같지만, 막대 그래프로 보면 경향이 다르다는 사실을 알 수 있습니다. A점포는 평일 매출이 적고, 주말 매출이 많습니다. 근처에 돔구장이 있기 떄문에 주말에 개최되는 이벤트의 영향으로 매출이 늘어난 것으로 추측됩니다. A점포는 주말 매출이 매우 크기에 일주일 평균 판매 개수도 그 영향으로 커졌습니다. 이에 반해 B점포는 주말에 비해 평일 매출이 많습니다. B점포는 오피스 거리에 있기 떄문에 근처 사무실에 근무하는 사람이 많이 구입할 것으로 추측할 수 있습니다.. 2024. 2. 17.
Michael Crawley - Introduction to Statistics using R p.1 The truth is that there is no substitute for experience: the way to know what to do is to have done it properly lots of times before. p.1~2 It is essential, therefore, tha tyou know: - which of your variables is the response variable? - which are the explanatory variables? - are the explanatory variables continuous or categorical, or a mixture of both? - what kind of response variable have y.. 2024. 2. 10.
파이썬 비즈니스 통계분석 p.4~5 시잠점유율 (Market Share)은 여전히 기업에게 중요한 성과지표임에도 불구하고, 시장점유율이라는 외형적인 지표만으로 기업의 지속적인 성장을 보여주지 못한다. 최근 기업의 마케팅 목표는 시장점유율뿐만 아니라, 내실 있는 기업경영 지표로서 고객점유율 (Customer Share)을 높이는 데 있다. 고객점유율은 한 고객이 소비할 수 있는 특정 상품/서비스 영역의 총 소비량 중에 자사의 상품/서비스가 차지하는 비율을 의미한다. 시장점유율은 자사의 총 판매량 정보만 알면 쉽게 산출이 가능하지만, 고객점유율은 고객 개개인의 구매력 정보를 획득하거나, 고객들의 잠재소비량을 통계적으로 추론해야 한다. 고객점유율을 기업의 중대한 핵심성과지표로 활용하기 위해서는 막연한 개념뿐만 아니라 구체적인 데이터분.. 2024. 2. 4.
데이터 스마트 p.40 파이 차트의 유혹에 넘어가지 않기를 바란다. 특히 엑셀이 제공하는 입체 파이 차트는 절대로 이용하지 않기를 바란다. 그렇지 않으면 내가 죽어 귀신이 되면 여러분을 해칠지도 모른다. 그것들은 매우 흉측해서 데이터를 잘 표현해 주지 않는다. 그리고 입체 효과는 내가 다니는 치과 병원의 벽에 있는 조개 그림보다도 못하다. p.68 k-평균 군집화의 목적은 공간상의 어느 점들을 선택하고, 그것들을 k개의 그룹으로 나누는 것이다(몇 개의 k군으로 나눌지는 선택할 수 있다). k개의 그룹은 달에 어떤 깃발을 고정시켜 놓고 "여기가 내 그룹의 중심이야. 이 깃발에 가깝다고 생각하면 내 곁으로 와."하고 말하는 것처럼 그 중심점으로 정의된다. 이런 그룹의 중심점(군집 중심점이라 한다)에서 k-평균이라는 이름이.. 2024. 2. 4.
메이저리그 야구 통계학 p.19~20 내셔널리그 투수들은 타서거에 들어서지만, 지명타자가 있는 아메리칸리그 투수들은 타석에 서지 않는다. 연구에 따르면 이러한 시스템의 차이는 아메리칸리그 투수들이 타자 몸 쪽으로 공을 붙이거나 위협구를 던지는 데 있어서 내셔널리그 투수들보다 느끼는 부담감이 적어, 자신 있게 몸 쪽 공을 뿌리는 투수들 때문에 아메리칸리그 타자들이 내셔널리그 타자들에 비해 볼에 더 맞는다고 한다. 가설을 테스트하기 위해 어떤 변수가 필요한가? 타자들이 시즌별로 얼마나 많은 볼에 맞았는지 보여주는 변수 하나만으로 리그별 비교가 가능한가? 그렇지 않다. 타자들의 소속 리그를 구분하는 변수가 있어야만, 몸에 맞는 볼이 어떤 리그의 소속의 선수에게서 발생했는지 구분하고 리그 간 비교를 할 수 있다. 그리고 빅데이터처럼 .. 2024. 1. 10.