본문 바로가기

Growth/통계46

의료인을 위한 R생존분석 p.32 생존분석이란 어떤 사건이 일어날 때까지의 시간을 관심있는 반응변수로 하는 통계적인 방법이다. 여기서 '시간'이란 한 개인을 추적하기 시작하면서부터 어떤 사건이 일어날 때까지의 며칠, 몇 개월, 몇 년에 걸친 기간을 의미하고, 때로는 연령이 시간이 되기도 한다. 사건이란 사망, 질병의 발생, 재발, 회복 또는 어떤 사람에게 일어날 수 있는 관심 있는 경험 등이 될 수 있다. 하나의 연구에서 여러 개의 사건이 발생할 수도 있지만 보통 하나의 사건만이 일어나는 것으로 가정하고 분석을 진행한다. 하나 이상의 경쟁적인 사건이나 재발하는 사건 등은 11장과 10장에서 다룰 경쟁위험모형과 재발사건 분석에서 다룰 것이다. 생존분석에서는 보통 시간변수를 '생존시간'이라고 표현하는 경우가 많고 사건의 발생을 '실.. 2023. 8. 10.
행동 데이터 분석 p.11 필자는 데이터 과학자 채용 면접관으로 활동하면서 정교한 머신러닝 알고리즘을 다룰 줄 알지만 데이터에 대한 감각은 부족한 지원자를 많이 보았습니다. 이러한 지원자는 알고리즘이 알려주는 사실을 제외하고는 데이터를 거의 이해하지 못했습니다. p.13 이 책은 t-검정이나 ANOVA와 같은 기존의 행동 데이터 분석 방법론을 소개하는 책이 아닙니다. 필자는 비즈니스 문제를 풀면서 회귀 분석이 이러한 전통적인 방법보다 효과가 덜하다고 느낀 적이 없습니다. 이러한 이유로 이 책의 분석 방법을 선형 회귀와 로지스틱 회귀로 한정한 것입니다. p.32~33 기술 분석은 가장 간단한 형태의 분석이지만 과소평가해서는 안 됩니다. 많은 조직이 조직의 운영 상태를 명확하고 일관된 관점으로 파악하는 데 어려움을 겪습니다... 2023. 6. 20.
말로만 말고 숫자로 대봐 p.37 제니퍼가 내려야 하는 중요한 결정 중 하나는 만성질환 고객에게, 병에 걸리는 것을 피하거나 병의 진행을 제한하기 위해 어떻게 해야하는지를 지도하는 데 얼마나 많은 시간을 쓸 것인가이다. 그녀는 고객에게 가치 있는 상담 지도를 하면서도 또한 회사의 비용도 통제할 수 있기를 바란다. 그녀에게는 시그너의 고객들이 병원에 입원 혹은 재입원할 것인가가 중요한 성과 지표다. 그녀는 매월 재입원의 빈도를 보여주는 수십 페이지의 월간 보고서를 받는다. 재입원 비율은 오르락내리락했지만 그녀는 왜 그런 변화가 일어나는지를 전혀 알 수 없었다. 그녀는 이렇게 말했다. "숫자로 가득 찬 보고서가 여기 있어요, 하지만 그것들은 그냥 숫자일 뿐, '그래서 어떻게 해야 하지?'라는 질문에 답을 주지 않아요." 그녀가 대답.. 2023. 5. 28.
데이터 분석의 힘 p.35 문제는 X와 Y의 상관관계가 밝혀져도 그것만으로는 인과관계가 있다고 말할 수 없다는 점이다. 상관관계와 인과관계가 다르다는 말에 다소 당황스러운 독자도 있을 것이다. 그런 사람을 위해 X와 Y에 상관관계가 있을 경우 어떤 가능성이 있는지 알아보았다. 1) X가 Y에 영향을 주었을 가능성 2) Y가 X에 영향을 주었을 가능성 3) V가 X와 Y 양쪽에 영향을 주었을 가능성 아이스크림 사례에서 다음 세 가지 가능성 중 어느 것이 진짜인지 판단할 수 없다 1) 광고(X)가 매출(Y)에 영향을 주었을 가능성 2) 매출(Y)이 광고(X)에 영향을 주었을 가능성 3) 다른 요인(V)이 광고(X)와 매출(Y) 양쪽에 영향을 주었을 가능성 p.44 통상적으로 데이터 관측수가 늘어나면 장점이 많다. 그러나 안타.. 2023. 5. 13.
파이썬을 이용한 경제 및 금융데이터 분석 p.34 중앙값 절대편차(MAD: Median Absolute Deviation) 표준편차는 평균에 기초하여 데이터의 퍼진 정도를 측정하는 통계량입니다. 평균은 극단치의 영향을 많이 받기 때문에 표준편차 역시 극단치의 영향을 많이 받습니다. 극단치의 영향을 덜 받는 데이터의 퍼진 정도를 나타내는 통계량이 중앙값 절대편차입니다. 중앙값 절대편차는 데이터의 중앙값과 각 값과의 차이의 절대값들의 중앙값입니다. MAD = median (| X_i - median(X)|) MAD는 데이터 집합의 극단적인 값들에 민감하지 않은 특성 때문에 이상치 검출 등에서 사용되고 있습니다. 2023. 3. 18.
고급확률론 3월7일 https://youtu.be/sUo1fYpgPcU 2023. 3. 8.