본문 바로가기

Growth147

사회과학자를 위한 데이터과학 이제 책을 시작하지만... 서평의 프롤로그를 적을 수밖에 없다. 영원히 고통받는 케네스 로고프 교수... 노벨 경제학상 수상한 하버드 교수인 만큼 두고두고 (역사책에 기록될지도 모르겠다) 고통받으실거 같다. 밑줄긋기 p.14 레인하트와 로고프의 엑셀 조작 실수는 자료분석 환경의 변화에 제대로 적응하지 못한 연구자에게는 항존하는 위험이다. 만약 자료분석이 아래와 같은 루틴에서 벗어나지 않는 연구자라면 누구나 레인하트와 로고프가 범한 실수로부터 자유로울 수 없다고 봐야 한다. 오류 가능성이 높은 자료분석 루틴 1. 인터넷을 검색해서 자료를 다운로드한다. 2. 여러가지 자료를 엑셀 스프레드 시트 형식으로 모두 지정한 뒤 복사 - 붙여넣기로 하나의 시트에 모은다. 3. 엑셀의 함수 기능을 이용하여 자료 전처리를.. 2023. 9. 25.
불멸의 이론 p.5 "사실이 바뀌면 나는 내 의견을 바꿉니다. 당신은 어떻습니까?" - 존 메이너드 케인스 p.8~9 겉으로만 보자면 베이즈 정리는 딱 한 줄로 적을 수 있을 만큼 단순하기 짝이 없다. 어떤 대상에 대해서 가지고 있던 초기의 믿음을 객관적이고도 새로운 정보로 어버데이트할 때 보다 개선된 새로운 믿음을 확보할 수 있다는 게 그 내용이다. 베이즈 정리의 지지자들에게 이것은 경험을 통한 학습에 대한 하나의 우아한 진술이다. 여러 세대에 걸쳐서 이 정리가 가진 내면 논리의 마법에 빠진 사람들은 종교적인 체험과도 같은 어떤 경험을 했다. 하지만 베이즈 정리를 믿지 않는 사람들에게 이것은 그저 터무니없는 '내 마음대로'의 주관적인 규칙일 뿐이었다. 베이즈 정리는 1740년대 영국에서, '우리 주변 세상의 증거에.. 2023. 8. 19.
의료인을 위한 R생존분석 p.32 생존분석이란 어떤 사건이 일어날 때까지의 시간을 관심있는 반응변수로 하는 통계적인 방법이다. 여기서 '시간'이란 한 개인을 추적하기 시작하면서부터 어떤 사건이 일어날 때까지의 며칠, 몇 개월, 몇 년에 걸친 기간을 의미하고, 때로는 연령이 시간이 되기도 한다. 사건이란 사망, 질병의 발생, 재발, 회복 또는 어떤 사람에게 일어날 수 있는 관심 있는 경험 등이 될 수 있다. 하나의 연구에서 여러 개의 사건이 발생할 수도 있지만 보통 하나의 사건만이 일어나는 것으로 가정하고 분석을 진행한다. 하나 이상의 경쟁적인 사건이나 재발하는 사건 등은 11장과 10장에서 다룰 경쟁위험모형과 재발사건 분석에서 다룰 것이다. 생존분석에서는 보통 시간변수를 '생존시간'이라고 표현하는 경우가 많고 사건의 발생을 '실.. 2023. 8. 10.
행동 데이터 분석 p.11 필자는 데이터 과학자 채용 면접관으로 활동하면서 정교한 머신러닝 알고리즘을 다룰 줄 알지만 데이터에 대한 감각은 부족한 지원자를 많이 보았습니다. 이러한 지원자는 알고리즘이 알려주는 사실을 제외하고는 데이터를 거의 이해하지 못했습니다. p.13 이 책은 t-검정이나 ANOVA와 같은 기존의 행동 데이터 분석 방법론을 소개하는 책이 아닙니다. 필자는 비즈니스 문제를 풀면서 회귀 분석이 이러한 전통적인 방법보다 효과가 덜하다고 느낀 적이 없습니다. 이러한 이유로 이 책의 분석 방법을 선형 회귀와 로지스틱 회귀로 한정한 것입니다. p.32~33 기술 분석은 가장 간단한 형태의 분석이지만 과소평가해서는 안 됩니다. 많은 조직이 조직의 운영 상태를 명확하고 일관된 관점으로 파악하는 데 어려움을 겪습니다... 2023. 6. 20.
컨버티드 마음을 훔치는 데이터분석의 기술 p.12 디지털 마케팅의 핵심은 믿음을 유지하는 것이다. p.17 p.18~19 그들에게는 새로운 경쟁 방법이 필요했고 우리는 그 방법을 찾도록 도왔다. 이들에게 우리는 즉각적이고 단기적인 최적화를 수행하지 않았다. 대신 데이터를 사용해서 최고의 고객이 누구이며 그들이 구매하려는 제품이 무엇인지 파악했다. 그리고 고객과의 장기적인 관계를 기반으로 사업을 진행하는 방식을 제안했다. 경쟁 업체들이 각자 수집한 데이터와 단기적인 사고로 쓰레기 더미를 여기저기 들쑤시든 말든 신경쓰지 말라고도 했다. 결과는 어땠을까? 놀랍게도 이 접근법은 말이 안 될 정도로 잘 먹혔다. p.41~42 모든 데이터를 하나로 통합하겠다는 기업은 대부분 이런 이유로 해당 프로젝트를 시작하지만 그 프로젝트는 시작과 동시에 끝난다. 그런.. 2023. 6. 10.
웹 데이터 분석학 https://coupa.ng/cbWyKB 웹 데이터 분석학:인사이트 기반의 온라인 마케팅과 운영을 위한 COUPANG www.coupang.com p.33 클릭스트림 데이터가 사용자의 행동에 대해서는 많은 것을 알려주지만 그 행동의 이유에 대해서는 알려주지 않아, 실행 가능한 인사이트를 거의 얻을 수 없기 때문이다. 이는 클릭스트림 데이터의 한계 중 하나다. 모든 사용자의 모든 클릭에 대해 알 수 있지만, 어떤 행동이냐에 관한 것뿐이다. 사람들이 어떤 페이지를 봤는가? 어떤 제품을 구매했는가? 평균적으로 얼마나 머물렀는가? 어디를 통해 해당 사이트를 방문하게 됐는가? 어떤 검색 키워드나 캠페인을 통해 왔는가? p.38 대부분의 웹사이트가 별로인 이유는 HiPPO가 큰 영향력을 발휘하기 때문이다. HiP.. 2023. 6. 10.