본문 바로가기

데이터분석10

실전에서 바로 쓰는 시계열 처리와 분석 p.3 https://www.mckinsey.com/~/media/mckinsey/featured%20insights/artificial%20intelligence/notes%20from%20the%20ai%20frontier%20applications%20and%20value%20of%20deep%20learning/notes-from-the-ai-frontier-insights-from-hundreds-of-use-cases-discussion-paper.ashx 일반적으로 시계열 데이터를 위한 예측 모델은 지도 학습, 비지도 학습, 강화 학습의 범주에 포함시키지 않지만, Azure, AWS, H2O와 같은 머신러닝 플랫폼에서는 대부분 시계열 분석을 위한 알고리즘을 포함하고 있고, 컨설팅 회사 맥킨지.. 2023. 12. 9.
데이터 드리븐 리포트 밑줄긋기 p.27 파는 것이 인간이다(To sell is Human) - 다니엘 핑크 p.36 엄청난 주장에는 엄청난 근거가 필요하다 - 칼 세이건 p.48 "통계로 거짓말하기는 쉬워도, 통계 없이 진실을 말하기는 어렵다." - 안드레예스 둥켈스 p.54~55 사내 데이터 분석 관련 보고서를 작성하는 동료 혹은 상사로부터 가끔씩 이런 메시지를 받을 때가 있다. "예전에 썼던 분석 보고서 포맷 좀 보내줘." "데이터는 있는데 어떻게 분석해야 할지 모르겠다. 분석 좀 해줘." "예쁜 그래프를 그리려면 어떻게 해야 하지?" 이런 연락에는 대부분 다음과 같은 질문만 역으로 던져도 한동안 정적이 흐르며 그들이 본질적인 고민을 하도록 돕는다. "분석 보고서의 목표(목적)가 무엇인가요? 증명하고자 하는 가설이 존재하.. 2023. 11. 15.
케글 메달리스트가 알려주는 캐글 노하우 https://link.coupang.com/a/bcwWoT 캐글 메달리스트가 알려주는 캐글 노하우 COUPANG www.coupang.com 여러 명의 저자가 공동 집필하고 각자 파트별로 집필한 만큼, 중복되는 내용도 가끔씩 나온다. 밑줄긋기 p.34 Code Competition은 Simple Competition가 비교했을 때 몇 가지 장점이 있습니다. 첫째, 점수 계산에 사용될 테스트 셋을 참가자에게 공개하지 않고 컴페티션을 진행할 수 있습니다. 정답 파일을 만들기 위해서는 테스트 셋에 대한 예측이 필요하기 때문에 일반적으로는 정답을 제이한 테스트 셋을 참가자들에게 공개합니다. 다만, 이 과정에서 테스트 셋의 정보를 모델 생성에 활용하거나 테스트 셋의 분포를 미리 파악해 테스트 셋에 적합한 솔루션.. 2023. 10. 14.
주변인으로서 관찰하기 - 씩 데이터 "중요한 거니까 한 번 따라해보시죠. 주변인, 경계인,..." 옛날 영화긴 한데 미스터 소크라테스에 나오는 '내가 뽑은' 명장면 중 하나다. 블랙코미디 영화로서 상징적인 장면이기도 하면서 김래원이 연기한 구동혁 형사의 존재를 나타내는 장면이기도 하다. '주변인' 구동혁은 깡패이자 경찰이다. 그가 경찰이 되고자 한 이유는 누군가를 팰 수 있는 '면허', 즉 자유와 권한을 갖기 위해서였지만, 그는 철저하게 조직의 명령에 따라 사람을 죽이고 자해를 해야 하는 모순적인 존재다. 그러면서 그는 자신의 존재에 대해 생각하고, 악순환의 고리에서 빠져나오기 위해 자신의 몸을 던진다. 이렇게 그가 자신의 삶을 혁신할 수 있었던 건 주변인으로서 사고하고 그의 모순을 해결하기 위해 과감히 리스크를 감당하며 주변 사람들의 힘.. 2023. 8. 31.
행동 데이터 분석 p.11 필자는 데이터 과학자 채용 면접관으로 활동하면서 정교한 머신러닝 알고리즘을 다룰 줄 알지만 데이터에 대한 감각은 부족한 지원자를 많이 보았습니다. 이러한 지원자는 알고리즘이 알려주는 사실을 제외하고는 데이터를 거의 이해하지 못했습니다. p.13 이 책은 t-검정이나 ANOVA와 같은 기존의 행동 데이터 분석 방법론을 소개하는 책이 아닙니다. 필자는 비즈니스 문제를 풀면서 회귀 분석이 이러한 전통적인 방법보다 효과가 덜하다고 느낀 적이 없습니다. 이러한 이유로 이 책의 분석 방법을 선형 회귀와 로지스틱 회귀로 한정한 것입니다. p.32~33 기술 분석은 가장 간단한 형태의 분석이지만 과소평가해서는 안 됩니다. 많은 조직이 조직의 운영 상태를 명확하고 일관된 관점으로 파악하는 데 어려움을 겪습니다... 2023. 6. 20.
데이터 분석가가 반드시 알아야 할 모든 것 p.7 근대의 통계학은 크게 영국, 독일, 프랑스 세 개의 국가에서 큰 발전을 일으켰다. 영국의 정치산술파 통계학은 창시자 존 그랜트를 따라 패티(W. Petty, 1623~1687)의 인구통계표, 핼리혜성으로 유명한 애드먼드 핼리(Edmond Halley, 1656~1742)의 보험수학과 생명표 등이 탄생했다. 핼리의 생명표는 예를 들어 '20세인 사람이 그 해에 사망할 확률은 100분의 1이고 50세인 사람은 39분의 1이다'라는 식으로 통계적으로 연령에 따른 사망 확률을 예측했다. 독일 대학파 통계학의 창시자인 콘링(H. Conring, 1606~1681)은 국정론을 통해 정치, 경제, 사회, 토지, 인구 등 국가 요소들을 통계적으로 정리하고 국가를 파악하고자 했고 아헨발(Achenwall Gott.. 2023. 2. 4.