본문 바로가기

Growth147

메이저리그 야구 통계학 p.19~20 내셔널리그 투수들은 타서거에 들어서지만, 지명타자가 있는 아메리칸리그 투수들은 타석에 서지 않는다. 연구에 따르면 이러한 시스템의 차이는 아메리칸리그 투수들이 타자 몸 쪽으로 공을 붙이거나 위협구를 던지는 데 있어서 내셔널리그 투수들보다 느끼는 부담감이 적어, 자신 있게 몸 쪽 공을 뿌리는 투수들 때문에 아메리칸리그 타자들이 내셔널리그 타자들에 비해 볼에 더 맞는다고 한다. 가설을 테스트하기 위해 어떤 변수가 필요한가? 타자들이 시즌별로 얼마나 많은 볼에 맞았는지 보여주는 변수 하나만으로 리그별 비교가 가능한가? 그렇지 않다. 타자들의 소속 리그를 구분하는 변수가 있어야만, 몸에 맞는 볼이 어떤 리그의 소속의 선수에게서 발생했는지 구분하고 리그 간 비교를 할 수 있다. 그리고 빅데이터처럼 .. 2024. 1. 10.
Behavioral Data Analysis with R and Python p.xii we’ll spend a lot of time learning to make sense of data. In my role as a data science interviewer, I have seen many candidates who can use sophisticated machine learning algorithms but haven’t developed a strong sense for data: they have little intuition for what’s going on in their data apart from what their algorithms tell them. p.xiii If you’re in academia or a field that requires you .. 2024. 1. 8.
실전에서 바로 쓰는 시계열 처리와 분석 p.3 https://www.mckinsey.com/~/media/mckinsey/featured%20insights/artificial%20intelligence/notes%20from%20the%20ai%20frontier%20applications%20and%20value%20of%20deep%20learning/notes-from-the-ai-frontier-insights-from-hundreds-of-use-cases-discussion-paper.ashx 일반적으로 시계열 데이터를 위한 예측 모델은 지도 학습, 비지도 학습, 강화 학습의 범주에 포함시키지 않지만, Azure, AWS, H2O와 같은 머신러닝 플랫폼에서는 대부분 시계열 분석을 위한 알고리즘을 포함하고 있고, 컨설팅 회사 맥킨지.. 2023. 12. 9.
데이터 과학을 위한 통계 p.19 1962년 존 투키는 [The Future of Data Analysis]라는 대표 논문에서 통계학의 개혁을 요구했다. 그는 통계적 추론을 하나의 구성 요소로 보는 데이터 분석(data analysis)이라는 새로운 과학적 학문을 제안했다. 투키는 통계를 공학과 컴퓨터 과학 분야에 접목하기 위해 끊임없이 노력했다 (그는 이진수를 뜻하는 '비트'라든가 '소프트웨어' 같은 용어를 만들기도 했다). 그리고 이런 그의 오랜 신념은 아직까지 이어져, 데이터 과학의 한 토대가 되었다. 탐색적 데이터 분석이란 분야는, 이미 고전이 된 투키의 1977년 책 [Exploratory Data Analysis](Pearson, 1977)를 통해 정립되었다. 투키는 요약통계량(summary statistics - 평.. 2023. 10. 21.
사례분석으로 배우는 데이터 시각화 p.68~74 막대차트 1. 막대 차트는 트렌드 파악할 때 유용합니다. 2. 수직 막대 차트는 순위 비교시 유용합니다. 3. 수평 막대 차트는 달성도를 확인할 때 유용합니다. 4. 항목이 많다면 수평 막대 차트를 사용합시다! 5. 순위를 강조하고 싶다면 오름(내림)차순으로 정렬합시다! 6. 항목을 구분해야 한다면 색상을 사용합시다! p.78 서울 지하철 호선별 - 역별 승하차 인원 정보 데이터로 떠올려 볼 수 있는 질문 - 서울 지하철의 총 승객수는 호선에 따라 어떤 차이가 있는가? - 서울 지하철의 총 승객수는 역에 따라 어떤 변화를 보이는가? - 총 승객수가 가장 많은 역은 어디인가? - 12월 내 사용일자에 따른 총 승객수의 트렌드는 어떻게 변했는가? - 12월 내 총 승객수가 가장 높았던 날은 언.. 2023. 10. 19.
A/B 테스트 - 신뢰할 수 있는 온라인 종합 대조 실험 https://link.coupang.com/a/bcwWNQ A/B 테스트 COUPANG www.coupang.com p.15 숫자를 얻는 것은 쉽다. 하지만 믿을 수 있는 숫자를 얻는 것은 어렵다. p.16 AB 테스트의 기능 중 가장 중요한 것은 한꺼번에 모든 것을 테스트하는 것이 아니라 조금씩 테스트하는 것이다. 통제된 상황에서 이를 실행하는데, 이는 온라인상의 통제이므로 실제 상황을 반영하는 통제이다. 따라서 연관분석(예를 들어 장바구니 분석)에서와 같이 상관관계를 발견하는 것을 넘어서 원인과 결과를 밝히는 설명력이 가능한 인과성을 발견하고자 하는 것이 주도니 목적이다. (그래서 그 테스트 대상은 작은 무엇인가가 될 것이다.) 이러한 발견은 보다 설명력이 있기 때문에 테스트의 승자가 상품 또는 서.. 2023. 10. 13.