본문 바로가기

Growth/통계46

실전에서 바로 쓰는 시계열 처리와 분석 p.3 https://www.mckinsey.com/~/media/mckinsey/featured%20insights/artificial%20intelligence/notes%20from%20the%20ai%20frontier%20applications%20and%20value%20of%20deep%20learning/notes-from-the-ai-frontier-insights-from-hundreds-of-use-cases-discussion-paper.ashx 일반적으로 시계열 데이터를 위한 예측 모델은 지도 학습, 비지도 학습, 강화 학습의 범주에 포함시키지 않지만, Azure, AWS, H2O와 같은 머신러닝 플랫폼에서는 대부분 시계열 분석을 위한 알고리즘을 포함하고 있고, 컨설팅 회사 맥킨지.. 2023. 12. 9.
데이터 과학을 위한 통계 p.19 1962년 존 투키는 [The Future of Data Analysis]라는 대표 논문에서 통계학의 개혁을 요구했다. 그는 통계적 추론을 하나의 구성 요소로 보는 데이터 분석(data analysis)이라는 새로운 과학적 학문을 제안했다. 투키는 통계를 공학과 컴퓨터 과학 분야에 접목하기 위해 끊임없이 노력했다 (그는 이진수를 뜻하는 '비트'라든가 '소프트웨어' 같은 용어를 만들기도 했다). 그리고 이런 그의 오랜 신념은 아직까지 이어져, 데이터 과학의 한 토대가 되었다. 탐색적 데이터 분석이란 분야는, 이미 고전이 된 투키의 1977년 책 [Exploratory Data Analysis](Pearson, 1977)를 통해 정립되었다. 투키는 요약통계량(summary statistics - 평.. 2023. 10. 21.
사례분석으로 배우는 데이터 시각화 p.68~74 막대차트 1. 막대 차트는 트렌드 파악할 때 유용합니다. 2. 수직 막대 차트는 순위 비교시 유용합니다. 3. 수평 막대 차트는 달성도를 확인할 때 유용합니다. 4. 항목이 많다면 수평 막대 차트를 사용합시다! 5. 순위를 강조하고 싶다면 오름(내림)차순으로 정렬합시다! 6. 항목을 구분해야 한다면 색상을 사용합시다! p.78 서울 지하철 호선별 - 역별 승하차 인원 정보 데이터로 떠올려 볼 수 있는 질문 - 서울 지하철의 총 승객수는 호선에 따라 어떤 차이가 있는가? - 서울 지하철의 총 승객수는 역에 따라 어떤 변화를 보이는가? - 총 승객수가 가장 많은 역은 어디인가? - 12월 내 사용일자에 따른 총 승객수의 트렌드는 어떻게 변했는가? - 12월 내 총 승객수가 가장 높았던 날은 언.. 2023. 10. 19.
A/B 테스트 - 신뢰할 수 있는 온라인 종합 대조 실험 https://link.coupang.com/a/bcwWNQ A/B 테스트 COUPANG www.coupang.com p.15 숫자를 얻는 것은 쉽다. 하지만 믿을 수 있는 숫자를 얻는 것은 어렵다. p.16 AB 테스트의 기능 중 가장 중요한 것은 한꺼번에 모든 것을 테스트하는 것이 아니라 조금씩 테스트하는 것이다. 통제된 상황에서 이를 실행하는데, 이는 온라인상의 통제이므로 실제 상황을 반영하는 통제이다. 따라서 연관분석(예를 들어 장바구니 분석)에서와 같이 상관관계를 발견하는 것을 넘어서 원인과 결과를 밝히는 설명력이 가능한 인과성을 발견하고자 하는 것이 주도니 목적이다. (그래서 그 테스트 대상은 작은 무엇인가가 될 것이다.) 이러한 발견은 보다 설명력이 있기 때문에 테스트의 승자가 상품 또는 서.. 2023. 10. 13.
사회과학자를 위한 데이터과학 이제 책을 시작하지만... 서평의 프롤로그를 적을 수밖에 없다. 영원히 고통받는 케네스 로고프 교수... 노벨 경제학상 수상한 하버드 교수인 만큼 두고두고 (역사책에 기록될지도 모르겠다) 고통받으실거 같다. 밑줄긋기 p.14 레인하트와 로고프의 엑셀 조작 실수는 자료분석 환경의 변화에 제대로 적응하지 못한 연구자에게는 항존하는 위험이다. 만약 자료분석이 아래와 같은 루틴에서 벗어나지 않는 연구자라면 누구나 레인하트와 로고프가 범한 실수로부터 자유로울 수 없다고 봐야 한다. 오류 가능성이 높은 자료분석 루틴 1. 인터넷을 검색해서 자료를 다운로드한다. 2. 여러가지 자료를 엑셀 스프레드 시트 형식으로 모두 지정한 뒤 복사 - 붙여넣기로 하나의 시트에 모은다. 3. 엑셀의 함수 기능을 이용하여 자료 전처리를.. 2023. 9. 25.
불멸의 이론 p.5 "사실이 바뀌면 나는 내 의견을 바꿉니다. 당신은 어떻습니까?" - 존 메이너드 케인스 p.8~9 겉으로만 보자면 베이즈 정리는 딱 한 줄로 적을 수 있을 만큼 단순하기 짝이 없다. 어떤 대상에 대해서 가지고 있던 초기의 믿음을 객관적이고도 새로운 정보로 어버데이트할 때 보다 개선된 새로운 믿음을 확보할 수 있다는 게 그 내용이다. 베이즈 정리의 지지자들에게 이것은 경험을 통한 학습에 대한 하나의 우아한 진술이다. 여러 세대에 걸쳐서 이 정리가 가진 내면 논리의 마법에 빠진 사람들은 종교적인 체험과도 같은 어떤 경험을 했다. 하지만 베이즈 정리를 믿지 않는 사람들에게 이것은 그저 터무니없는 '내 마음대로'의 주관적인 규칙일 뿐이었다. 베이즈 정리는 1740년대 영국에서, '우리 주변 세상의 증거에.. 2023. 8. 19.