Growth148 데이터 스마트 p.40 파이 차트의 유혹에 넘어가지 않기를 바란다. 특히 엑셀이 제공하는 입체 파이 차트는 절대로 이용하지 않기를 바란다. 그렇지 않으면 내가 죽어 귀신이 되면 여러분을 해칠지도 모른다. 그것들은 매우 흉측해서 데이터를 잘 표현해 주지 않는다. 그리고 입체 효과는 내가 다니는 치과 병원의 벽에 있는 조개 그림보다도 못하다. p.68 k-평균 군집화의 목적은 공간상의 어느 점들을 선택하고, 그것들을 k개의 그룹으로 나누는 것이다(몇 개의 k군으로 나눌지는 선택할 수 있다). k개의 그룹은 달에 어떤 깃발을 고정시켜 놓고 "여기가 내 그룹의 중심이야. 이 깃발에 가깝다고 생각하면 내 곁으로 와."하고 말하는 것처럼 그 중심점으로 정의된다. 이런 그룹의 중심점(군집 중심점이라 한다)에서 k-평균이라는 이름이.. 2024. 2. 4. 메이저리그 야구 통계학 p.19~20 내셔널리그 투수들은 타서거에 들어서지만, 지명타자가 있는 아메리칸리그 투수들은 타석에 서지 않는다. 연구에 따르면 이러한 시스템의 차이는 아메리칸리그 투수들이 타자 몸 쪽으로 공을 붙이거나 위협구를 던지는 데 있어서 내셔널리그 투수들보다 느끼는 부담감이 적어, 자신 있게 몸 쪽 공을 뿌리는 투수들 때문에 아메리칸리그 타자들이 내셔널리그 타자들에 비해 볼에 더 맞는다고 한다. 가설을 테스트하기 위해 어떤 변수가 필요한가? 타자들이 시즌별로 얼마나 많은 볼에 맞았는지 보여주는 변수 하나만으로 리그별 비교가 가능한가? 그렇지 않다. 타자들의 소속 리그를 구분하는 변수가 있어야만, 몸에 맞는 볼이 어떤 리그의 소속의 선수에게서 발생했는지 구분하고 리그 간 비교를 할 수 있다. 그리고 빅데이터처럼 .. 2024. 1. 10. Behavioral Data Analysis with R and Python p.xii we’ll spend a lot of time learning to make sense of data. In my role as a data science interviewer, I have seen many candidates who can use sophisticated machine learning algorithms but haven’t developed a strong sense for data: they have little intuition for what’s going on in their data apart from what their algorithms tell them. p.xiii If you’re in academia or a field that requires you .. 2024. 1. 8. 실전에서 바로 쓰는 시계열 처리와 분석 p.3 https://www.mckinsey.com/~/media/mckinsey/featured%20insights/artificial%20intelligence/notes%20from%20the%20ai%20frontier%20applications%20and%20value%20of%20deep%20learning/notes-from-the-ai-frontier-insights-from-hundreds-of-use-cases-discussion-paper.ashx 일반적으로 시계열 데이터를 위한 예측 모델은 지도 학습, 비지도 학습, 강화 학습의 범주에 포함시키지 않지만, Azure, AWS, H2O와 같은 머신러닝 플랫폼에서는 대부분 시계열 분석을 위한 알고리즘을 포함하고 있고, 컨설팅 회사 맥킨지.. 2023. 12. 9. 데이터 과학을 위한 통계 p.19 1962년 존 투키는 [The Future of Data Analysis]라는 대표 논문에서 통계학의 개혁을 요구했다. 그는 통계적 추론을 하나의 구성 요소로 보는 데이터 분석(data analysis)이라는 새로운 과학적 학문을 제안했다. 투키는 통계를 공학과 컴퓨터 과학 분야에 접목하기 위해 끊임없이 노력했다 (그는 이진수를 뜻하는 '비트'라든가 '소프트웨어' 같은 용어를 만들기도 했다). 그리고 이런 그의 오랜 신념은 아직까지 이어져, 데이터 과학의 한 토대가 되었다. 탐색적 데이터 분석이란 분야는, 이미 고전이 된 투키의 1977년 책 [Exploratory Data Analysis](Pearson, 1977)를 통해 정립되었다. 투키는 요약통계량(summary statistics - 평.. 2023. 10. 21. 사례분석으로 배우는 데이터 시각화 p.68~74 막대차트 1. 막대 차트는 트렌드 파악할 때 유용합니다. 2. 수직 막대 차트는 순위 비교시 유용합니다. 3. 수평 막대 차트는 달성도를 확인할 때 유용합니다. 4. 항목이 많다면 수평 막대 차트를 사용합시다! 5. 순위를 강조하고 싶다면 오름(내림)차순으로 정렬합시다! 6. 항목을 구분해야 한다면 색상을 사용합시다! p.78 서울 지하철 호선별 - 역별 승하차 인원 정보 데이터로 떠올려 볼 수 있는 질문 - 서울 지하철의 총 승객수는 호선에 따라 어떤 차이가 있는가? - 서울 지하철의 총 승객수는 역에 따라 어떤 변화를 보이는가? - 총 승객수가 가장 많은 역은 어디인가? - 12월 내 사용일자에 따른 총 승객수의 트렌드는 어떻게 변했는가? - 12월 내 총 승객수가 가장 높았던 날은 언.. 2023. 10. 19. 이전 1 2 3 4 5 ··· 25 다음