본문 바로가기

데이터과학4

데이터 과학을 위한 통계 p.19 1962년 존 투키는 [The Future of Data Analysis]라는 대표 논문에서 통계학의 개혁을 요구했다. 그는 통계적 추론을 하나의 구성 요소로 보는 데이터 분석(data analysis)이라는 새로운 과학적 학문을 제안했다. 투키는 통계를 공학과 컴퓨터 과학 분야에 접목하기 위해 끊임없이 노력했다 (그는 이진수를 뜻하는 '비트'라든가 '소프트웨어' 같은 용어를 만들기도 했다). 그리고 이런 그의 오랜 신념은 아직까지 이어져, 데이터 과학의 한 토대가 되었다. 탐색적 데이터 분석이란 분야는, 이미 고전이 된 투키의 1977년 책 [Exploratory Data Analysis](Pearson, 1977)를 통해 정립되었다. 투키는 요약통계량(summary statistics - 평.. 2023. 10. 21.
사회과학자를 위한 데이터과학 이제 책을 시작하지만... 서평의 프롤로그를 적을 수밖에 없다. 영원히 고통받는 케네스 로고프 교수... 노벨 경제학상 수상한 하버드 교수인 만큼 두고두고 (역사책에 기록될지도 모르겠다) 고통받으실거 같다. 밑줄긋기 p.14 레인하트와 로고프의 엑셀 조작 실수는 자료분석 환경의 변화에 제대로 적응하지 못한 연구자에게는 항존하는 위험이다. 만약 자료분석이 아래와 같은 루틴에서 벗어나지 않는 연구자라면 누구나 레인하트와 로고프가 범한 실수로부터 자유로울 수 없다고 봐야 한다. 오류 가능성이 높은 자료분석 루틴 1. 인터넷을 검색해서 자료를 다운로드한다. 2. 여러가지 자료를 엑셀 스프레드 시트 형식으로 모두 지정한 뒤 복사 - 붙여넣기로 하나의 시트에 모은다. 3. 엑셀의 함수 기능을 이용하여 자료 전처리를.. 2023. 9. 25.
좋은 교과서 - 데이터과학자를 위한 실전 머신러닝 이 서평은 출판사의 지원을 받아 작성하였습니다. 결론부터 말하겠다. 좋은 책이다. 이유는 뭐냐? 어려워서다. 어려워서 좋은 책이라니 무슨 말인가. 비유하자면 이런거다. 맵지만 맛없는 음식이 있고 매운데 맛있는 음식이 있다. 이 책은 매운데 맛있는 그런 음식과 같다. 맵지만 맛없는 음식의 대표적인 예는 번역을 이상하게 하는 경우다. 쉬운 책이든 어려운 책이든 번역을 이상하게 하면 가독성이 안좋아지고 어려워진다. 이 책은 그와 반대로 국내 저자가 썼기 때문에 그런 번역 문제에서 자유롭다. 그리고 다루는 주제를 보면 일반적으로 머신러닝 서적에서 자주 다루는 내용을 다루고 있다. (당연한 이야기이긴 하다. 모든 분야가 그렇겠지만 일반적으로 머신러닝 서적에서 자주 다루는 내용을 실무에서 사용하지, 그렇지 않은 내.. 2023. 8. 23.
데이터 과학자의 사고법 https://link.coupang.com/a/kC0Fr [김영사]데이터 과학자의 사고법 : 더 나은 선택을 위한 통계학적 통찰의 힘 COUPANG www.coupang.com p.24~25 2008년 금융위기의 원인을 좀 더 구체적으로 파악해보도록 합시다. 첫 번째 원인은 저소득층 사람의 신용을 너무 높게 평가한 것입니다. 이유는 단순하게도 저소득층의 신용을 평가할 데이터가 부족했기 때문입니다. 저소득층은 금융회사에서 대출을 거의 받지 못하기 때문에 부도를 낼 수도 없습니다. 저소득층이 대출을 받은 경우에는 보통 특별한 사연이 있습니다. 이를테면 소득은 낮지만 아버지가 부자여서 대출이 가능한 경우를 생각할 수 있습니다. 이럴 경우 금융회사의 데이터에 있는 저소득자는 모두 아버지가 부자일 것입니다. 그.. 2022. 3. 9.