본문 바로가기

CS157

데이터 드리븐 리포트 밑줄긋기 p.27 파는 것이 인간이다(To sell is Human) - 다니엘 핑크 p.36 엄청난 주장에는 엄청난 근거가 필요하다 - 칼 세이건 p.48 "통계로 거짓말하기는 쉬워도, 통계 없이 진실을 말하기는 어렵다." - 안드레예스 둥켈스 p.54~55 사내 데이터 분석 관련 보고서를 작성하는 동료 혹은 상사로부터 가끔씩 이런 메시지를 받을 때가 있다. "예전에 썼던 분석 보고서 포맷 좀 보내줘." "데이터는 있는데 어떻게 분석해야 할지 모르겠다. 분석 좀 해줘." "예쁜 그래프를 그리려면 어떻게 해야 하지?" 이런 연락에는 대부분 다음과 같은 질문만 역으로 던져도 한동안 정적이 흐르며 그들이 본질적인 고민을 하도록 돕는다. "분석 보고서의 목표(목적)가 무엇인가요? 증명하고자 하는 가설이 존재하.. 2023. 11. 15.
알고리즘 인사이드 with 파이썬 p.43 두 인스턴스가 지닌 좌표의 거리를 계산하여 출력하면 다음과 같습니다. origin = Coordinate() target = Coordinate(10, 10) dist = origin.calc_distance(target) print(dist) 이외에 클래스에 메서드의 접근 제어를 private으로 선언하려면 메서드 이름 앞에 _를 2개 붙이면 됩니다. def __reset(self): self.x = 0 __ 를 앞에 붙인 메서드는 private으로 선언되기 때문에 다음과 같이 호출할 수 없습니다. 따라서 다음과 같은 예외가 발생합니다. origin.__reset() Traceback (most recent call last): File "...coordinate.py", line 35, in.. 2023. 11. 8.
데이터 품질의 비밀 p.24~25 '데이터 다운타임 - data downtime'은 데이터가 수집되지 않아 누락되거나 부정확하게 측정되는 등의 데이터 손실로 인해 소프트웨어 또는 서비스의 가동이 중지되는 상황을 의미한다. 이는 혁신적인 테크 기업이나 데이터가 중심인 기업에서도 발생할 수 있는 이슈로 데이터를 다루는 기업들이 직면할 수 있는 큰 문제 중 하나다. 대시보드에 잘못된 데이터를 표시하여 잘못된 의사결정을 내릴 수 있기 때문이다. 다시 말해 데이터 다운타임은 신뢰할 수 없는 데이터가 너무 많을 때 일어난다. 데이터 다운타임은 기업에 대한 고객의 신뢰도에 부정적인 영향을 끼칠 뿐 아니라 기업이 연간 수백만 달러 이상의 비용을 지출하는 데 직접적인 영향을 미치기도 한다. 기업용 데이터베이스 업체인 줌인포에 따르면, 20.. 2023. 10. 28.
파이썬 코드로 배우는 Git GitHub p.76 -a는 --all 옵션과 동일한 기능을 하며, 수정하거나 삭제된 파일에 대한 스테이징을 자동으로 진행하는 옵션입니다. 단 untracked 파일에는 적용이 되지 않으므로 주의해야 합니다. p.79 git status -s의 표시 문자 별 파일의 상태 ?? : Untracked M : Modified MM : 파일이 스테이징된 후, 다시 Modified A : 경로가 스테이징된 후, 경로 내에 Untracked 파일 발생 p.81~ -p 또는 --patch 옵션은 각 로그의 상세 정보를 출력합니다. git log -p 여기에 -1 옵션을 추가해서 가장 최근 커밋만 상세 정보를 출력해 봅니다. git log -p -1 --pretty=oneline 옵션을 사용하면 커밋이 한 줄로 정리되어 출력됩니다.. 2023. 10. 22.
기초부터 탄탄히 - 만들면서 배우는 생성AI 만들면서 배우는 생성AI라고 하면 뭔가 생성모델 쪽 라이브러리를 가지고 실습만 하는 책으로 생각할 수 있겠지만 그렇지 않다. 이 책은 매우 기초적인 내용부터 하나하나 다루고 실무적인 팁까지 다루는 책이다. 패딩이 무엇인지, 임베딩이란 무엇인지 기초개념까지 저자가 그리고 역자가 하나하나 가르쳐주면서 이끌어가는 책이다. 사실 처음 AI를 접했을 때 임베딩이라는 단어를 많이 접했고 대충 느낌적인 느낌(?!)으로 임베딩이 뭐겠다 라고 알고는 있었지만, 임베딩이 무엇인지와 같이 기초를 잡고 가지 않아서 나중에 헷갈릴 때가 많았다. 그러니 아무리 활용 위주로 AI를 사용한다고 하더라도 기초적인 용어나 개념같은 건 이런 책을 통해 배우고 가면 좋을 거라고 생각한다. 책이 기초부터 다루고 있긴 하지만 쉬운 책은 아니다.. 2023. 10. 18.
머신러닝 파워드 애플리케이션 https://link.coupang.com/a/bcHhWd 머신러닝 파워드 애플리케이션:아이디어에서부터완성된제품까지강력한머신러닝애플리케이션 COUPANG www.coupang.com p.43~44 모델 한 문장에서 다른 문장으로 매핑하는 모델은 앞서 언급한 생성 모델에 속합니다. 이런 모델은 최근 몇 년간 급격히 발전했습니다. 시퀀스-투-시퀀스(sequence-to-sequence) 모델은 번역 작업을 위해 2014년 개발되어 기계 번역과 사람 번역 사이의 간격을 좁혔습니다. 하지만 이런 모델의 성공은 대부분 문장 수준의 작업에 기반했고, 한 문단보다 긴 텍스트를 처리하는 데 자주 사용되지 않았습니다. 지금까지 한 문단을 다른 언어로 옮길 때, 긴 범위에 걸친 문맥을 감지할 수 없었기 때문입니다. 또한.. 2023. 10. 16.