본문 바로가기

CS155

데이터 품질의 비밀 p.24~25 '데이터 다운타임 - data downtime'은 데이터가 수집되지 않아 누락되거나 부정확하게 측정되는 등의 데이터 손실로 인해 소프트웨어 또는 서비스의 가동이 중지되는 상황을 의미한다. 이는 혁신적인 테크 기업이나 데이터가 중심인 기업에서도 발생할 수 있는 이슈로 데이터를 다루는 기업들이 직면할 수 있는 큰 문제 중 하나다. 대시보드에 잘못된 데이터를 표시하여 잘못된 의사결정을 내릴 수 있기 때문이다. 다시 말해 데이터 다운타임은 신뢰할 수 없는 데이터가 너무 많을 때 일어난다. 데이터 다운타임은 기업에 대한 고객의 신뢰도에 부정적인 영향을 끼칠 뿐 아니라 기업이 연간 수백만 달러 이상의 비용을 지출하는 데 직접적인 영향을 미치기도 한다. 기업용 데이터베이스 업체인 줌인포에 따르면, 20.. 2023. 10. 28.
파이썬 코드로 배우는 Git GitHub p.76 -a는 --all 옵션과 동일한 기능을 하며, 수정하거나 삭제된 파일에 대한 스테이징을 자동으로 진행하는 옵션입니다. 단 untracked 파일에는 적용이 되지 않으므로 주의해야 합니다. p.79 git status -s의 표시 문자 별 파일의 상태 ?? : Untracked M : Modified MM : 파일이 스테이징된 후, 다시 Modified A : 경로가 스테이징된 후, 경로 내에 Untracked 파일 발생 p.81~ -p 또는 --patch 옵션은 각 로그의 상세 정보를 출력합니다. git log -p 여기에 -1 옵션을 추가해서 가장 최근 커밋만 상세 정보를 출력해 봅니다. git log -p -1 --pretty=oneline 옵션을 사용하면 커밋이 한 줄로 정리되어 출력됩니다.. 2023. 10. 22.
기초부터 탄탄히 - 만들면서 배우는 생성AI 만들면서 배우는 생성AI라고 하면 뭔가 생성모델 쪽 라이브러리를 가지고 실습만 하는 책으로 생각할 수 있겠지만 그렇지 않다. 이 책은 매우 기초적인 내용부터 하나하나 다루고 실무적인 팁까지 다루는 책이다. 패딩이 무엇인지, 임베딩이란 무엇인지 기초개념까지 저자가 그리고 역자가 하나하나 가르쳐주면서 이끌어가는 책이다. 사실 처음 AI를 접했을 때 임베딩이라는 단어를 많이 접했고 대충 느낌적인 느낌(?!)으로 임베딩이 뭐겠다 라고 알고는 있었지만, 임베딩이 무엇인지와 같이 기초를 잡고 가지 않아서 나중에 헷갈릴 때가 많았다. 그러니 아무리 활용 위주로 AI를 사용한다고 하더라도 기초적인 용어나 개념같은 건 이런 책을 통해 배우고 가면 좋을 거라고 생각한다. 책이 기초부터 다루고 있긴 하지만 쉬운 책은 아니다.. 2023. 10. 18.
머신러닝 파워드 애플리케이션 https://link.coupang.com/a/bcHhWd 머신러닝 파워드 애플리케이션:아이디어에서부터완성된제품까지강력한머신러닝애플리케이션 COUPANG www.coupang.com p.43~44 모델 한 문장에서 다른 문장으로 매핑하는 모델은 앞서 언급한 생성 모델에 속합니다. 이런 모델은 최근 몇 년간 급격히 발전했습니다. 시퀀스-투-시퀀스(sequence-to-sequence) 모델은 번역 작업을 위해 2014년 개발되어 기계 번역과 사람 번역 사이의 간격을 좁혔습니다. 하지만 이런 모델의 성공은 대부분 문장 수준의 작업에 기반했고, 한 문단보다 긴 텍스트를 처리하는 데 자주 사용되지 않았습니다. 지금까지 한 문단을 다른 언어로 옮길 때, 긴 범위에 걸친 문맥을 감지할 수 없었기 때문입니다. 또한.. 2023. 10. 16.
케글 메달리스트가 알려주는 캐글 노하우 https://link.coupang.com/a/bcwWoT 캐글 메달리스트가 알려주는 캐글 노하우 COUPANG www.coupang.com 여러 명의 저자가 공동 집필하고 각자 파트별로 집필한 만큼, 중복되는 내용도 가끔씩 나온다. 밑줄긋기 p.34 Code Competition은 Simple Competition가 비교했을 때 몇 가지 장점이 있습니다. 첫째, 점수 계산에 사용될 테스트 셋을 참가자에게 공개하지 않고 컴페티션을 진행할 수 있습니다. 정답 파일을 만들기 위해서는 테스트 셋에 대한 예측이 필요하기 때문에 일반적으로는 정답을 제이한 테스트 셋을 참가자들에게 공개합니다. 다만, 이 과정에서 테스트 셋의 정보를 모델 생성에 활용하거나 테스트 셋의 분포를 미리 파악해 테스트 셋에 적합한 솔루션.. 2023. 10. 14.
진짜챗GPT API 활용법 p.261 ChatGPT API의 GPT-3.5-turbo 모델은 입력으로 사용하는 텍스트와 ChatGPT API가 반환하는 답변의 길이를 모두 포함하여 최대 4,096 토큰을 처리할 수 있습니다. 예를 들어 ChatGPT API 입력으로 약 3,000토큰 정도의 길이를 가진 입력을 사용하면 ChatGPT는 최대 약 1,000토큰의 답변을 할 수 있는 구조입니다. 입력의 길이가 4,096의 길이에 인접한 입력을 사용하면 ChatGPT API가 답변을 하던 도중 4,096개의 토큰을 모두 소진하면 더 이상 답변을 생성할 수 없어 텍스트가 중간에 끊길 수 있습니다. 또한 입력의 길이가 4,096을 넘으면 ChatGPT의 입력으로 사용할 수 없다는 에러가 발생합니다. 이런 현상 때문에 너무 긴 문서들은 한 번.. 2023. 9. 18.