p.261
ChatGPT API의 GPT-3.5-turbo 모델은 입력으로 사용하는 텍스트와 ChatGPT API가 반환하는 답변의 길이를 모두 포함하여 최대 4,096 토큰을 처리할 수 있습니다. 예를 들어 ChatGPT API 입력으로 약 3,000토큰 정도의 길이를 가진 입력을 사용하면 ChatGPT는 최대 약 1,000토큰의 답변을 할 수 있는 구조입니다. 입력의 길이가 4,096의 길이에 인접한 입력을 사용하면 ChatGPT API가 답변을 하던 도중 4,096개의 토큰을 모두 소진하면 더 이상 답변을 생성할 수 없어 텍스트가 중간에 끊길 수 있습니다. 또한 입력의 길이가 4,096을 넘으면 ChatGPT의 입력으로 사용할 수 없다는 에러가 발생합니다.
이런 현상 때문에 너무 긴 문서들은 한 번에 입력으로 사용할 수 없으므로 여러 개의 뭉치(Chunk)로 자른 후 ChatGPT API를 여러 번 호출하여 처리해야 합니다. 랭체인의 RecursiveCharacterTextSplitter() 함수는 이를 위해 사용하는 도구로, 주어진 문서를 더 작은 단위의 텍스트 뭉치(chunk)로 잘라주는 역할을 합니다.
'CS > MachineLearning' 카테고리의 다른 글
머신러닝 파워드 애플리케이션 (0) | 2023.10.16 |
---|---|
케글 메달리스트가 알려주는 캐글 노하우 (0) | 2023.10.14 |
인공지능 소프트웨어 품질 보증을 위한 테스트 기법 (0) | 2023.08.30 |
좋은 교과서 - 데이터과학자를 위한 실전 머신러닝 (0) | 2023.08.23 |
101가지 문제로 배우는 딥러닝 허깅페이스 트랜스포머 with 파이토치 (0) | 2023.08.22 |
댓글