사이드 프로젝트로 현대자동차 설명서 RAG를 구현하며,경험을 공유하고 있습니다.1. 현대자동차 챗봇 구현기 - RAG 기본 구현2. 현대자동차 챗봇 구현기 - PDF를 잘 추출해야 하는 이유 문제 : RAG의 평가 데이터셋 구축의 어려움초등학생 때부터 지금 까지, 그리고 앞으로도 우리는 끊임없이 시험을 치르게 됩니다. 시험 기간만 되면 모두들 좋은 성적을 받기 위해 밤낮을 새곤 하죠. 하지만, 여기에는 시험을 치르는 사람보다 어쩌면 더 고통을 받는 분들이 계십니다. 바로 시험 문제 출제자들이죠.지정된 범위 내에서 풀 수 있는가? 중복 정답이 있지는 않은가? 출제 의도가 분명한가? 고려해야 할 요소가 상당히 많습니다. 덕분에 시험기간만 되면 출제자들은 문제 출제에 감금이 되곤 하죠. RAG의 성능을 평가..
Tech/현대자동차 설명서 챗봇
PDF를 잘 읽는 게 중요한 이유 RAG(Recurrent Attention-Gated) 시스템을 구성하기 위해 가장 먼저 해야 할 작업은 문서를 텍스트 형태로 로드하는 작업이에요. 만약 문서의 종류가 Excel이나 Code 파일 같이 정형화된 파일일 경우, 텍스트로 변환하는 과정이 비교적 수월할 수 있습니다. 하지만, PDF 같이 비정형 파일들은 텍스트로 변환할 때 여러 가지 고려사항이 필요합니다. 아래는 PDF 파일을 단순히 텍스트로 변환한 예시예요. 위의 결과를 보면 PDF 내의 텍스트는 잘 불러온 것처럼 보이지만, 글의 단락과 구성이 반영되어 있지 않고 표의 정보도 깨져 있음을 볼 수 있어요. 사람에게 우측과 같이 텍스트만 제공하면, 정보를 제대로 파악하지 못할 가능성이 큽니다. 이는 LLM(..
💡 여러분은 자동차를 사면 설명서를 꼭 읽어보시나요? 대부분의 사람들은 기쁜 마음으로, 동네 드라이브부터 나갈 거라 생각해요. 그도 그럴것이, 새 차를 운전하는 데는 생각보다 설명서의 정보가 필요하지 않거든요. 스마트폰, 에어컨 등 다른 전자기기도 마찬가지 일거에요.그런데 가끔은 기기의 공식 설명서가 필요한 순간들이 꼭 있습니다.예를 들어 차 계기판에 뜬 경고 문자가 무슨 의미인지, 차량의 특정 버튼이 어떤 기능인지 등등이요. 물론 해당 궁금증을 차량 커뮤니티에 올리면 전문가가 답변을 달아놓겠지만, 이 과정이 생각보다 번거롭고 시간이 걸립니다. 그렇다고 아래와 같은 수백 페이지의 공식 설명서를 읽자니.. 한국 사람으로서 벌써부터 치가 떨립니다. 그냥 해당 설명서를 잘 숙지하고 있는 전문가를 주머니 속..