Tech/현대자동차 설명서 챗봇

사이드 프로젝트로 현대자동차 설명서 RAG를 구현하며,경험을 공유하고 있습니다.1. 현대자동차 챗봇 구현기 - RAG 기본 구현2. 현대자동차 챗봇 구현기 - PDF를 잘 추출해야 하는 이유  문제 : RAG의 평가 데이터셋 구축의 어려움초등학생 때부터 지금 까지, 그리고 앞으로도 우리는 끊임없이 시험을 치르게 됩니다. 시험 기간만 되면 모두들 좋은 성적을 받기 위해 밤낮을 새곤 하죠. 하지만, 여기에는 시험을 치르는 사람보다 어쩌면 더 고통을 받는 분들이 계십니다. 바로 시험 문제 출제자들이죠.지정된 범위 내에서 풀 수 있는가? 중복 정답이 있지는 않은가? 출제 의도가 분명한가? 고려해야 할 요소가 상당히 많습니다. 덕분에 시험기간만 되면 출제자들은 문제 출제에 감금이 되곤 하죠. RAG의 성능을 평가..
RAG(Retrieval-Augmented Generation)는 LLM과 검색 기술을 결합하여, 필요한 정보를 검색하고 검색 결과를 기반으로 질문에 답변하는 AI 시스템입니다. 간단한 RAG 시스템을 구현하는 건 그리 어렵지 않습니다. 그러나 프로덕트 수준의 RAG를 개발하거나, RAG의 성능을 끌어내는 일은 상당히 까다롭고 많은 자원이 소모되는 일입니다. 이번 포스팅에선 이러한 RAG 시스템을 효율적으로 구현 및 최적화해 주는 툴인 AutoRAG에 대해서 살펴보겠습니다. 문제 : RAG 최적화의 어려움기본적인 RAG 시스템(또는 Naive RAG)을 구축하는 것은 간단할 수 있지만, 실제 프로덕트 단계에서 요구하는 성능을 가지기 위해선 더 많은 장치들을 필요로 합니다. 예를 들어, 검색 결과의 질을 ..
PDF를 잘 읽는 게 중요한 이유 RAG(Recurrent Attention-Gated) 시스템을 구성하기 위해 가장 먼저 해야 할 작업은 문서를 텍스트 형태로 로드하는 작업이에요. 만약 문서의 종류가 Excel이나 Code 파일 같이 정형화된 파일일 경우, 텍스트로 변환하는 과정이 비교적 수월할 수 있습니다. 하지만, PDF 같이 비정형 파일들은 텍스트로 변환할 때 여러 가지 고려사항이 필요합니다. 아래는 PDF 파일을 단순히 텍스트로 변환한 예시예요.   위의 결과를 보면 PDF 내의 텍스트는 잘 불러온 것처럼 보이지만, 글의 단락과 구성이 반영되어 있지 않고 표의 정보도 깨져 있음을 볼 수 있어요. 사람에게 우측과 같이 텍스트만 제공하면, 정보를 제대로 파악하지 못할 가능성이 큽니다. 이는 LLM(..
💡 여러분은 자동차를 사면 설명서를 꼭 읽어보시나요? 대부분의 사람들은 기쁜 마음으로, 동네 드라이브부터 나갈 거라 생각해요. 그도 그럴것이, 새 차를 운전하는 데는 생각보다 설명서의 정보가 필요하지 않거든요. 스마트폰, 에어컨 등 다른 전자기기도 마찬가지 일거에요.그런데 가끔은 기기의 공식 설명서가 필요한 순간들이 꼭 있습니다.예를 들어 차 계기판에 뜬 경고 문자가 무슨 의미인지, 차량의 특정 버튼이 어떤 기능인지 등등이요. 물론 해당 궁금증을 차량 커뮤니티에 올리면 전문가가 답변을 달아놓겠지만, 이 과정이 생각보다 번거롭고 시간이 걸립니다. 그렇다고 아래와 같은 수백 페이지의 공식 설명서를 읽자니.. 한국 사람으로서 벌써부터 치가 떨립니다.  그냥 해당 설명서를 잘 숙지하고 있는 전문가를 주머니 속..
wjdrbs51
'Tech/현대자동차 설명서 챗봇' 카테고리의 글 목록