RAG in Action: 초보자를 위한 로컬 PDF 챗봇 만들기 튜토리얼

728x90

최근 몇 년간 자연어 처리(NLP) 기술의 발전은 챗봇이라는 새로운 형태의 정보 접근 방식을 가능하게 했습니다.

특히, RAG(Retrieval-Augmented Generation) 모델은 챗봇의 성능을 획기적으로 향상시키며, 특정 문서나 데이터셋에 대한 질문에 더욱 정확하고 관련성 높은 답변을 제공할 수 있도록 돕습니다.

이번 글에서는 RAG 모델을 활용하여, 로컬 환경에서 PDF 파일을 기반으로 작동하는 나만의 챗봇을 만드는 과정을 초보자도 쉽게 따라할 수 있도록 상세하게 안내합니다. 복잡한 클라우드 환경 설정 없이, 개인 컴퓨터에서 자유롭게 챗봇을 구축하고 실험하며 RAG 기술의 강력함을 경험해 보세요!

RAG란 무엇일까요?

RAG 모델은 정보를 검색하는 단계와 답변을 생성하는 단계를 결합한 아키텍처입니다.

검색(Retrieval): 사용자의 질문과 관련된 정보를 데이터베이스 (이번 글에서는 PDF 파일)에서 검색합니다. 이 과정에서는 텍스트 임베딩, 유사도 검색과 같은 기술이 사용됩니다.
생성(Generation): 검색된 정보를 바탕으로, 사용자의 질문에 대한 답변을 생성합니다. 일반적으로 대규모 언어 모델(LLM)이 사용되며, 검색된 정보를 컨텍스트로 활용하여 더욱 정확하고 자연스러운 답변을 생성합니다.

왜 로컬 PDF 챗봇을 만들어야 할까요?

개인 정보 보호: 민감한 정보가 포함된 PDF 문서를 클라우드에 업로드하지 않고 로컬 환경에서 안전하게 처리할 수 있습니다.
오프라인 사용: 인터넷 연결 없이도 챗봇을 사용할 수 있습니다.
맞춤형 구축: 특정 요구사항에 맞춰 챗봇을 자유롭게 커스터마이징할 수 있습니다.
학습 및 실험: RAG 모델의 작동 방식과 NLP 기술을 직접 경험하고 학습할 수 있습니다.

필요한 준비물

Python: 3.7 이상 버전
Python 패키지: (설치 명령어는 아래에서 자세히 설명합니다.)
- langchain: RAG 모델 구축을 위한 프레임워크
- PyPDF2: PDF 파일 처리 라이브러리
- faiss-cpu: 유사도 검색 라이브러리 (빠른 검색을 위해 GPU 버전도 가능)
- sentence-transformers: 텍스트 임베딩 모델
- transformers: Hugging Face의 트랜스포머 모델 사용을 위한 라이브러리

구축 과정 (단계별 설명)

1. 개발 환경 설정:

pip install langchain PyPDF2 faiss-cpu sentence-transformers transformers

위 명령어를 터미널에 입력하여 필요한 파이썬 패키지를 설치합니다.

2. PDF 데이터 불러오기 및 텍스트 추출:

from PyPDF2 import PdfReader

def load_pdf(file_path):
reader = PdfReader(file_path)
text = ""
for page in reader.pages:
text += page.extract_text()
return text

pdf_text = load_pdf("your_pdf_file.pdf") # PDF 파일 경로를 입력하세요.

PyPDF2 라이브러리를 사용하여 PDF 파일에서 텍스트를 추출합니다. your_pdf_file.pdf 부분을 실제 PDF 파일 경로로 변경해야 합니다.

3. 텍스트 청크 분할:

긴 텍스트를 작은 청크로 분할해야 LLM이 정보를 더 효율적으로 처리할 수 있습니다.

from langchain.text_splitter import CharacterTextSplitter

text_splitter = CharacterTextSplitter(
separator="\n",
chunk_size=1000,
chunk_overlap=200,
length_function=len
)
chunks = text_splitter.split_text(pdf_text)

langchain의 CharacterTextSplitter를 사용하여 텍스트를 청크로 나눕니다.

chunk_size와 chunk_overlap은 필요에 따라 조정할 수 있습니다.

4. 텍스트 임베딩 생성:

각 청크를 벡터 형태로 변환 (임베딩)하여 의미적으로 유사한 청크를 검색할 수 있도록 합니다.

from langchain.embeddings import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings(model_name="all-mpnet-base-v2")

vectors = embeddings.embed_documents(chunks)

sentence-transformers 라이브러리의 all-mpnet-base-v2 모델을 사용하여 텍스트 임베딩을 생성합니다. 다른 임베딩 모델을 사용할 수도 있습니다.

5. 벡터 데이터베이스 구축:

생성된 임베딩을 벡터 데이터베이스에 저장하여 효율적인 검색을 가능하게 합니다.

import faiss
import numpy as np

dimension = len(vectors[0])
index = faiss.IndexFlatL2(dimension) # L2 거리 기반 인덱스 사용
index.add(np.array(vectors).astype(np.float32))

faiss 라이브러리를 사용하여 벡터 데이터베이스를 구축합니다. IndexFlatL2는 L2 거리 기반의 인덱스이며, 다른 인덱스 유형을 사용할 수도 있습니다.

6. 질문 응답 시스템 구축:

from langchain.chains import RetrievalQA


from langchain.llms import HuggingFaceHub

# Hugging Face API 키를 설정해야 합니다.
# os.environ["HUGGINGFACEHUB_API_TOKEN"] = "YOUR_API_KEY"

llm = HuggingFaceHub(repo_id="google/flan-t5-xxl", model_kwargs={"temperature":0.5, "max_length":512})

qa = RetrievalQA.from_chain_type(
llm=llm,
chain_type="stuff",
retriever=index.as_retriever(search_kwargs={"k": 3}), # k는 검색 결과 개수
return_source_documents=True
)

def ask_question(query):
result = qa({"query": query})
print("Question:", query)
print("Answer:", result["result"])
print("Source Documents:", result["source_documents"])

# 질문 예시:
ask_question("이 문서는 무엇에 대한 내용인가요?")

langchain의 RetrievalQA를 사용하여 질문 응답 시스템을 구축합니다. chain_type은 정보를 결합하여 답변을 생성하는 방식을 결정하며, 여기서는 가장 기본적인 stuff 방식을 사용했습니다. k는 검색 결과로 사용할 청크의 개수를 의미합니다.

주의: 위 코드에서 HuggingFaceHub를 사용하려면 Hugging Face API 키가 필요합니다. Hugging Face 웹사이트에서 계정을 생성하고 API 키를 발급받아 YOUR_API_KEY 부분에 입력해야 합니다. 만약 로컬 LLM 모델을 사용하고 싶다면, HuggingFaceHub 대신 로컬 모델을 불러오는 코드를 사용해야 합니다. (예: transformers 라이브러리 사용)

추가 개선 사항

더욱 강력한 LLM 모델 사용: google/flan-t5-xxl 대신 더 크고 성능이 좋은 LLM 모델을 사용하면 답변의 품질을 향상시킬 수 있습니다. (모델 크기에 따라 더 많은 컴퓨팅 자원이 필요할 수 있습니다.)
다양한 청크 분할 전략: CharacterTextSplitter 외에 RecursiveCharacterTextSplitter, TokenTextSplitter 등 다양한 청크 분할 방식을 실험하여 최적의 결과를 찾아보세요.
고급 검색 알고리즘: faiss 외에 Annoy, HNSWlib 등 더 효율적인 검색 알고리즘을 활용할 수 있습니다.
웹 인터페이스 구축: Gradio 또는 Streamlit과 같은 라이브러리를 사용하여 챗봇에 쉽게 접근할 수 있는 웹 인터페이스를 만들 수 있습니다.

마무리

RAG 모델을 활용하여 로컬 PDF 챗봇을 구축하는 기본적인 과정을 살펴보았습니다.

다양한 테스트와 개선을 통해 자신만의 강력한 챗봇을 만들어보세요!

728x90

'AI > Tool, 모델 소개' 카테고리의 다른 글

옵시디언 간트차트 활용 프로젝트 관리 방법 (4)	2025.05.17
분산에서 통합으로: Rankify는 검색, 재정렬, 생성의 전체 과정을 어떻게 재구성하는가 (1)	2025.05.14
코딩 몰라도 AI 에이전트 뚝딱! Langflow로 나만의 AI 만들기 (2)	2025.05.07
MCP 프로토콜의 대대적인 업그레이드: Spring AI, Alibaba와 Higress, 업계 최초로 스트리밍 가능한 HTTP 구현 솔루션 출시 (1)	2025.05.05
최고의 무료 AI 코딩 도구 7가지 (1)	2025.04.28

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

소소한 일상 그리고, 흥미로은 나의 잡

RAG in Action: 초보자를 위한 로컬 PDF 챗봇 만들기 튜토리얼

'AI > Tool, 모델 소개' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

RAG in Action: 초보자를 위한 로컬 PDF 챗봇 만들기 튜토리얼

'AI > Tool, 모델 소개' 카테고리의 다른 글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역