[한국 전통주 RAG] 5편: 후기와 데모 시연
1. 프로젝트를 마치며
처음에는 단순히 “한국 전통주 데이터를 크롤링해서 RAG에 써보자”는 가벼운 아이디어였다.
하지만 진행하면서 데이터 크롤링 → 전처리 → Kaggle 공유 → 리트리버 파이프라인 → Gradio 데모까지, 작은 End-to-End RAG 프로젝트를 완성하게 되었다.
이번 경험을 통해 단순한 기술 실험이 아니라, 한국 전통 문화를 데이터와 AI로 재조명하는 작업을 해냈다는 점에서 의미가 큰 것 같다.
2. 데모 시연
마지막 단계에서는 Gradio 기반 데모를 제작하여 실제 질의응답을 확인했다.
전체적인 모습은 위와 같으며, 옆쪽에는 리트리브 된 컨텍스트들을 확인 가능하다.
추가로 컨트롤 패널을 사용해 답변에 관련된 파라미터들을 제어 가능하게 구현했다.
이제 실제로 이번에 구현한 전통주 RAG 시스템의 답변을 살펴보겠다.
(1) 특정 술 레시피 확인
쿼리: 과하주는 언제 마시는 술이야? 그리고 어떻게 만들어?
답변: 과하주는 주로 늦봄에 술을 빚어 여름이 지나면서 마시는 술로, 찹쌀 밑술에 소주를 섞어 발효시킨다. 찹쌀을 씻어 찌고 식힌 후 가루 누룩과 물을 섞어 발효시키고, 3일 뒤 소주를 추가하여 다시 발효하는 방식이다.
기본적으로 특정 술의 레시피는 잘 리트리브 되는 것을 확인 가능하다.
(2) 재료·누룩 관련 질문
쿼리: 누룩은 술 빚기에 어떤 역할을 해? 그리고 어떤 재료로 어떻게 만들어?
답변: 누룩은 술의 발효를 이끄는 핵심 발효제이며, 술맛과 품질에 큰 영향을 미친다. 주로 보리·밀·쌀로 만들며, 곡물을 씻어 반죽 후 적절한 온도에서 발효시켜 제작한다.
누룩과 같이 양조 재료에 대한 개념도 잘 리트리브 되어 올바른 응답이 나온다.
쿼리: 꽃으로 만드는 술 몇종류 알려줘
답변: 꽃으로 만드는 술의 종류로는 다음과 같은 것들이 있습니다:
- 백화주: 여러 가지 꽃을 사용하여 빚는 술로, 건강에 좋다고 알려져 있습니다.
- 화향주: 매화, 국화 등 향기가 있는 꽃을 사용하여 만드는 술입니다.
- 화주: 꽃과 함께 내려주는 술로, 꽃의 아름다움과 술의 조화를 강조합니다. 이 외에도 다양한 꽃을 활용하여 술을 만들 수 있습니다.
“꽃으로 만드는 술”과 같이 멀티홉 쿼리에 대해서도 리트리브가 잘 진행되어 상당히 괜찮은 답이 나오는 것을 확인 가능했다.
(3) 리터 단위 질문
쿼리: 경면녹파주를 만들 때 물은 총 몇 리터나 들어가?
답변: 경면녹파주에는 물이 총 5말, 즉 약 90리터가 들어간다.
전처리 과정에서 만든 리터 단위 파생치가 실제로 응답에 잘 활용되는 것을 확인 가능하다.
(4) 주류 외의 기타 요소 질문
쿼리: 고려시대 군인들에게 술을 공급하던 관청은 뭐야?
답변: 고려시대 군인들에게 술을 공급하던 관청은 별주색이다.
원본 데이터에 정보가 부족해 상세한 응답을 하지는 않지만 리트리브는 올바르게 진행된 것을 확인 가능하다.
(5) 절차·단계 중심
쿼리: 술을 빚은 다음에는 어떤 단계를 거쳐?
답변: 술을 빚은 뒤에는 누룩가루를 섞어 독에 담아 봉하고, 5~6일 뒤 익으면 물을 끓여 식혀 부은 후 하루 지난 뒤 삼태기로 걸러 맑은 술을 얻는다.
전반적인 양조 단계에 대한 답변 또한 잘 수행한다.
(6) 비교·한계 확인용
쿼리: 와인, 맥주와 비교했을 때 한국 전통주의 특징은?
답변: 한국 전통주는 누룩을 사용하는 독특한 발효 방식이 특징이며, 쌀을 주원료로 하여 도수가 높고, 술잔을 돌려 마시는 문화가 발달했다. 와인·맥주와는 다른 문화적 배경과 제조 방식을 가진다.
이 응답이 제대로 나온 것은 의외였다.
사실 처음에는 이 차이가 데이터에 없을 것이라 생각해 이상한 답변이 나오거나 LLM이 자체 지식을 통해 답변을 할것이라고 생각했다.
그러나 실제로는 “누룩과 양조주” 기록에서 와인·맥주와 비교하는 맥락이 존재했다. 이 데이터가 리트리브 되었고, LLM이 해당 컨텍스트를 활용해 답변을 강화하는 모습을 볼 수 있었다.
이를 통해 데이터셋이 생각보다 폭넓은 비교·문화 기록을 담고 있다는 점을 확인할 수 있었다.
3. 배운 점과 한계
- 장점
- 데이터 기반 답변이 잘 작동함을 확인
- 리터 환산 파생치 등 전처리 설계가 실제 질의응답에 기여
- 문화·역사적 맥락까지 커버 가능
- 한계
- 출처 인용 방식이
[1][2][3]
처럼 다소 불친절 → 문헌명/항목명 라벨링 필요 - 일부 레시피는 버전 차이를 구분하지 않고 합쳐서 설명되는 경우 발생
- 출처 인용 방식이
4. 앞으로의 확장 방향
- 출처 인용 개선:
[1] 산림경제·백화주
처럼 문헌명까지 표기 - 다국어 질의 대응: 영어, 일본어, 중국어 같은 다국어 질문 처리
- 배포: FastAPI + Docker로 웹서비스 구현&배포 연습
5. 정리
이번 프로젝트는 단순한 데이터 실험을 넘어, 한국 전통 문화를 AI와 연결한 포트폴리오 프로젝트였다.
대회 때와 마찬가지로 정말 많은걸 배운 것 같다.
개인 프로젝트의 중요성을 다시금 실감하게 되는 것 같다.
End-to-End RAG 파이프라인을 직접 구현하고, 실제 데모 시연으로 결과를 확인하면서 많은 배움을 얻었다.
앞으로는 이 경험을 확장해 더 정교한 리트리버, 도메인 특화 생성 모델, 그리고 서비스 배포까지 도전해보고 싶다.
프로젝트에 사용된 데이터셋은 Korean Traditional Liquor Dataset on Kaggle에서 다운 가능하다.
전체 코드는 GitHub repo에서 확인할 수 있다.