포스트

[한국 전통주 RAG] 1편: 프로젝트 시작 이야기

[한국 전통주 RAG] 1편: 프로젝트 시작 이야기

한국 전통주 RAG 프로젝트 1편: 프로젝트 시작 이야기

2025년 여름, AI 말평 경진대회 예선을 마치고 나니 마음에 아쉬움이 남았다. “시간이 조금만 더 있었으면 더 좋은 모델을 만들 수 있었을 것 같은데….”라는 생각을 정말 많이 한것 같다.

이번 대회부터 본선 평가는 말평 아레나라는 것을 통해서 진행하는데, 국어 관련 전문가들이 우리가 만든 모델을 평가한다고 한다. 때문에 사실상 본선부터는 우리의 손을 떠난 셈이다.

말평 아레나 결과가 나올때까지 시간이 한참 남았고, 방학 기간도 아직 한참 남았기에 무료함을 느끼고 있었다. 그러나 남은 방학을 그저 놀면서 보내고 싶지는 않았다.

대회때 나의 부족함을 뼈저리게 느껴서 앞으로 개인 프로젝트 경험을 많이 쌓아야겠다는 생각을 했기 때문이다. 그래서 프로젝트 주제를 뭘로 정해야 할지 고민을 하고 있었다.


1. 우연한 출발점

대회 이후 잠깐 쉬면서 유튜브를 보던 중, 평소에 자주 보던 “술 익는 집”님의 유튜브 채널에서 흥미로운 사이트를 접하게 됐다.
그 영상에서는 한국술 고문헌 DB라는 사이트를 소개하고 있었는데, 호기심에 접속해 보니 생전 처음 보는 술 이름과 레시피가 가득했다.

술 익는 집 스크린샷

양조 전문 유튜버 “술 익는 집”님의 유튜브 채널

그 순간 이런 생각이 번쩍 들었다.

“이거 크롤링해서 RAG 주제로 사용하면 딱이겠는데?”

이전 말평 대회에 참가하면서 언젠가 RAG 시스템을 End To End로 구현 해보고 싶다는 생각을 했었는데 마침 정말 좋은 데이터를 찾은 것 같았다.


2. 데이터의 잠재력

사이트에는 조선시대부터 이어져 온 다양한 전통주 기록이 정리돼 있었다.

  • 이름조차 낯선 술들 (ex: 경면녹파주, 황구주, 백화주 등)
  • 조리법과 발효 방식에 관한 세세한 기록 (ex:신 술 고치는법)
  • 문화적·역사적 맥락까지 담겨 있는 자료 (ex: 고려시대 군인들에게 술을 공급하던 관서)

이런 데이터는 단순히 흥미로운 소재일 뿐 아니라, 도메인 특화 RAG의 학습/실험에도 딱 알맞다고 판단했다.

무엇보다 한국 전통 문화를 인공지능과 결합한다는 점에서 그 의미가 더욱 크다고 생각한다. 사라져가던 전통의 흔적을 오늘날의 기술과 연결함으로써, 한국 고유의 문화유산을 새로운 방식으로 재조명하고 우리 문화의 지속성과 가치를 드러낼 수 있기 때문이다.


3. 라이선스 확인과 실행 결심

혹시 저작권 문제가 있을까 걱정했지만, 다행히 해당 사이트에는 저작자표시-비영리-동일조건변경허락 2.0(CC BY-NC-SA 2.0 KR) 라이선스가 명시되어 있었다. 즉, 비상업적 연구나 포트폴리오 활용에는 전혀 문제가 없다는 뜻이다.

또한 robots.txt와 같은 크롤링 제한도 따로 설정되어 있지 않은 것을 확인한 순간, 망설임 없이 프로젝트를 시작하기로 마음먹었다.

마지막으로, 이 사이트를 만드시고 우리의 전통 술 문화가 잊히지 않도록 꾸준히 연구하고 자료를 정리해주시는 한국술문헌연구소 김재형 소장님께 이 자리를 빌려 깊은 감사를 드린다.


4. 앞으로의 계획

이번 글에서는 “내가 왜 이 프로젝트를 시작했는지”에 대해 다뤄보았다.
다음 글부터는 본격적으로 RAG 시스템 구현 과정을 다뤄보려고 한다.

  • 2편: 데이터 크롤링 (사이트 구조와 파싱 방법)
  • 3편: 전처리 (청크화, 정규화, 데이터 정리)
  • 4편: 리트리버 구현 (Dense Retriever 중심 파이프라인)
  • 5편: Demo 및 회고
이 기사는 저작권자의 CC BY 4.0 라이센스를 따릅니다.