RAG 모델, ‘충분한 맥락’ 신호로 품질 높인다
최근 Google 연구진이 Retrieval-Augmented Generation(RAG) 모델의 성능을 향상시키는 새로운 방법을 제시했어.
이 방법은 RAG 모델이 질문에 답하기에 충분한 맥락을 가지고 있는지 판단하는 능력을 키워준다고 해.
쉽게 말해, AI가 답변을 생성할 때 필요한 정보가 충분한지 스스로 판단하도록 돕는 거지.
만약 AI가 정보를 제대로 이해하지 못하거나, 정보가 부족하다고 판단하면 엉뚱한 답변을 내놓거나, 아예 답변을 하지 않도록 하는 거야.
이 연구 결과는 AI 검색 및 어시스턴트의 답변 정확도를 높이는 데 크게 기여할 수 있어.
더 나아가, 콘텐츠 제작자들이 AI가 답변을 생성하는 데 유용한, 맥락이 풍부한 콘텐츠를 만들도록 장려할 수도 있지.
연구진은 Gemini나 GPT 같은 대규모 언어 모델(LLM)이 질문에 답변할 때, 검색된 데이터에 충분한 맥락이 없을 경우 엉뚱한 답변을 생성하는 경향이 있다는 점을 발견했어.
이러한 문제를 해결하기 위해, 검색된 콘텐츠에 답변을 뒷받침할 충분한 정보가 있는지 LLM이 판단할 수 있도록 지원하는 시스템을 개발했어.
Retrieval-Augmented Generation(RAG) 시스템은 외부 컨텍스트를 활용해 LLM의 질문 답변 정확도를 높이지만, 여전히 엉뚱한 답변이 발생할 수 있다는 한계가 존재해.
연구진은 이러한 문제가 LLM의 오해에서 비롯되는지, 아니면 검색된 컨텍스트가 불충분해서 발생하는지 명확히 밝히고자 했어.
연구 결과, Gemini, GPT, Claude와 같은 모델은 충분한 컨텍스트가 주어지면 정확한 답변을 제공하는 경향을 보였지만, 컨텍스트가 부족할 때는 엉뚱한 답변을 생성하거나, 35~65% 확률로 정답을 맞히는 경우도 있었다고 해.
여기서 중요한 건 모델이 정답을 맞힐 확률이 존재하는 상황에서 언제 답변을 포기해야 할지, 언제 모델을 신뢰해야 할지 판단하는 문제가 생긴다는 점이야.
‘충분한 맥락’이란 무엇일까?
연구진은 ‘충분한 맥락’을 검색된 정보(RAG로부터 얻은 정보)가 정확한 답변을 도출하는 데 필요한 모든 세부 정보를 포함하는 것으로 정의했어.
여기서 중요한 점은 ‘충분한 맥락’이라는 분류가 답변의 정확성을 검증하는 것이 아니라는 거야.
단지 제공된 콘텐츠로부터 답변을 추론할 수 있는 합리적인 근거가 있는지 평가하는 것뿐이지.
반대로, 불충분한 맥락은 검색된 정보가 불완전하거나, 오해를 불러일으키거나, 답변을 구성하는 데 필요한 중요한 세부 정보가 누락된 경우를 의미해.
쉽게 말해, 질문에 대한 답을 찾기 위해 추가적인 정보가 필요하거나, 정보가 여기저기 흩어져 있어 통합적인 답변을 제공하기 어려운 경우가 해당되는 거지.
Google의 “Quality Raters Guidelines(QRG)”에서도 이와 유사한 개념을 찾아볼 수 있어.
QRG에서는 필요한 배경, 세부 정보 또는 관련 정보가 부족하여 목적을 제대로 달성하지 못하는 페이지를 낮은 품질의 페이지로 정의하고 있어.
충분한 맥락 자동 평가 시스템
연구진은 ‘충분한 맥락 자동 평가 시스템(Sufficient Context Autorater)’을 개발했어.
이 시스템은 LLM을 기반으로 쿼리-컨텍스트 쌍에 대해 충분한 컨텍스트가 있는지 여부를 분류하는 역할을 수행해.
가장 뛰어난 성능을 보인 모델은 Gemini 1.5 Pro (1-shot)로, 93%의 정확도를 기록하며 다른 모델과 방법들을 능가했어.
이 시스템은 답변 생성 과정에서 자신감 점수와 충분한 맥락 신호를 활용해 답변을 생성할지, 아니면 답변을 하지 않을지 결정하는 “선택적 생성(Selective Generation)” 방법을 사용해.
이 방법은 모델이 정답을 확신할 때는 답변을 생성하도록 하고, 컨텍스트가 충분하지 않을 때는 오답을 생성하거나 엉뚱한 답변을 하는 것을 방지하도록 설계되었어.
연구진은 이 시스템이 기존의 다른 방법들과 달리 답변 생성 과정과 독립적으로 작동하기 때문에 의도치 않은 부작용을 줄일 수 있으며, 정확성과 답변 거부 간의 균형을 세밀하게 조정할 수 있다는 점을 강조했어.
시사점 및 마케팅 활용 방안
이 연구는 아직 초기 단계이지만, AI 검색과 챗봇의 품질을 향상시키는 데 중요한 시사점을 제공해.
특히, AI가 답변을 생성할 때 웹 페이지의 정보 구조와 완성도를 중요하게 고려할 수 있다는 점을 보여줘.
따라서 마케터는 다음과 같은 점에 주목해야 해.
- 콘텐츠 품질 향상: AI가 답변을 생성하는 데 필요한 충분한 맥락을 제공하는 콘텐츠를 제작해야 해.
질문에 대한 답변을 명확하고 간결하게 제시하고, 필요한 모든 세부 정보를 포함해야 하지.
Search Engine Journal과 같은 SEO 전문 매체의 가이드를 참고하여 콘텐츠를 최적화하는 것이 좋아. - 정보 구조화: 콘텐츠를 체계적으로 구성하여 AI가 필요한 정보를 쉽게 찾을 수 있도록 해야 해.
제목, 부제목, 목록 등을 활용하여 정보를 구조화하고, 관련 정보를 함께 제공하여 맥락을 풍부하게 만들어야 하지. - 신뢰도 향상: AI가 신뢰할 수 있는 정보 소스를 활용하도록 해야 해.
자신의 웹사이트가 신뢰할 수 있는 정보 소스로 인식되도록 평판을 관리하고, 긍정적인 사용자 경험을 제공하는 데 집중해야 하지.
Google E-A-T 가이드를 참고하여 전문성, 권위성, 신뢰성을 높이는 것이 중요해.
물론, 컨텍스트 충분성이 검색 순위를 결정하는 유일한 요소는 아니야.
AI가 정보를 선택하고 순위를 매기는 방식, 시스템이 어떤 소스를 검색하는지, LLM이 어떻게 학습되었는지 등 다양한 요소가 복합적으로 작용해.
따라서 마케터는 컨텍스트 충분성 외에도 다양한 SEO 요소를 고려하여 콘텐츠를 최적화해야 해.
AI 기술이 계속해서 발전함에 따라, 마케팅 전략도 끊임없이 조정하고 개선해야 할 거야.
이번 연구는 AI 시대에 콘텐츠 마케팅의 중요성이 더욱 커지고 있음을 시사하며, 앞으로도 AI 기술과 마케팅 전략의 융합을 통해 더 나은 결과를 얻을 수 있을 것으로 기대해.