검색 엔진 저널, RAG 모델 개선을 위한 구글 연구 소개

최근 검색 엔진 저널(Search Engine Journal)에서 흥미로운 기사가 하나 올라왔어.
구글 연구진이 검색 정확도를 높이기 위해 검색 증강 생성(RAG) 모델을 개선했다는 내용인데, 광고 마케팅 업계 종사자로서 그냥 지나칠 수 없지.
이 기술이 실제로 구현되면 콘텐츠 전략과 SEO에 큰 영향을 줄 수 있거든.
기사의 핵심 내용을 바탕으로 RAG 모델 개선이 우리에게 어떤 의미를 가지는지, 그리고 앞으로 어떻게 대비해야 할지 함께 살펴보자.

RAG 모델, 충분한 맥락 신호로 환각 현상 줄여

기존 RAG 모델은 질문에 대한 답변을 생성할 때 외부 정보를 활용하지만, 때때로 엉뚱한 답변, 즉 ‘환각’을 만들어내는 문제가 있었어.
구글 연구진은 이 문제를 해결하기 위해 ‘충분한 맥락’이라는 개념을 도입했지.
충분한 맥락이란, 검색된 정보가 질문에 대한 정확한 답변을 도출하는 데 필요한 모든 세부 정보를 포함하고 있다는 의미야.

연구 결과, Gemini나 GPT 같은 거대 언어 모델(LLM)은 충분한 맥락이 주어졌을 때 정확한 답변을 제공하는 경향을 보였어.
하지만 맥락이 불충분할 때는 환각 현상을 일으키거나, 35~65%의 확률로 운 좋게 정답을 맞히기도 했지.
여기서 중요한 점은, 모델이 언제 답변을 포기해야 할지, 언제 정답을 맞힐 수 있을지 판단하는 것이 중요하다는 거야.

충분한 맥락 자동 평가 시스템의 등장

구글 연구진은 ‘충분한 맥락 자동 평가기(Sufficient Context Autorater)’라는 LLM 기반 시스템을 개발했어.
이 시스템은 질문과 맥락 쌍을 분석하여 맥락이 충분한지 불충분한지를 판단해.
가장 성능이 뛰어난 모델은 Gemini 1.5 Pro(1-shot)로, 93%의 정확도를 기록했다고 해.

이 시스템은 검색 결과가 답변을 위한 합리적인 근거를 제공하는지 평가하며, 답변의 정확성을 검증하는 것은 아니야.
부족한 맥락은 불완전하거나 오해의 소지가 있거나, 답변을 구성하는 데 필요한 중요한 세부 정보가 누락된 경우를 의미하지.

선택적 생성 방법으로 환각 줄이기

연구진은 검색된 데이터에 맥락이 불충분하더라도 RAG 기반 LLM 응답이 35~62%의 확률로 질문에 올바르게 답변할 수 있다는 사실을 발견했어.
이 발견을 바탕으로 ‘선택적 생성(Selective Generation)’이라는 방법을 개발했는데, 이는 답변이 정확할 가능성에 대한 자체 평가 확률과 충분한 맥락 신호를 사용하여 답변을 생성할지, 아니면 답변을 포기할지를 결정하는 방식이야.

이 방법은 거대 언어 모델이 답변을 포기하는 기준을 조정할 수 있도록 제어 가능한 메커니즘을 제공해.
엄격한 정확성이 요구되는 의료 분야에서는 엄격한 기준을 적용하고, 창의적인 작업에서는 최대한 많은 정보를 제공하는 방식으로 운영 설정을 다르게 가져갈 수 있지.

결론적으로, 이 연구는 RAG 모델이 불필요한 답변을 줄이고 더 정확한 정보를 제공하는 데 도움이 될 수 있다는 것을 보여줘.
Sufficient Context: A New Lens on Retrieval Augmented Generation Systems 논문에서 더 자세한 내용을 확인할 수 있어.

시사점 및 마케터를 위한 조언

이번 연구 결과는 AI 검색과 챗봇의 답변 품질을 향상시킬 수 있다는 점에서 긍정적이야.
하지만 이것이 곧바로 검색 순위 알고리즘에 적용된다고 단정할 수는 없어.
맥락 충분성은 여러 요소 중 하나일 뿐이며, AI가 관련 정보를 선택하고 순위를 매기는 방식, 검색 소스를 결정하는 시스템, LLM 훈련 방식 등 다양한 요소가 복합적으로 작용하거든.

그럼에도 불구하고, 이번 연구는 콘텐츠 마케터에게 몇 가지 중요한 시사점을 던져줘.

충분한 맥락을 제공하는 콘텐츠 제작: AI는 완전하고 잘 구성된 정보를 담은 웹 페이지를 선호할 가능성이 높아.
따라서 답변에 필요한 모든 정보를 하나의 페이지에 담아 추가적인 검색 없이도 이해할 수 있도록 콘텐츠를 구성해야 해.
구글 품질 평가 가이드라인 준수: 구글은 이미 품질 평가 가이드라인에서 배경 정보, 세부 정보, 관련 정보가 부족한 페이지를 저품질 페이지로 정의하고 있어.
따라서 콘텐츠를 제작할 때 이 가이드라인을 준수하는 것이 중요해.
관련 내용은 Google’s third party Quality Raters Guidelines (QRG)에서 확인할 수 있어.
다양한 요소 고려: 맥락 충분성 외에도 AI가 정보를 선택하고 순위를 매기는 방식, LLM 훈련 방식 등 다양한 요소가 AI 생성 응답에 영향을 미쳐.
따라서 SEO 전략을 수립할 때 이러한 요소들을 종합적으로 고려해야 해.

이번 연구를 통해 우리는 AI 시대에 더욱 효과적인 콘텐츠 마케팅 전략을 수립할 수 있는 힌트를 얻었어.
앞으로도 구글의 연구 결과를 꾸준히 주시하고, 변화하는 환경에 발맞춰 콘텐츠 전략을 조정해나가야 할 거야.
Search Engine Journal은 SEO, Search Marketing News and Tutorials에 대한 다양한 정보를 제공하니 참고하면 좋을 거야.