공유된 기사
마이크로소프트, 데이터셋에서 지식 그래프 생성하는 'GraphRAG' 오픈소스 프로젝트 발표
Microsoft의 오픈 소스 연구 프로젝트 GraphRAG는 데이터셋에서 지식 그래프를 생성하여 Retrieval•Augmented Generation(RAG)에 활용하는 기술입니다. RAG는 데이터를 LLM에 입력하여 더 정확한 응답을 제공하는 접근 방식으로, 예를 들어 기업이 자체 데이터를 활용해 직원들이 HR 정책이나 판매 데이터와 같은 특정 정보를 얻을 수 있게 합니다. GraphRAG는 LLM이 개인 데이터셋을 처리하여 지식 그래프를 생성하고, 이를 통해 데이터가 의미론적 클러스터로 조직되는 방식으로 작동합니다. 쿼리 시에는 지식 그래프와 클러스터가 LLM의 컨텍스트 윈도우에 제공됩니다.
Microsoft 연구진에 따르면, GraphRAG는 기본 RAG가 어려움을 겪는 두 가지 영역에서 뛰어난 성능을 보입니다: 정보 연결과 대규모 데이터 요약입니다. 연구진은 GraphRAG의 효과를 테스트하기 위해 우크라이나 전쟁 관련 뉴스 보고서를 모은 VIINA 데이터셋을 사용했습니다. 이 데이터셋은 복잡성, 다양한 의견, 부분적인 정보 등으로 인해 선택되었으며, 최신 정보로 LLM의 훈련 데이터셋에 포함되지 않았습니다.
GraphRAG는 "Novorossiya가 무엇인가?"라는 질문과 그에 대한 후속 질문인 "Novorossiya가 한 일은 무엇인가?"에 대해 정확한 답변을 제공했습니다. 반면, 기본 RAG는 후속 질문에 답변하지 못했습니다. 연구진은 GraphRAG가 LLM이 그래프에 기반을 두고 원본 텍스트와 연결된 우수한 답변을 제공할 수 있게 한다고 설명했습니다. GraphRAG는 대규모 데이터셋 요약에서도 뛰어난 성능을 보이며, 다양한 시나리오에 적용해 유망한 결과를 얻고 있습니다.
Microsoft 연구진에 따르면, GraphRAG는 기본 RAG가 어려움을 겪는 두 가지 영역에서 뛰어난 성능을 보입니다: 정보 연결과 대규모 데이터 요약입니다. 연구진은 GraphRAG의 효과를 테스트하기 위해 우크라이나 전쟁 관련 뉴스 보고서를 모은 VIINA 데이터셋을 사용했습니다. 이 데이터셋은 복잡성, 다양한 의견, 부분적인 정보 등으로 인해 선택되었으며, 최신 정보로 LLM의 훈련 데이터셋에 포함되지 않았습니다.
GraphRAG는 "Novorossiya가 무엇인가?"라는 질문과 그에 대한 후속 질문인 "Novorossiya가 한 일은 무엇인가?"에 대해 정확한 답변을 제공했습니다. 반면, 기본 RAG는 후속 질문에 답변하지 못했습니다. 연구진은 GraphRAG가 LLM이 그래프에 기반을 두고 원본 텍스트와 연결된 우수한 답변을 제공할 수 있게 한다고 설명했습니다. GraphRAG는 대규모 데이터셋 요약에서도 뛰어난 성능을 보이며, 다양한 시나리오에 적용해 유망한 결과를 얻고 있습니다.