LLM은 비정형 데이터 학습에 뛰어나다. 하지만 기업이 보유한 중요한 정보는 관계형 데이터베이스, 스프레드시트, 기타 정형 데이터에 저장돼 있어 쉽게 활용되지 않는다.
대기업들은 오래 전부터 데이터 간의 관계를 더 잘 이해하기 위해 지식 그래프를 사용해왔다. 문제는 지식 그래프를 구축하고 유지하는 일은 쉽지 않다는 점이다. 개발자, 데이터 엔지니어, 그리고 데이터의 의미를 정확히 이해하는 전문가들의 지속적인 노력이 필요하기 때문이다.
지식 그래프는 기존 데이터 저장소와 별도로 추가되는 계층으로, 개별 데이터 간의 관계를 정리하고 맥락을 부여해 단순한 정보를 의미 있는 지식으로 변환한다. 이론적으로는 LLM이 기업 데이터의 의미를 더 잘 이해할 수 있도록 도와주며, 적절한 데이터를 빠르고 효율적으로 검색해 쿼리에 삽입할 수 있게 한다. 이를 통해 LLM의 성능도 향상된다.
2023년 6월, 가트너 연구진은 ” 데이터 및 분석 담당자는 LLM의 강력한 처리 능력과 지식 그래프의 신뢰성을 결합해, 오류에 강하고 안정적으로 작동하는 AI 애플리케이션을 구축해야 한다”라고 밝힌 바 있다. 실제로 그 이후 관련 벤더도 이 기회를 놓치지 않고 적극 활용하기 시작했다. 2023년 9월 그래프 데이터베이스 기업 네뷸라그래프(NebulaGraph)는 기업이 지식 그래프를 검색 증강 생성(RAG) 방식에 쉽게 적용할 수 있도록 돕는 ‘그래프 RAG(Graph RAG)’ 라는 도구를 선보였다.
RAG는 LLM에 단순 질문을 보내는 대신, 관련 문서나 벡터 데이터베이스의 정보를 포함해 질문에 맥락을 추가하는 방식이다. RAG 없이 LLM은 훈련 데이터만을 기반으로 답변하지만, RAG를 활용하면 최신 정보나 기업 특유의 정보를 반영할 수 있다. 예를 들어, LLM이 기업의 제품에 대한 정보를 제공할 때 제품 설명서와 참고 자료를 추가하면 훨씬 유용한 답변을 얻을 수 있다.
2024년 2월 마이크로소프트(MS)도 자체적으로 ‘그래프 RAG’ 기술을 개발하고, 7월에 이를 오픈소스로 공개했다. 그래프 데이터베이스 기업 네오4j(Neo4j)도 ‘LLM 그래프 트랜스포머(Graph Transformer)’ 도구를 개발해 2024년 3월 오픈소스 프로젝트 랭체인(LangChain)에 기부했다. ‘LLM 그래프 트랜스포머’는 4월 도구가 구글 클라우드 및 Vertex AI에 통합되며 구글의 그래프RAG 구현의 일부로 활용됐다.
최근에는 12월 초 아마존이 ‘아마존 베드록 지식 베이스(Amazon Bedrock Data Bases)’의 일부로 아마존 넵튠 애널리틱스(Amazon Neptune Analytics)를 통한 그래프RAG 지원을 발표했다.
이러한 움직임이 활발해지면서, 2023년 11월 가트너는 그래프RAG를 생성형 AI 2024년 하이프 사이클(Hype Cycle)에 포함시켰다. 가트너는 그래프RAG가 성숙기에 도달하는 데 2~5년이 걸릴 것으로 전망했다. 이는 하이프 사이클에서 그래프RAG 바로 아래에 위치한 자율 에이전트(Autonomous Agent)의 예상 소요 기간인 5~10년보다 짧은 기간이다.
가트너는 그래프RAG가 RAG 시스템의 정확성, 신뢰성, 설명 가능성을 높일 수 있다고 평가하면서도, 지식 그래프를 생성형 AI 모델과 통합하는 과정이 기술적으로 복잡하고 비용이 많이 든다는 단점이 있다고 지적했다. 지식 그래프 자체가 도전적인 과제라는 점은 분명하다.
ISG 리서치(ISG Analysis) 데이터 및 분석 담당 연구 디렉터인 매트 애슬렛은 “데이터 분야에서 20년간 일하면서 지켜봐 온 결과, 지난 10년간 지식 그래프를 주류 기술로 정착시키려는 시도가 꾸준히 이어져 왔다”고 설명했다.
일부 기업들은 이미 지식 그래프를 활용하고 있다. 예를 들어, 대형 미디어 및 출판사, 신약 개발을 진행하는 제약사 등이다. 노바티스(Novartis)는 그래프 데이터베이스를 활용해 내부 데이터와 외부 연구 초록 데이터베이스를 연결하며, 유전자, 질병, 화합물 간의 관계를 분석해 신약 개발을 가속화하고 있다.
회계·세무 소프트웨어 개발사 인튜이트(Intuit)는 네오4j의 기술을 사용해 보안 지식 플랫폼을 구축했으며, 매시간 7,500만 건의 데이터베이스 업데이트를 그래프에 반영하고 있다. 하지만 애슬렛은 “대부분의 기업은 지식 그래프를 활용하지 않고 있으며, 데이터 통합이 필요한 기업은 일반적으로 일회성 데이터 통합 프로젝트를 수행한다”라고 말했다.
또한 애슬렛은 “지식 그래프를 이미 구축했다면, 그 정보를 AI 프로젝트에도 활용하면 좋다. 하지만 아직 구축하지 않았다면, 우선 데이터를 지식 그래프로 변환하는 큰 프로젝트를 진행해야 한다”라고 조언했다.
과거에는 이 과정이 상당히 부담스러운 작업이었으나 이제 생성형 AI가 지식 그래프 구축을 지원하면서 이러한 장벽이 낮아지고 있다. 기업 데이터가 실행 가능한 인사이트로 전환되는 선순환이 가속화되며, LLM의 정확성을 향상시키고 비용과 지연 시간을 줄이는 효과를 기대할 수 있다.
지식 그래프로 한층 똑똑해지는 기업의 AI
지식 그래프는 데이터베이스 내에 구축되거나 데이터베이스 위에서 작동할 수 있으며, 여러 데이터베이스를 연결하거나 외부 소스의 정보를 통합할 수도 있다. 이 과정에서 기존 데이터 구조를 변경할 필요는 없다.
전통적인 관계형 데이터베이스에서는 데이터 간의 관계가 데이터베이스 자체의 구조에 포함되며, 주로 주요 정보에만 연결된다. 예를 들어 고객 기록은 공통 고객 식별 번호를 통해 개별 거래와 연결되고, 이러한 거래는 공통 제품 ID로 제품 데이터베이스와 연결되는 식이었다.
그러나 특정 고객 그룹의 공통된 선호도를 파악하는 것은 쉽지 않으며, 더 미묘한 관계가 있을 때는 상황이 한층 복잡해진다.
지식 그래프를 활용하면 이러한 관계를 명확히 드러낼 수 있어, LLM이 질문에 답할 때 필요한 맥락을 쉽게 제공할 수 있다. 그 결과, 더 정확하고 신뢰도 높은 답변을 제공할 수 있다.
기업들은 보통 RAG 임베딩을 사용해 LLM 쿼리에 자사 데이터를 추가하지만, 전문가들은 이 방식의 정확도가 현재 최대 70% 수준에 불과하다고 평가하고 있다.
데이터 정확도 문제를 해결하는 소프트웨어 스타트업 데이터2(Data2)의 CTO 다니엘 부코프스키는 “전통적인 검색 증강 생성(RAG) 방식은 정확도가 80percent를 넘지 못하는 경우가 많다”라며 “일부 용도에서는 이 정도가 적절할 수 있지만, 많은 산업과 상황에서는 99percent에 가까운 정확도가 필요하다”라고 설명했다.
네오4j의 최고 제품 책임자(CPO) 수디르 하스베는 “LLM은 비정형 데이터 처리를 최적화하도록 설계됐지만, 많은 기업 데이터가 정형 데이터이기도 하다”라며 “정형 데이터와 비정형 데이터를 어떻게 결합해 답을 도출할 것인가가 중요하다. 답변을 얻는 것뿐만 아니라, 그 답이 도출된 이유를 설명할 수 있어야 한다”라고 조언했다.
하스베는 지식 그래프가 환각 현상을 줄이는 동시에 설명 가능성(explainability) 문제도 해결한다고 말했다. 인포시스(Infosys)의 부사장 아난트 아드야는 “지식 그래프는 기존 데이터베이스 위에 위치하면서 더 깊은 연결성과 맥락을 제공한다”라며 “덕분에 상황에 맞는 맞춤형 검색이 가능해지고 더 깊이있는 통찰력이 확보될 수 있다”라고 덧붙였다.
인포시스는 현재 지식 그래프와 생성형 AI를 결합해 수년간 축적된 데이터를 활용하는 개념 검증(PoC) 프로젝트를 진행하고 있다. 아드야는 “우리는 지식 그래프가 더 큰 영향을 미칠 수 있는 활용 사례를 찾고 있다”고 말했다. 현재 자동화된 지식 추출, 예산 수립, 조달, 기업 계획 등의 영역에서 실험이 이뤄지고 있지만, 아직 실제 운영 단계에는 도달하지 못한 상태다.
지식 그래프를 활용해 생성형 AI 성능을 개선한 기업 중 하나가 링크드인이다. 링크드인은 2024년 4월 발표한 논문에서 RAG와 지식 그래프를 결합해 고객 서비스용 생성형 AI 애플리케이션의 정확도를 최대 78% 향상시켰다고 밝혔다. 또한, 이 기술을 도입한 이후 6개월간 고객 서비스 팀의 이슈당 평균 해결 시간이 29% 단축됐다.
비용은 낮추고 속도는 높이다
생성형 AI 기능이 기업 워크플로에 추가되면, 쿼리는 일반적으로 벡터 데이터베이스에서 가져온 관련 정보로 보강된다. 쿼리에 추가할 수 있는 정보가 많을수록 LLM이 응답을 생성하는 데 필요한 컨텍스트도 늘어난다.
컨설팅 기업 EY의 기술, 미디어, 엔터테인먼트 및 통신 부문 AI 리더 밤시 두부리는 “제공하는 맥락과 문서가 많아질수록 RAG는 점점 더 커지며 시스템 속도는 점점 느려진다”라며 “또한 생성형 AI 벤더들은 토큰(token) 단위로 요금을 부과하기 때문에 모델이 처리할 정보가 많아질수록 비용도 증가한다”라고 설명했다.
2024년 4월 MS가 발표한 연구에 따르면, 그래프RAG는 기존 RAG 대비 최대 97% 적은 토큰을 사용하면서도 더 포괄적인 답변을 제공하는 것으로 나타났다.
두부리는 “지식 그래프가 RAG 인프라의 일부로 활용되면, 명확한 관계를 기반으로 가장 적절한 정보를 신속하게 찾아낼 수 있다”라며 “이 방식은 매우 효율적이다”라고 말했다. 두부리에 따르면, 많은 기업이 이러한 지식 그래프의 장점을 활용하려 하지만, 아직 실험실을 벗어나 실제 현장에 적용한 사례는 드물다고 전했다. 그러나 이는 그래프 RAG만의 한계가 아닌 생성형 AI 전반의 공통된 과제다.
LLM 활용 방식의 변화
지식 그래프 구축의 가장 큰 난제는 전문성이 필요하다는 점이다. 특히 데이터가 방대하고 복잡할수록 구축 과정이 더욱 어려워진다. 지식 그래프를 만들기 위해서는 개념 체계를 정의하고, 데이터 분류 기준을 결정하며, 서로 다른 데이터 간의 관계를 규명해야 한다.
ISG의 애슬렛은 “오히려 지식 그래프를 구축하는 과정은 생성형 AI가 잘할 수 있는 분야”라고 말했다. 일부 벤더들은 이미 이러한 기능을 제공하려 하고 있지만, 관련 도구들은 아직 개발 초기 단계에 머물러 있다.
과거에는 머신러닝을 활용해 지식 그래프를 구축하려는 시도가 많았다. 두부리는 “자연어 처리(NLP)를 활용해 이름 엔터티 인식(identify entity recognition)을 수행하고, 공출현(co-occurrence) 관계를 분석해 지식 그래프를 만들었다”라고 설명했다. 하지만 그는 “이 방식은 NLP 파이프라인을 학습시켜야 했기 때문에 구축 과정이 매우 시간이 많이 걸리고 어려운 작업이었다”고 말했다.
오늘날 LLM은 지식 그래프 구축 시간을 획기적으로 단축하고 있다.
두부리는 “나는 개인적으로 LLM을 활용해 지식 그래프를 만들어봤다”라며 “LLM은 데이터 간의 관계를 추출하는 데 매우 유용한 도구”라고 설명했다. 그는 “지식 그래프의 강점은 LLM을 활용하면 더욱 강화되며, 반대로 지식 그래프를 LLM에 추가하면 AI의 성능이 향상되고 비용 절감 효과도 얻을 수 있다”고 말했다.
카네기멜런대학교 테퍼경영대학원(Tepper College of Enterprise) 회계학 교수 피에르 리앙도 생성형 AI가 기존에는 불가능했던 방식으로 지식을 생성하는 능력이 있다고 강조했다. 그는 “내 연구실에서도 이런 사례를 직접 확인했다”라며 “기업이 LLM을 활용해 지식 그래프를 구축하고 활용하는 방식에는 상당한 가능성이 있다”라고 밝혔다.
dl-ciokorea@foundryco.com