Qrobo, 시멘틱 기술을 이용한 새로운 검색 엔진

검색 기술의 진화는 어디까지 이루어질 것인가? 구글을 능가하는 검색 서비스 회사가 나올 수 있을까 하는 의문엔 부정적이다. 사용자들의 요구 수준을 구글이 이미 만족을 시키고 있고 사용자의 경험이 구글을 통해서 축척되고 있기 때문이다. 하지만, 기술적인 측면을 바라보았을땐, 얼마든지 구글 검색 엔진을 능가하는 검색 기술이 등장 할 수 있다고 생각한다. Qrobo라는 시멘틱 웹 기술을 접목시킨 검색 서비스가 등장을 했다.

먼저 시멘틱 웹에 관한 사전적 정의를 알아보자

시맨틱 웹(Semantic Web)은 현재의 인터넷과 같은 분산환경에서 리소스(웹 문서, 각종 화일, 서비스 등)에 대한 정보와 자원 사이의 관계-의미 정보(Semantics)를 기계(컴퓨터)가 처리할 수 있는 온톨로지형태로 표현하고, 이를 자동화된 기계(컴퓨터)가 처리하도록 하는 프레임워크이자 기술이다. 웹의 창시자인 팀 버너스 리가 1998년 제안했고 현재 W3C에 의해 표준화 작업이 진행중이다.

시맨틱 웹과 현재 웹이 차이 기존의 HTML로 작성된 문서는 컴퓨터가 의미정보를 해석할 수 있는 메타 데이터보다는 사람의 눈으로 보기에 용이한 시각정보에 대한 메타데이터와 자연어로 기술된 문장으로 가득 차 있다. 예를 들어 <em>바나나</em>는 <em>노란색</em>이다. 라는 예에서 볼 수 있듯 <em>이라는 태그는 단지 바나나노란색이 라는 단어를 강조하기 위해 사용된다. 이 HTML을 받아서 처리하는 기계(컴퓨터)는 바나나 라는 개념과 노란색 이라는 개념이 어떤 관계를 가지는지 해석할 수 없다. 단지 <em> 태그로 둘러싸인 구절을 다르게 표시하여 시각적으로 강조를 할 뿐이다. 게다가 바나나가 노란색이라는 것을 서술하는 예의 문장은 자연어로 작성되었으며 기계는 단순한 문자열로 해석하여 화면에 표시한다.

시맨틱 웹은 XML에 기반한 시맨틱 마크업 언어를 기반으로 한다. 가장 단순한 형태인 RDF는 <Subject, Predicate, Object>의 트리플 형태로 개념을 표현한다. 위의 예를 트리플로 표현하면 <urn:바나나, urn:색, urn:노랑>과 같이 표현할 수 있다. 이렇게 표현된 트리플을 컴퓨터가 해석하여 urn:바나나 라는 개념은 urn:노랑 이라는 urn:색 을 가지고 있다는 개념을 해석하고 처리할 수 있게 된다. 보다 구체적인 예로 네이버가 NHN 소유임을 나타내는 트리플은 <http://naver.com, urn:wikipedia-ko:소유, http://nhncorp.com> 과 같이 된다. 시맨틱 웹은 이러한 트리플 구조에 기반하여 그래프 형태로 의미정보인 온톨로지를 표현한다.

더 자세한 내용은 : http://enc.daum.net/dic100/contents.do?query1=10XXX71967

살짝 어렵다. 좀더 알아보자.

semantic_web_2 
The future is smart machines (and soup)

웹이 처음 등장했을 땐(web1.0) 생산자가 소비자에게 어떤 정보를 일방적으로 공급만을 하는 형태였다. 생산자와 소비자의 관계가 단방향이었다. 그리고 시간이 흘러, Web2.0의 시대가 왔다. 생산자와 소비자의 경계가 모호해지기 시작하면서 상호 생산과 소비를 했다. 쌍방의 교류는 서로 유기적으로 이루어졌다. 또 시간이 흘러, 시멘틱 웹이라는 것이 등장을 한다. 그림에서 보면, Web2.0과는 달리 시멘틱 웹은 특정 영역에 빨간 동그라미가 그려져 있다. 예를들어 어느 특정 문서에 “withover”라는 단어가 있다고 가정하자. 이 단어를 어떻게 해석을 할 것인가? 시멘틱 웹은 여기에 인간이 이해할 수 있는 의미를 부여할 수 있는 개념이다. withover라 표시되는 이 단어에 소유자, 종류, 특징 등 다양한 내용의 정보를 담을 수 있다.

그럼 그 의미는 어떻게 담을 수 있을까? 현재 웹은 그 의미를 가지고 있지 않다. 사람이 수동으로 넣기엔 불가능하다. 그래서 등장한 것이 Semantic Search Engine이다. 웹의 내용을 분석해서 단어의 의미를 부여하고 그 의미에 맞게 분류 또는 링크를 건다.

이번에 등장한 Qrobo에 대해서 알아보자.

Qrobo_search 
▲ Qrobo (http://www.qrobo.com/)

다음, 네이버와는 달리 검색 서비스만을 제공하고 있다. ‘선물’이라는 단어로 검색을 하고 싶다. 먼저 ‘선물’이 가질 수 있는 의미엔 어떤 것이 있을까?

  • 선물을 살수 있는 곳, 추천 선물
  • 증권 선물
  • 노래
  • 영화
  • 이벤트 선물을 하는 방법

등 다양한 의미를 가질 수 있을 것이다. 대표적인 검색 사이트에서 ‘선물’이란 단어를 검색해보자.

image 
image

다음의 경우, 선물의 이미를 대부분 사람이 사람에게 주는 물건의 의미로 인식을 하고 상품 구입에 관한 정보를 출력하고 있다.  페이지의 아래로 가면 책, 사전 정보등 부가적인 정보를 출력해주고 있다. 정보의 구별이 상업광고, 책, 사전, 블로그, 지식, 웹페이지 등으로 일괄 구별이 되어 있다. ‘선물’이라는 단어가 가질 수 있는 의미를 파악하는 것이 아니라, 각 카테고리에서의 검색 결과를 일괄적으로 출력 해주고 있는 것이다.



구글의 경우를 살펴보자.

image 

구글의 경우에도 선물이라는 단어와 가장 적합도 높을 것으로 예상되는 사안을 1열 리스트 형태로 표현하였다. 첫 항목엔 선물을 살수 있는 곳, 증권 선물, 선물과 관련된 뉴스 검색, 오른쪽 화면엔 선물이란 단어가 들어간 이미지를 출력해주고 있다.

이제 시멘틱 검색 기술을 사용한다는 Qrobo로 ‘선물’을 검색해보자.

Qrobo_result

가장 먼저 눈에 뛰는 차이점은 입력란 아래에 검색어의 관련 영역을 표시해주다는 것이다. 선물이라는 단어에서 ‘게임’이라는 의미를 찾아 냈다는 것이다. Qrobo 엔진은 시멘틱 검색 기술을 이용하여 검색어와 관련된 주제어의 정량적 관계도 표시해 주고 있다. 그리고 ‘게임’을 클릭할 경우 아래의 결과는 선물 중에서도 게임과 관련된 항목들로 나타나게 된다.

image

아직 Qrobo가 가야 할 길은 멀다. 외국에서 시작된 Web 2.0의 파도는 이미 시멘틱 웹 기술에 다다르고 있다. 이런 와중에 국내의 한 기업에서 최초로 시멘틱 기술을 웹 검색엔진을 만들었다. 하드웨어인 관점에서 한국은 IT강국이다. 하지만 SW의 관점의 한국은 갈길이 먼 나라였다. 공학을 전공하는 사람으로서 IT계의 선구적 서비스가 한국에서 나왔다는것이 매우 기쁘다. 세계의 많은 IT기업들이 시멘틱 웹 기술에 관심을 가지고 있다. 그 만큼 Qrobo는 발전 가능성을 가지고 있는 것이다. Qrobo로 검색을 여러번 해 보았다. 검색하는 사람이 의도했던 영역을 찾아 내는 것을 보면서 기술의 영역은 어디까지 진보할 수 있을까 하는 생각을 해본다.


semanticWeb  
위 그림이 네이버, 다음과 같이 하나의 검색어에서 연관되는 모든 리스트를 출력하는 방식이라면


semanticWeb2
이 그림은 Qrobo와 같이 시멘틱 기술을 이용하여 사용자의 의도까지 파악할 수 있는 검색엔진이라고 할 수 있을 것이다.



Semantic Web에 관해서 더 읽어보면 좋은 글