"대문"의 두 판 사이의 차이

yjw2999
이동: 둘러보기, 검색
(RDF 트리플)
(RDF 트리플)
60번째 줄: 60번째 줄:
  
 
공백노드라면 특별한 의미를 지니지 않고 단순히 노드를 연결시키는 역할을 한다.
 
공백노드라면 특별한 의미를 지니지 않고 단순히 노드를 연결시키는 역할을 한다.
 +
아래그름을 보자. 항우와 의제 사이에는 공백노드가 위치하고 있다. 그리고 공백노드와 의제가 죽은 위치나 시간을 장소, 대상, 발생시기라는 관계를 통해서 표현해 주었다.
 +
 +
 +
[[image:항우03.png|500px]]
  
 
==문제의 제기==
 
==문제의 제기==

2017년 5월 25일 (목) 02:15 판

역사 자료 텍스트의 전자적 기술에 의한 지식 관계망 구현 연구

이곳에서 위키 소프트웨어에 대한 정보를 얻을 수 있습니다.

역사 자료 텍스트의 전자적 기술에 의한 지식 관계망 구현 연구
- 通鑑節要를 중심으로

서론

시맨택 웹이란 기계가 이해할 수 있는 웹을 말한다. 그 구체적인 방법으로는 온톨로지를 사용한다. 온톨로지는 기본적으로 RDF 트리플을 기본으로 하고 있다. LOD와 지식 관계망의 결합 지식관계망은 LOD를 통해서 쉽게 확보하기 어려운 정제된 지식, 예를들어 5대10국에 포함되는 나라가 어떤 나라인지 알기 위해서는 역서사를 뒤지더라도 쉽게 파악하기 어렵다. 이러한 지식은 사전이나 기사 공구서를 통해서 확인해야 한다. 지식 관계망을 이렇게 일반적인 역사서를 통해서 확보하기 어려운 지식을 잘 정리된 사전 등에서 어휘와 어휘 간의 관계를 잘 정리하서 RDF 트리플로 구축하는 것을 의미한다. 관계를 살펴보면

2가기 기준에 의해서 구분해 보았다. 변하는 관계 변하지 않는 관계

변하지 않는 관계는 사라의 이름이나 자, 호, 시호, 사람 간의 혼인 관계 등이 되면 한번 맺어진 관계는 쉽게 바뀌지 않는다. 간혹 사람의 이름도 개명을 하기도 하지만 대부분은 거의 바뀌지 않는다. 그러나 사람의 직업이나 직책, 직장 등을 변화는 것이 당연하다.

그렇다면 다른 기준에 의해서 구분하면 의미에 의해서 맺어지는 관계 내용에 의해서 맺어지는 관계

의미에 따라서 맺어지는 관계는 동의어, 유의어, 반의어 등이 이에 해당한다. 영의정,


통감절요 소개

- RDF 트리플 - 중국 연표

  1. 참고문헌

본 위키는 윤종웅의 개인 위키입니다.

RDF 트리플

RDF 트리플이란?
온톨로지를 표현하는 언어로 사물과 사물의 관계를 주어-술어-목적어의 관계로 표현하는 것

Carl Spitzweg.png


간단한 RDF 트리플을 보면 다음과 같다. 정보를 주어-술어-목적어 구조로 기술하는 것이다. 아래 그림은 항우가 의제를 죽였다는 것을 표현한 RDF 그래프이다.

항우.png

그런데 문제는 모든 지식을 이러한 단순한 이항 구조로 표현한다는 것을 불가능하다. 간단하게 설명해서 위의 항우가 의제를 죽였다는 것에서 우리는 언제와 어디서가 생각할 수 있다. 과연 언제 이러한 일이 발생했으며, 의제가 어디서 죽었을까 하는 의문이 당연히 생겨날 수 있으며, 그 답을 제시해 주어야 한다.

항우02.png

그러나 기존의 이항 구조의 RDF 트리플로는 이러한 내용을 표현할 수 없었다. 그래서 연구된 것이 공백노드와 미디에이터를 이용해서 표현하는 방법이다.

공백노드라면 특별한 의미를 지니지 않고 단순히 노드를 연결시키는 역할을 한다. 아래그름을 보자. 항우와 의제 사이에는 공백노드가 위치하고 있다. 그리고 공백노드와 의제가 죽은 위치나 시간을 장소, 대상, 발생시기라는 관계를 통해서 표현해 주었다.


항우03.png

문제의 제기

LOD는 링크드오픈데이터의 약자로 데이터를 공유하고 연결하자는 의미이다. 링크드 데이터의 문제점 정형화된 데이터 위주로 할 수밖에 없다. 시간과 비용의 문제 기술적인 한계 어려움

모든 지식을 서로 연결하여 이 가운데서 새로운 가치를 생산해 내자 데이터를 기름이라고 하였다.

지식을 표현하는 것이 단순히 이항 관계로는 표현할 수 없는 것들이 너무 많다. 정확하게 말하면 표현할 수 있는 것이 그렇게 많지 않다.

역사서에서 RDF 트리플을 이용하여 지식을 표현한다면 가능한 시나리오는 역사서에 나오는 주요한 사건이 언제 일어났는지 어디에서 일어났는지 원인은 무엇인지 등에 대해서 사전에 프로퍼티로 지정해 놓은 범위 안에서 표현할 수 있다. 더블린코어의 온톨로지에서 보면 책의 저자는 누구이고 언제 간행되었고 등 사전에 정해진 것만 담을 수 있다.

역사서의 경우에 조선왕조실록이 몇 책이고, 국보 몇 호이고, 언제 간행되었는지 등등의 메타데이터에 대해서는 충분히 담을 수 있는데 만약 본문 내용을 대상으로 표현한다면 거의 표현할 수 있는 방안이 없다.

지식을 통합과 연계한다는 측면에서 본문 문장을 RDF로 표현할 수 있는 방안이 필요하다. 단순히 표현할 수 있는 것 뿐만 아니라 표현 방법이 일관성이 있어야 한다. 누가 하더라도 동일한 결과를 가져올 수 있는 기준을 제시해야 한다. 역사서에 나오는 문장을 표현할 수 있어야 한다. 문장 뿐만 아니라 사건과 사건의

항우.png

역사서에 나오는 행위와 상태를 중점적으로 표현하고자 하였다. 일종의 이벤트라고 할 수 있다.

온톨로지 설계

논항

의미적 완결성을 문장을 구성하기 위하여 서술어 기능을 가지는 어휘가 자신의 자리값(valency)과 의미격 틀(θ-frame)에 따라 문장에 나타날 것을 요구하는 필수 성분이다


의미역

한 문장이 완성되기 위해 꼭 필요한 문장 성분과 그 문장 안에 있는 명사나 형용사 등의 술어가 맺고 있는 의미적 관계


본 논문에서 적용한 의미역

연번 프로퍼티 속성 내용
1 action AC 구체적인 행위를 표현함
2 agent AG 행위를 한 주체, 행동주
3 effector EF 영향주
4 companion CO 행위를 할 때 참여한 행위자
5 patient PA 피동주, 사건에서 영향을 입는 것, 상태의 변화를 겪는 것
6 theme TE 이동체, 대상
7 manner MA 방법
8 location LO 발생위치, 처소, 장소명사와 함께 처소를 나타낸다.
9 source SR 기점, 출발점
10 route RT 경로, 지나온 경로
11 goal GO 도착점, 처소의 변화, 상태나 자격의 변화
12 direction DR 이동의 방향
13 time TM 시간과 연계
14 instrument IN 도구
15 cause CA 원인
16 degree DE 정도의 표현
17 frequency FR 빈도의 표현
18 quantity QU 수량의 표현
19 role RO 자격, 역할의 표현
20 content CT 내용의 표현


틀:Clickable button


조직-인사 아카이브는 김바로에 의해 만들어진 조직-인사 온톨로지를 기반으로 규장각한국학연구원본 《구한말 관보》과 국립중앙도서관본 《구한국 관보》의 1895년부터 1910년 근대 학교 제도 및 인사 자료를 RDF(Resource Description Framework)로 기술하였다.


본 데이터는 저작자표시-동일조건변경허락 4.0 국제 (CC BY-SA 4.0)의 조건을 따르고 있다.


데이터 모델의 상세 스펙은 OWL DOC, 모델 시각화는 VOWL, 연구논문은 Google Docs 등을 통하여 살펴볼 수 있다.

지식 관계망의 개념

역사서를 잘 구조화하여 LOD로 발행한다고 해서 어느 날 갑자기 새로운 지식이 발견되는 것은 아니다. 많은 지식이 축적되어야 자연스럽게 그 사이에서 새로운 가치를 발견해 낼 수 있을 것이다. 문제는 LOD를 구축하는데 많은 시간과 비용이 걸린다는 것이다.

활용 방안

시각화


[테스트]

  • 데이터셋 통계 :
제목 내용
Last Update 2017-04-23
Number of Statements 1,312,187
Number Of Entities 15,084

지식 관계망 구축

  • 데이터셋 다운로드 :
제목 내용
OWL 파일 다운로드 다운로드
통감절요 원시 데이터 다운로드 통감절요 개체명 마크업 데이터 다운로드
통감절요 RDF 마크업 데이터 다운로드 역사 이벤트 OWL 다운로드

결론

역사적

인스턴스 생성

문맥 요소 태깅

대표명칭 정리

시간정보 정리

통감절요는 편년체 사서로 역사를 시간 흐름의 순서에 따라 기술하였다. 시간은 크게 연, 월, 일 등으로 구분할 수 있는데 대부분 년을 기본 단위로 하여 기술하였으며, 간혹 월일까지 기술하는 경우도 있다.
시간과 관련하여 문제가 되는 것은 통감절요가 자치통감을 극단적으로 축약을 하다보니 여러 날 혹은 여러 달에 걸쳐서 발생한 일도 한줄의 기사로 줄여버리는 경우가 있다.
그렇기 때문에 엄밀한 고증이 필요한 사서로써의 자격은 그리 크지 않다고 할 수 있다.
『通鑑節要』에는 시간과 관련하여 새로운 문제를 안고 있다. 『通鑑節要』는 『資治通鑑』을 축약하면서 서로 다른 날짜의 기사를 하나로 묶어서 여러 날에 거쳐서 일어난 사건이 마치 동일한 시점에 발생한 것으로 혼동할 수 있게 하였다.
예를들어
『通鑑節要』 卷之四十九 五代紀 後梁紀 太祖皇帝 [丁卯]唐天祐四年 기사에
“봄 3월에 唐나라 昭宣帝가 御札을 내려 梁나라에 황제의 지위를 禪讓하자, 梁王이 이름을 晃으로 고치고 황제에 즉위하여 국호를 梁이라 하고 昭宣帝를 받들어 濟陰王으로 삼았다.”
고 되어 있는데 이 한 줄은 『資治通鑑』에서
唐나라 昭宣帝가 어찰을 내려 後梁에 皇帝의 자리를 禪讓한 것은 907년 1월 27일의 일이고,
朱全忠이 이름을 朱晃으로 고친 것은 907년 4월 16일의 일이다.
황제에 즉위한 것은 907년 4월 18일이며, 국호를 梁이라고 하고 昭宣帝를 濟陰王으로 삼은 것은 907년 4월 22일이다.
그런데 『通鑑節要』에는 907년 봄 3월 기사에 이 4일의 기록을 묶어서 마치 하나의 기사처럼 기술하였다.
禪讓한 것과 濟陰王으로 삼은 내용 사이의 시간은 거의 3개월이나 떨어져 있다. 또 다른 기사로 『通鑑節要』 卷之四十九 五代紀 後唐紀 莊宗 [癸未]의 기사를 살펴보면
“겨울 10월에 唐主가 大軍을 거느리고 黃河를 건너 鄆州에 이르러서 梁나라 군대를 만나 一戰에 패퇴시키고, 추격하여 中都에 이르러서 그 성을 포위하니, 성에 수비가 없었다. 잠시 후에 梁나라 군대가 포위를 뚫고 나오자, 王彦章을 사로잡아 목을 베었다.”
로 되어 있다. 이 내용을 『資治通鑑』을 확인하면
後唐의 李存勖이 黃河를 건넌 것은 923년 10월 2일의 일이며,
鄆州에 도착한 것은 10월 3일의 일이다.
梁나라의 군대를 一戰에 패퇴시키고 王彦章을 사로잡은 것은 10월 4일의 일이며,
王彦章의 목을 벤 것은 10월 5일의 일이다. 4일 간의 사건이 하나의 문장으로 요약된 것이다.

동사의 어깨번호 확인

의미역 부착의 예시

<place id="" name="浙東">浙東</place> 지방이 <event VV="소란하다" EF="浙東">소란하였는데</event> <position id=" 安南都護">安南都護</position> <person type="" name="王式" S="王式" P="position" O="安南都護">王式</person>이 <event VV="토벌하다" AG="王式" PA="裘甫">토벌하여</event> <event VV="평정하다" AG="王式" TE=" 浙東 ">평정하였다</event>

참고자료

通鑑節要 데이터를 보시려면 아래 링크를 클릭하세요

通鑑節要

資治通鑑

資治通鑑

통감절요 출현 인물

통감절요 출현 지명

통감절요 출현 관직

통감절요 출현 관서

통감절요 출현 서명

중국 왕조 연표

중국 왕조 연표 다운로드

중국 역사 참고 자료

中国君主列表

中國君王諸子女列表

中國皇后及妃嬪列表

통감절요의 시각화

LOD 발행 현황

  1. 국내의 LOD 발행 현황

== 국립중앙도서관

    1. RISS
    2. 문화재
  1. 해외의 LOD 발행 현황==

SPARQL

제도와 인사의 관계성 데이터 아카이브 SPARQL Endpoint: 바로가기

LOD는 데이터를 각각 연계하고(Linked Data), 이를 오픈된 RDF 형식으로 웹상에 개방 및 연계해서(Outlink) 상호 공유함으로써(Linked Open Data) 새로운 가치를 창출

역사와 관련된 정보를 LOD로 발행함으로써 자료간 연계가 어느 정도 이루어진다. 기존에 정형황된 데이터나 메타데이터를 중심으로 한 LOD 서비스에서 탈피하여 역사적 지식을 전달하기 위한 방법으로 행위와 상태를 중심으로한 LOD 서비스를 제공한다. 이를 위한 구체적인 방법은 국어 문법에서 사용하는 의미역 개념을 RDF 트리플 구축에 적용할 것을 제안하였다. 그러나 LOD를 통해 관련된 정보에 접근할 수는 있으나 그 정보에 대한 의미와 깊이를 파악하기에는 한계가 있다. 이를 보완하기 위한 방법으로 정제된 지식의 보고인 사전 등에서 수집한 어휘 간의 관계 즉 同義語, 反意語 등의 의미론적 연관 관계와 역사의 주체인 인물 간의 관계, 인물과 사건 등을 정밀하게 정제하여 RDF로 구축하는 것이다. 관련된 정보의 연결은 가능하나 하나의 지식으로써 연계는 요원함


제도와 인사의 관계성 데이터 아카이브 연구 서론 | 사건 이벤트 데이터 온톨로지

사건 이벤트 활용모델

사건 이벤트 SPARQL 활용 예시

지식의 활용