Text.png

DH Lecture 2020 April 21

Digerati
이동: 둘러보기, 검색

모빌리티 인문학연구 데이터베이스 구축 컨설팅 2020. 4. 21. 건국대학교 모빌리티 인문학 연구원

모빌리티 인문학 데이터베이스 구축 방법



모빌리티 인문학 연구 데이터베이스 컨설팅

흥미로운 주제의 연구이며, 이를 위해 수집한 자료 역시 연구에 도움이 되는 유용한 데이터를 포함하고 있다고 생각됩니다. 다만 현재의 데이터베이스는 조사•수집 자료의 아카이브 역할을 하는 데 머물고 있다고 판단됩니다. 물론, 디지털 데이터베이스의 역할을 조사 자료의 집적과 공유에 한정하고, 이후의 연구는 모두 (추가적인 디지털 데이터를 생산하지 않는) 전통적인 연구방식을 따를 수도 있습니다. 반면, 본 연구가 ‘정보의 데이터화’를 통해 유의미한 지식을 발견하고 확산하는 ‘디지털 인문학적 연구방법’에도 관심을 두는 것이라면, 이를 도울 수 있는 데이터베이스 구현 방법에 대해 기본적인 조언을 드리고자 합니다.


  • 첫째, 데이터베이스는 ‘연구 자료의 저장소’를 넘어서서, 연구 그 자체를 수행하는 작업장이자 실험실이 되어야 하며, 연구를 통해 얻은 지식이 실증적인 데이터로서 입증되는 ‘연구결과물’이라는 인식을 가져야 합니다.
  • 둘째, 그렇게 되기 위해서는 이 데이터베이스를 설계할 때, 입력할 자료의 성격뿐 아니라, 연구자가 그 자료를 가지고 수행할 연구의 방법과 과정을 구체적으로 디자인해야 합니다.


이러한 성격의 학술적인 목적의 데이터베이스를 종래의 평면적인 구조(한 분야의 정보를 하나의 2차원 테이블에 수록하는)의 틀을 가지고 구현하는 것에는 한계가 있습니다. ‘의미 기반 데이베이스(Semantic Database)’라고 하는 새로운 데이터베이스 설계 프레임웍을 도입할 필요가 있습니다.

‘의미 기반 데이터베이스(Semantic Database)’란 대상 객체의 개별적인 속성 정보뿐 아니라 객체와 객체 사이의 관계에 대한 정보를 데이터로 기록함으로써, 대상 정보의 의미적 맥락을 표시할 수 있게 한 데이터베이스로서, 정보화 대상의 내용적 연관관계를 표현하는 온톨로지(Ontology) 설계를 기반으로 구현합니다.

온톨로지

‘온톨로지’란 정보화의 대상이 되는 세계를 전자적으로 표현할 수 있도록 구성한 데이터 기술 체계를 말합니다.[1]

원래 온톨로지라는 말은 철학에서 ‘존재론’이라고 번역되는 용어로서 ‘존재에 대한 이해를 추구하는 학문’의 의미를 갖는 말이었습니다. 그러한 용어가 정보과학 분야에서 중요한 개념으로 등장하게 된 것은 인간이 세계를 이해하는 틀과 컴퓨터가 정보화 대상(콘텐츠)을 이해하는 틀 사이에 유사성이 있다고 보았기 때문입니다. 그 틀은 바로 대상을 구성하는 요소들에 대응하는 개념들과 그 개념들 간의 연관 관계입니다.[2]

넓은 의미에서는 모든 정보화의 틀이 다 온톨로지일 수 있겠지만, 대상 자원을 ‘클래스’(class)로 범주화하고, 각각의 클래스에 속하는 개체(individuals)들이 공통의 ‘속성’(attribute)을 갖도록 하고, 그 개체들이 다른 개체들과 맺는 ‘관계’(relation)를 명시적으로 기술하는 것이 가장 일반적인 온톨로지 설계 방법이라고 할 수 있습니다.

온톨로지 설계 용어

온톨로지 구성 요소

(권장 용어)

용도[3] Web Ontology Language

(OWL)

Class, 클래스 공동의 속성을 가진 개체들을 묶는 범주

a group of individuals that belong together because they share some properties.

owl:Class
Individual, 개체 클래스에 속하는 개체

Instances of classes

owl:NamedIndividual
Relation, 관계 (같거나 다른 클래스에 속하는) 개체들 사이의 관계

relationships between pairs of individuals

owl:ObjectProperty
Attribute, 속성 개체가 속성으로 갖는 데이터 값

relationships from individuals to data values

owl:DatatypeProperty
Relation Attribute, 관계 속성 관계 정보에 부수되는 속성

attributes related to relations

N/A in OWL

Can be used when you implement Graph Database with Cypher Query Language.

Domain, 정의역 특정 ObjectProperty 또는 DatatypeProperty의 주어가 될 수 있는 클래스를 한정

A domain of a property which limits the individuals to which the property can be applied

rdfs:domain
Range, 치역 특정 ObjectProperty의 목적어가 될 수 있는 클래스를 한정

The range of a property limits the individuals that the property may have as its value

rdfs:range

시맨틱 데이터베이스 구현 예시

다음은 모빌리티 인문학 연구팀에서 만든 데이터를 온톨로지 기반의 시맨틱 데이터베이스로 재구성해 본 예시입니다. 주어진 데이터의 한계가 있기 때문에 이 데이터베이스 자체가 특별한 시사점을 갖기는 어렵겠습니다만, 이러한 방법론을 적용할 때 얻이질 유용성에 대해서는 이해를 넓히실 수 있을 것입니다.

예시 1: 「문화횡단적 각색」 시맨틱 데이터베이스


  • 원작-각색 작품 관계 1
  • 원작-각색 작품 관계 2
  • 1999년에 발표된 원작 및 각색 작품
  • ‘일본’과 ‘드라마’를 주제로 하는 각색 작품 네트워크

예시 2: 「자동차 광고 역사」 시맨틱 데이터베이스



  • 광고주(자동차 회사) 변천 1
  • 광고주(자동차 회사) 변천 2
  • 키워드 어휘 ‘품위’를 포함하는 광고 문안
  • 키워드 어휘 ‘품위’를 포함하는 광고 문안에 포함된 다른 키워드 네트워크



  1. 정보기술 분야에서 말하는 ‘온톨로지(ontology)’에 대한 가장 일반적인 정의는 그루버(Gruber, Thomas. 1959~ )가 말한 ‘명시적 명세화의 방법에 의한 개념화’(explicit specification of a conceptualization)이다. (Gruber, ‘A Translation Approach to Portable Ontology Specifications’, Knowledge Systems Laboratory Technical Report KSL 92-71, Stanford University, 1992) 여기서 ‘개념화’(conceptualization)라는 것은 정보화하고자 하는 대상 세계를 일정한 체계 속에서 파악하는 것, 예를 들면 그 세계에 무엇이 있고, 그것은 어떤 속성을 품고 있으며, 그것들 사이의 관계는 무엇인가 하는 일정한 질문의 틀 속에서 대상 세계를 이해하는 방식이라고 할 수 있다. ‘명세화’(specification)란 대상 세계에 존재하는 개체, 속성, 관계 등을 일목요연한 목록으로 정리하는 것, 그리고 ‘명시적’(explicit)이라는 그 정리된 목록을 사람뿐 아니라 ‘컴퓨터가 읽을 수 있도록’(machine readable) 한다는 것이다.
  2. 김현, 「한국 고전적 전산화의 발전 방향 - 고전 문집 지식 정보 시스템 개발 전략 -」, 『민족문화』 28 (2005)
  3. OWL Web Ontology Language Overview, W3C Recommendation