IMS Focus _ 데이터 분석 기반의 한국의 예루살…
페이지정보
글쓴이 지중해지역원 조회 2,722 조회 날짜 23-07-04 13:41내용
데이터 분석 기반의 한국의 예루살렘 지역 연구동향 분석
지중해지역원 강지훈
문제제기
예루살렘은 약 3000년의 역사를 가지며 기원전부터 현재에 이르기까지 동/서양의 문명사와 글로벌 안보정세에 많은 영향을 미치는 지역입니다. 특히 3대 유일신 종교(기독교, 유대교, 이슬람교)가 예루살렘이라는 하나의 지역에 공존하는 종교의 성지이면서 반면 종교적 갈등을 비롯한 여러 원인들로 인해 분쟁이 끊이지 않는 지역이기도 합니다. 이 외에도 이스라엘이 가지는 지정학적 위치 등으로 인해 지역학 분야, 특히 해외지역학 분야에서 연구 가치가 매우 높은 지역으로 꼽힙니다. 이에 한국에서는 예루살렘 연구가 어떻게 진행되고 있는지 그 동향을 분석해 보려고 합니다. 이처럼 연구 가치가 높은 지역의 연구동향을 분석해봄으로써 향후 이 지역에 필요한 연구주제를 제안하고자 합니다.
1. 데이터 수집
연구동향을 분석하는 대표적인 방법은 관련 논문들의 주제를 살펴보는 것입니다. 이에 가장 먼저 수행되어야 할 작업은 관련 데이터의 수집입니다. 예루살렘 연구동향 파악을 위해 예루살렘을 대상으로 수행된 연구 논문들이 필요합니다. 따라서 예루살렘과 관련된 학술논문을 수집하기 위해 국내의 대표적인 학술논문제공사이트 몇 곳을 선정하였습니다. 연구동향 파악을 위해 논문의 전체내용들을 분석하는 방법이 가장 좋겠으나 이는 몇 년이 걸릴지 모릅니다. 해서 보통은 해당 논문의 제목과 키워드를 통해 동향을 분석하기도 합니다. 이 또한 일일이 사람의 노력으로 해야만 하는 시절이 있었겠습니다만 최근에는 웹에서 원하는 정보를 자동으로 추출합니다.
해당 사이트를 통해 논문을 수집하는 과정에서 논문 전체 내용을 수집해서 분석하기에는 필자의 컴퓨터가 그 분량을 감당하지 못 할 것 같습니다. 해서 논문 내용을 축약해서 설명해놓은 한글 요약문(일반적으로 A4 반페이지에서 한 페이지)을 수집합니다. 논문의 편수가 수백 건 이상이므로 자동화된 데이터 수집을 위해 크롤링(Crawling)을 활용했습니다. 크롤링을 사용하지 않으면 모든 논문을 하나하나 다운로드 받거나 혹은 웹사이트에서 요약문 부분을 드래그 한 후 복사/붙여넣기를 반복해야겠죠. 논문이 500편이라면 500번의 반복 작업을 해야만 합니다.
2. 데이터 전처리
데이터 수집이 완료되면 이 데이터들에 대한 전처리 과정이 필요합니다. 데이터 분석을 위해서는 수집된 데이터를 목적에 맞게 분석이 가능한 형태로 변경하고 가공하는데 이 과정을 데이터 전처리(Preprocessing)라고 합니다. 데이터를 분석하기 전에 데이터 전처리가 필요한 이유는 데이터의 구조에 따라 분석방법이 달라지기 때문입니다. 예를 들어 수치형 데이터들은 사칙연산 등의 계산(통계)이 가능할 것입니다. 그리고 ‘남/여’ 혹은 ‘월/화/수/목/금/토/일’처럼 데이터의 범위가 정해져있는 경우도 있습니다. 비정형 텍스트, 즉 별도의 규칙이 없는 데이터들도 있습니다. 이처럼 데이터의 성질이나 유형이 다르기 때문에 분석 방법도 달라집니다. 또한 데이터를 분석하기 위해서는 데이터를 체계적으로 정리하는 과정도 필요합니다. 예를 들면 행과 열을 가진 매트릭스 형태로 말이죠. 본 사례에서는 토픽모델링 분석과 연관성 분석이라는 두 가지 분석 방법을 병행할 예정입니다. 즉, 수집된 데이터는 각각 토픽모델링 분석을 위한 데이터 구조와 연관성 분석을 위한 데이터 구조로 전처리를 했습니다. 전처리 절차는 매우 중요합니다. 때로는 분석보다는 전처리 절차에 더 많은 노력과 시간이 소요되기도 합니다.
아래 그림은 탐색적 분석 단계입니다. 본 분석 전 몸풀기 분석 정도로 보시면 되겠습니다. 아래 그림은 예루살렘과 관련된 논문들의 요약문에 추출된 전체 단어들의 출현 빈도인데 자주 출현하는 단어 상위 15개를 추출하고 그래프로 표시했습니다. 모든 단어가 특별한 의미를 갖지는 않습니다. 의미를 부여하고 결정하는 것은 결국 사람이하는 일이니까요. 아래 그램에서는 대표적으로 ‘예루살렘’, ‘교회’, ‘논문’, ‘신학’, ‘이스라엘’, ‘유대인’, ‘신’, ‘기독교’ 등에 대한 단어가 (저자의 생각에)의미있어 보입니다. 주로 종교와 관련된 단어가 많이 출현하는 것으로 보입니다.
3. 데이터 분석
토픽모델링 분석은 관련있는 문서들에서 숨겨진 혹은 잠재되어있는 토픽(주제)을 추출해주는 알고리즘입니다. 토픽모델링 분석결과 한국의 예루살렘 연구는 크게 ‘기록물’, ‘기독교’, ‘성경’, ‘선교’ 라는 네 개의 주제로 요약할 수 있었습니다. (참고로 토픽모델링을 기반으로 생성된 네 개의 주제는 기계적인 분석결과를 기반으로 한 분석가의 해석이므로 견해는 다를 수 있습니다. 결과적으로 분석은 기계가 해 줄 순 있으나 분석에 대한 해석은 사람이 한 것입니다)
연관성 분석은 장바구니 분석이라고도 불립니다. "라면이 많이 팔린 날에는 양은냄비에 대한 매출도 높다"와 같이 상품의 소비 혹은 판매 패턴을 발견하고 라면과 양은냄비를 함께 진열하는 것이죠. 분유와 맥주를 함께 진열한 사례가 대표적입니다. 아기가 있는 부부들의 남편이 분유를 사러왔다가 맥주도 함께 사가더라는 패턴을 발견해 낸 것이죠. 이를 본 연구처럼 문서 분석에 적용시키면 “한 단어가 출현 했을 때 마치 형제처럼 함께 출현하는 단어가 있더라” 라는 개념을 사용합니다. 즉 높은 빈도로 동시에 출현하는 단어들에 연관성을 부여하고 연관성의 정도를 파악하여 분석합니다.
아래 그림은 계량적으로 생성된 분석결과를 기반으로 그려진 연관성 분석에 대한 시각화 결과입니다. 요약하면 ‘예루살렘’, ‘교회’, ‘신학’, ‘의미’, ‘논문’ 이라는 단어에 대한 중심성이 높은 것으로 보입니다. 해당 단어를 중심으로 연결된 단어들은 종교, 특히 기독교와 관련된 단어 혹은 연구와 관련된 단어가 다수 보입니다.
기계적인 분석 결과는 나왔습니다. 그 다음은 해석입니다. 분석은 기계가 해주고 분석결과에 대한 해석은 사람이 직접 수행합니다. 토픽모델링 분석과 연관성 분석 결과를 종합해서 해석해 보면 한국에서 수행되는 예루살렘 관련 연구는 종교적인 관점에서의 연구가 높은 확률 내에서 많이 수행되고 있는 것으로 판단됩니다.
이유가 뭘까요? 이유에 대해 추측해보면 예루살렘이 세계 3대 유일신 종교의 성지인 점, 국내 예루살렘 연구의 대부분이 기독교를 비롯한 종교 관련 연구기관 혹은 학술단체에서 수행된다는 점 등을 꼽을 수 있겠습니다. 반면 이슬람 또한 세계 3대 유일신 종교에 포함되는데 분석결과에서는 이슬람과 관련된 특징은 찾아볼 수 없습니다. 이는 한국의 종교분포를 통해 접근 가능하지 않을까 생각됩니다. 아무래도 한국에는 무슬림이 많지 않고(극히 일부) 이들 중 예루살렘을 연구하는 사례가 극히 드물 것이라는 생각입니다.
분석과 해석을 통해 제언까지 할 수 있으면 가장 이상적이겠습니다. 제언입니다. 한국의 예루살렘 연구는 종교적 관점에서의 연구로 다소 국한되어 있는 것으로 보입니다. 앞서 서두에 언급한 것처럼 예루살렘 지역은 다양한 이유로 연구 가치가 매우 높은 지역입니다. 따라서 종교적 관점의 연구를 포함해 문명교류학, 고고학, 역사학 등으로의 연구의 주제나 방향성을 좀 더 확장할 수 있는 시도가 필요합니다. 국내 문제(분쟁지역)와도 연계하여 현대적 함의를 이끌어 낼 수 있다면 더욱 좋겠습니다.
* 본 글은 강지훈, 조치영의 "텍스트마이닝 기반 국내 예루살렘 연구동향 분석 연구" 논문을 참고하였음.
댓글목록
댓글이 없습니다