모바일 메뉴 닫기
 

2011년에 '언어정보연구센터'의 이름을 '언어관측소'로 바꾸었다. 한국인의 언어사용을 반영한 다양한 형태의 언어 자료를 구축하고, 구축된 언어자료를 언어정보학적 방법론을 사용하여 분석하는 연구 활동을 수행해 오고 있다.

 

언어관측소 구축 언어자료

 

● 말뭉치

 

번호

항목

개요

규모

1

연세말뭉치 1

연세 말뭉치 중 가장 이르게 구축된 말뭉치로, '현대 한국인의 독서 실태'에 관한 설문 조사에 의해 구축된 균형 말뭉치. 표본의 대표성을 확보하고 표본 선정 기준을 마련하기 위해, '전문가 조사'에서는 교과서의 배제 또는 표집 비율 조정, 문제 번역물의 표집과 관계된 문제, 독서물의 유목 분류 문제에 대한 조사가 이루어졌으며, '일반인 조사'에서는 전문가 연구의 결과를 토대로 구축됨. 

 샘플 텍스트 말뭉치. 자세한 것은, 정찬섭 외 (1990:7~70) 참조 바람.

2,900,000

2

연세 말뭉치 2

도서 대출 빈도에 따른 균형 잡힌 말뭉치를 구성할 목적으로 주제별 선정 기준을 사용함. 문헌정보학적 방법을 응용한 것으로, 가능한 모든 주제 분야의 낱말이 망라되도록 하기 위해 듀이 섭진 분류법(Dewey Decimal Classification) 을 이용하여 한국어 문헌을 크게 열 가지 대범주(총류, 철학, 종교, 사회, 과학, 언어학, 순수과학, 응용과학, 예술, 문학, 역사 등의 분야)로 나누어 수집함. 또한 도서의 대출 빈도는 각 낱말의 인지도를 간접적으로 나타낸다는 전제 아래, 주로 1987~1988년의 도서를 대상으로 대출빈도가 높은 자료를 중심으로 하여, 234개의 표본을 선정하여 1990년~1998년에 걸쳐 구축됨. 총류(7.8%), 철학(9.9%), 종교(10.7%), 사회과학(12.8%), 언어(5.7%), 순수과학(11%), 응용과학(11.7%), 예술(8.1%), 문학(11.2%), 역사(11.3%) 등의 주제별 구성으로 구축되어 있음.

1,100,000

3

연세 말뭉치 3

사람들이 많이 접하는 문헌에 각 낱말의 인지도가 간접적으로 반영된다고 보고, 1980년대 우수 출판물 목록에서 표본을 선정.

5,980,000

4

연세말뭉치 4

실제 사용된 입말을 녹음하여 전사하는 '순수 입말'(구어)과, 희곡, 방송 대본, 시나리오 따위를 중심으로 한 '버금 입말'(준구어)로 구성. 대화(26%), 강연(24%), 상담(14%), 희곡·대본(13%), DJ방송(13%), 토론(8%), 회의(2%), 등의 내용으로 구성되어 있다. 다른 글말뭉치와는 달리, 여기에는 발화자 참여자의 나이, 성별, 직업에 대한 정보, 발화참여자의 수와 발화의 성격, 전사자의 정보, 녹음시간 정보 등이 덧붙여져 있음.

770,000

5

연세말뭉치 5

1970년대 문헌을 대상으로 하여, 교과서에서 신문에 이르는 다양한 문헌 자료로 구성. 1970년대 문헌을 대상으로 하여, 신문(10%), 소설·수필(50%), 일반 서적(35%), 교과서(5%) 등의 문헌 자료를 수집함으로써 구축됨.

8,600,000

6

연세말뭉치 6

해방 이후의 우리말의 모습을 제대로 반영한 말뭉치 구축을 위해, 1960년대 문헌을 대상으로 하여 말뭉치를 구축하기 시작하였으며, 1000만 어절을 목표로 하고 있음.

7,230,000

7

연세말뭉치 7

1990년대 중반까지의 자료로 주로 소설과 수필로 이루어져 있음. 1994년부터 1995년에 걸쳐 구축됨.

13,670,000

8

연세말뭉치 8

초등학교 전 과목 및 중·고등학교의 국어, 사회를 중심으로 구성. 제5차(한영균 말뭉치), 제6차 교과과정의 두 종류.

870,000

9

연세말뭉치 9

순 우리말의 사용 빈도가 높고 문장도 비교적 우리말의 구조에 맞게 사용되는, 아동 교육용 도서 중에서 적합한 자료를 선정하여, 1996년에 구축됨.

1,500,000

10

연세말뭉치 10

 편찬을 위해 보완된 1시기(1945~1965년) 말뭉치 중 단행본으로 구성

780,000

11

연세말뭉치 11

편찬을 위해 보완된 1시기(1945~1965년) 말뭉치 중 교과서로 구성

730,000

12

연세 20세기 

한국어 말뭉치

20세기 문헌을 출판 시기와 텍스트 유형을 기준으로 수집하여 구축한 문어 원시 말뭉치

150,378,870

13

한국어 교재 말뭉치(전체)

1990년대 한국어 교육 기관의 한국어 교재 텍스트를 입력하여 구축한 말뭉치

724,856

14

한국어 교재 말뭉치(대화)

1990년대 한국어 교육 기관의 한국어 교재 텍스트 중 도입부의 대화만을 입력하여 구축한 말뭉치

119,598

15

연세 한국어 

학습자 말뭉치

연세대 언어연구교육원의 수강생이 생산한 작문을 제공받아 구축한 한국어 학습자 말뭉치

278,542

16

광복 이후 초등 

국어 교과서 말뭉치

교수요목기 이후 발간된 초등학교 국어 교과서를 모두 입력하여 구축한 말뭉치

1,496,280

17

6,7차 초등 

교과서 말뭉치

6차, 7차 교육과정의 교과서를 연세한국어사전 기준으로 동형어 수준까지 주석한 말뭉치

1,681,769

18

연세 문어 

균형 말뭉치

다양한 장르의 텍스트를 포함하여 구축한 문어 말뭉치

1,054,362

19

연세 구어 

균형 말뭉치

공적 대화와 사적 대화, 독백과 대화를 골고루 포함하는 구어 말뭉치

998,934

20

연세 다의어 말뭉치

한국어 의미 빈도 사전을 위해 구축한 다의어 수준까지 주석이 된 말뭉치

1,165,224

21

연세 한글 대장경 

말뭉치

불설류를 비롯한 경문과 서문 및 해제로 구성된 말뭉치

386,472

22

독립신문 말뭉치

독립신문의 국문 텍스트 원자료를 구축한 후 원문 대조 교정을 거친 말뭉치

144,309

23

근대 유행가요 

말뭉치

1930~1940년대 음반에 실린 유행가요 가사 말뭉치

29,339

24

연세 다면자료 

말뭉치

발화 촬영 영상, 음성 전사 텍스트, 비언어 행위 주석으 구성된 말뭉치

18,986

25

트위터 말뭉치

2011년 10월 한 달간 작성된 한국어 트위터를 수집하여 구축한 말뭉치

945,175,620

26

정치 담화 말뭉치

담화 분석을 위해 주제를 정치로 한정하여 구축한 말뭉치

306,681

 

합계

 

1,148,089,842

 

● 언어지도

지도 구축 및 분석 도구인 GIS(지리 정보 시스템)를 사용하여, 전국 한국어 교육기관 분포 지도, 세계 한국어 교육기관 분포 지도, 결혼 이민 여성 및 이주 노동자를 포함한 국내 거주 외국인 분포 지도 등을 구축하였다. 구축된 언어지도 가운데 일부는 HK인문언어사업단 홈페이지에 공개되어 있다.