簡介
所謂語料庫是指大規模資訊化處理過的語言資料的集合;它在語言研究的諸多領域應用廣泛,能夠有效反映語言的本質以及各種變化。
延世語料庫肇始于‘韓國語辭典編纂會’成立的1986年;從1988年開始,我院開始著手‘延世語料庫1’的語料標本選定工作,這標誌著語料庫建設正式啟動。在初期階段語料庫建設主要是以辭典編纂為目的,同時也囊括了國語研究、韓國語教育、國語教育、人文語言學等諸多領域的各種語言資料,並對其進行了資訊化處理。截至目前,語言資訊研究院所創建的‘延世語料庫’清單可參見下列清單。其中,用顏色標注的語料庫條目則可以通過‘延世語料庫索引檢索系統’進行查詢使用。
目錄
編號 |
項目 |
概述 |
規模 |
1 |
延世語料庫 1 |
延世語料庫中,創建時間最早的語料庫;依據‘現代韓國人的讀書現狀’問卷調查而建立的均衡性語料庫。為了確保語料標本的代表性和相關標本選定標準,在‘專家調查’階段,重點調查了教科書的刪減或篩選的比例、問題翻譯內容的篩選以及相關問題和讀物的類目分類等問題。而在‘普通人調查’階段,則主要參考專家意見的研究結果而進行。關於語料樣本及語料庫本身的詳細介紹,請參考鄭燦燮(1990:7~70)。 |
2,900,000 |
2 |
延世語料庫 2 |
為了構建以圖書借閱頻率為基礎的均衡性語料庫,針對不同主題制定了相應語料選定標準。為了網羅各個主題中所出現的所有詞彙,主要借鑒了文獻情報學中的研究方法;即通過採用杜威十進分類法(Dewey Decimal Classification),將韓語文獻大致分為十大類(總類、哲學、社會、科學、語言學、純科學、應用科學、藝術、文學、歷史等類目)從而進行語料收集。此外,通過假定圖書的借閱頻率可以間接反映單詞認知度,針對1987~1988年的書籍中借閱頻次較高的書目,最終選定了234本樣本書目,並在1990~1998年間完成了語料庫構建。樣本書目比例為,總類7.8%), 哲學(9.9%), 宗教(10.7%), 社會科學(12.8%), 語言(5.7%), 純科學(11%), 應用科學(11.7%), 藝術(8.1%), 文學(11.2%), 歷史(11.3%)。 |
1,100,000 |
3 |
延世語料庫 3 |
根據讀者越多的文獻中詞彙的認知度也會越高的假設,依據1980年優秀出版物目錄,從而進行了標本採集。 |
5,980,000 |
4 |
延世語料庫 4 |
主要由將實際使用的口語錄音並謄寫的‘純口語’資料,以及以戲劇、電視節目腳本、劇本為主的‘准口語’資料而組成。其比例為,對話(26%), 演講(24%), 問詢(14%), 戲劇·腳本(13%), DJ節目(13%), 政論(8%), 會議(2%)。與其他的書面語語料庫的不同之處在於,對話參與者的年齡、性別、職業資訊以及對話參與者的數量、對話的特徵、謄寫員資料、錄音時長等資訊都有收錄其中。 |
770,000 |
5 |
延世語料庫 5 |
由1970年代文獻中,包括教科書以及新聞材料在內的多種文獻資料所構成。收錄資料的比例為,新聞(10%), 小說·隨筆(50%), 一般圖書(35%), 教科書(5%)。 |
8,600,000 |
6 |
延世語料庫 6 |
以構建能夠翻譯解放之後韓語面貌的語料庫為主要目標,以1960年代的文獻資料為基礎,並以1000萬詞頻為預期目標,而構建的語料庫。 |
7,230,000 |
7 |
延世語料庫 7 |
主要以1990年中期以前的小說和隨筆等材料為主所構成,並在1994~1995年期間得以完成。 |
13,670,000 |
8 |
延世語料庫 8 |
由小學所有科目以及初高中的國語和社會科目的教學資料所構成。包括第五次教科課程(韓榮均語料庫)以及第六次教科課程。 |
870,000 |
9 |
延世語料庫 9 |
以純韓語使用頻率較高且句子結構也更符合韓語語法構造的兒童教學圖書資料為基礎,於1996年創建的語料庫。 |
1,500,000 |
10 |
延世語料庫 10 |
利用為《延世現代韓國語辭典》編纂而收集的1時期(1945~1965年)語料庫中的單行本圖書資料而構建的語料庫。 |
780,000 |
11 |
延世語料庫 11 |
利用為《延世現代韓國語辭典》編纂而收集的1時期(1945~1965年)語料庫中的教科書資料而構建的語料庫。 |
730,000 |
12 |
延世20世紀韓國語語料庫 |
以20世紀出版的文本資料為標準,而收集並創建的書面語原始語料庫。 |
150,378,870 |
13 |
韓國語教材語料庫(全部) |
以1990年代韓語教育機構編著的韓國語教材文本為基礎而創建的語料庫。 |
724,856 |
14 |
韓國語教材語料庫(對話) |
以1990年代韓語教育機構編著的韓國語教材中的導入部分對話文本為基礎而創建的語料庫。 |
119,598 |
15 |
延世韓國語學習者語料庫 |
以延時大學語言研究教育院學生所寫的作文文本為基礎,創建的韓國語學習者語料庫。 |
278,542 |
16 |
光復以後初級韓國語教科書語料庫 |
以‘教授要目期’之後所發行的小學國語教科書資料為基礎而構建的語料庫。 |
1,496,280 |
17 |
6,7次初级教科书语料库 |
以第6次、第7次教育課程的教科書資料為基礎,並依託延世韓國語辭典,進行過同形異義詞標注的語料庫。 |
1,681,769 |
18 |
延世書面語均衡語料庫 |
包括多種多樣體裁文本的書面語語料庫。 |
1,054,362 |
19 |
延世口語均衡語料庫 |
包括正式對話、非正式對話、獨白和對白在內的均衡性口語語料庫
|
998,934 |
20 |
延世多義詞語料 |
為了編纂韓國語語義頻率辭典而構建的多義詞標注語料庫。 |
1,165,224 |
21 |
延世韓文大藏經語料庫。 |
以佛說類經文和序文以及釋義文本為基礎而構建的語料庫。 |
386,472 |
22 |
獨立新聞語料庫 |
包括獨立新聞國語文本以及原始文本(校正文本)對照的語料庫。 |
144,309 |
23 |
近代流行歌謠語料庫 |
以1930~1940年代唱片中收錄的流行歌謠歌詞文本為基礎而創建的語料庫。 |
29,339 |
24 |
延世多媒體語料庫 |
包括對話錄影、語音謄寫文本、非語言行為資訊標注在內的語料庫。 |
18,986 |
25 |
推特語料庫 |
收集2011年10月期間生成的韓語推特文本而構建的語料庫。 |
945,175,620 |
26 |
政治談話語料庫 |
以語篇分析為目的,收集政論主題文本而創建的語料庫。 |
306,681 |
|
合計 |
|
1,148,089,842 |