摘 要:由于術(shù)語(yǔ)信息的多樣化需求對(duì)術(shù)語(yǔ)數(shù)據(jù)來(lái)源提出了新要求,專用語(yǔ)料庫(kù)在術(shù)語(yǔ)知識(shí)庫(kù)編纂中發(fā)揮了愈益重要的作用。 文章以氣象學(xué)科為例,通過(guò)與通用語(yǔ)料庫(kù)比較,從類型定位、語(yǔ)料規(guī)模、語(yǔ)料選擇和語(yǔ)料加工四方面明確了如何設(shè)計(jì)面向術(shù)語(yǔ)知識(shí)庫(kù)編纂的專用語(yǔ)料庫(kù)。
盧華國(guó), 中國(guó)科技術(shù)語(yǔ) 發(fā)表時(shí)間:2021-09-16
關(guān)鍵詞:術(shù)語(yǔ)信息;術(shù)語(yǔ)數(shù)據(jù);術(shù)語(yǔ)知識(shí)庫(kù);專用語(yǔ)料庫(kù)
引言
為了提高語(yǔ)言內(nèi)部或語(yǔ)言之間專業(yè)交際的效率,術(shù)語(yǔ)學(xué)家借助術(shù)語(yǔ)標(biāo)準(zhǔn)化來(lái)消除專業(yè)語(yǔ)言中的歧義,其工作原則構(gòu)成了普通術(shù)語(yǔ)學(xué)的基本理念[1] ,其實(shí)踐成果主要表現(xiàn)為術(shù)語(yǔ)庫(kù)。 自 20 世紀(jì) 90 年代開(kāi)始,伴隨著術(shù)語(yǔ)學(xué)研究的描寫(xiě)轉(zhuǎn)向[2-4] , 術(shù)語(yǔ)庫(kù)的宏觀和微觀結(jié)構(gòu)也發(fā)生了顯著的變化,不再只是以規(guī)范為導(dǎo)向的單語(yǔ)或雙語(yǔ)術(shù)語(yǔ)集,已經(jīng)轉(zhuǎn)變?yōu)榧婢邔iT用途語(yǔ)言描寫(xiě)的術(shù)語(yǔ)知識(shí)庫(kù)。 具體講,收錄的術(shù)語(yǔ)拓展至名詞以外的其他詞性;除了種-屬和部分-整體等層級(jí)概念關(guān)系,功能、因果、處所等聯(lián)想關(guān)系日益受到重視;術(shù)語(yǔ)的語(yǔ)言維度已然進(jìn)入編纂者的視野,對(duì)句法、搭配以及近義、派生等聚合關(guān)系的描寫(xiě)在一定程度上模糊了術(shù)語(yǔ)與詞語(yǔ)之間的界限。 西班牙格拉納達(dá)大學(xué)以框架術(shù)語(yǔ)學(xué)為依托,編纂了生態(tài)詞庫(kù)(EcoLexicon) [5] ,加拿大魁北克學(xué)派借鑒詞匯語(yǔ)義學(xué)相關(guān)理論,編纂了環(huán)境詞庫(kù)(DiCoEnviro) [6] ,二者可以看作是描寫(xiě)范式下的術(shù)語(yǔ)知識(shí)庫(kù)的代表。
術(shù)語(yǔ)知識(shí)庫(kù)多樣化的信息類型對(duì)數(shù)據(jù)獲取提出了新要求,對(duì)內(nèi)省和文檔閱讀等傳統(tǒng)數(shù)據(jù)獲取方式提出了新挑戰(zhàn)。 語(yǔ)料庫(kù)大大突破了編者能夠閱讀的文檔數(shù)量,彌補(bǔ)了編者在專業(yè)知識(shí)儲(chǔ)備和外語(yǔ)語(yǔ)感方面的不足,語(yǔ)料庫(kù)工具的使用又能顯著提高數(shù)據(jù)獲取的效率。 因此,語(yǔ)料庫(kù)在術(shù)語(yǔ)知識(shí)庫(kù)編纂中發(fā)揮了不可或缺的作用。 然而,筆者發(fā)現(xiàn)鮮有研究系統(tǒng)梳理面向術(shù)語(yǔ)知識(shí)庫(kù)編纂的語(yǔ)料庫(kù)與一般用途的語(yǔ)料庫(kù)在設(shè)計(jì)上的共性和差異。 一般認(rèn)為, 目的性、代表性和可機(jī)讀性是語(yǔ)料庫(kù)應(yīng)該至少滿足的三個(gè)要求,也是語(yǔ)料庫(kù)設(shè)計(jì)中需要重點(diǎn)考慮的三個(gè)因素:目的性確定了語(yǔ)料庫(kù)的類型特征,代表性制約著語(yǔ)料的規(guī)模和選擇,可機(jī)讀性則對(duì)語(yǔ)料提出了具體的加工要求。 本文將以氣象學(xué)科為例,從語(yǔ)料庫(kù)設(shè)計(jì)的類型定位以及語(yǔ)料的規(guī)模、選擇和處理四方面探討如何設(shè)計(jì)面向氣象術(shù)語(yǔ)知識(shí)庫(kù)編纂的氣象英語(yǔ)語(yǔ)料庫(kù)。
1 類型定位
不同類型的語(yǔ)料庫(kù)對(duì)語(yǔ)料的規(guī)模、選擇和處理有著不同的要求。 因此,明確氣象英語(yǔ)語(yǔ)料庫(kù)的類型定位是語(yǔ)料庫(kù)設(shè)計(jì)的前提。 語(yǔ)料庫(kù)的分類可從多個(gè)角度切入:
(1)單語(yǔ)語(yǔ)料庫(kù)和多語(yǔ)語(yǔ)料庫(kù)。 多語(yǔ)語(yǔ)料庫(kù)根據(jù)研究的目的又可以進(jìn)一步分為平行語(yǔ)料庫(kù)和可比語(yǔ)料庫(kù)。 在平行語(yǔ)料庫(kù)中,兩種語(yǔ)言的語(yǔ)料相互對(duì)應(yīng),即一種語(yǔ)言是另外一種語(yǔ)言的譯文。 在可比語(yǔ)料庫(kù)中,兩種語(yǔ)言的語(yǔ)料的收集雖然參照同一個(gè)抽樣框架,但二者在內(nèi)容上并不存在翻譯對(duì)應(yīng)關(guān)系。
(2)通用語(yǔ)料庫(kù)和專用語(yǔ)料庫(kù)。 通用語(yǔ)料庫(kù)廣泛采集某種語(yǔ)言的口、筆語(yǔ)形式,取樣時(shí)盡可能考慮口、筆語(yǔ)的主要社會(huì)變體、地域變體、行業(yè)變體等各種變異及語(yǔ)言使用的各種場(chǎng)合之間的平衡,力求最好地代表一種語(yǔ)言的全貌。 而專用語(yǔ)料庫(kù)出于某種特定的研究目的,常常只收集某特定領(lǐng)域的語(yǔ)言使用樣本。
(3)共時(shí)語(yǔ)料庫(kù)和歷時(shí)語(yǔ)料庫(kù)。 共時(shí)語(yǔ)料庫(kù)由同一時(shí)代(主要是當(dāng)代) 的語(yǔ)言使用樣本構(gòu)成, 歷時(shí)語(yǔ)料庫(kù)則由不同時(shí)代的語(yǔ)言使用樣本構(gòu)成。
(4)本族語(yǔ)語(yǔ)料庫(kù)和學(xué)習(xí)者語(yǔ)料庫(kù),前者收集的語(yǔ)言使用樣本全部源自本族語(yǔ)者,后者的語(yǔ)料則由非本族語(yǔ)學(xué)習(xí)者語(yǔ)言使用樣本構(gòu)成。
(5)口語(yǔ)語(yǔ)料庫(kù)和筆語(yǔ)語(yǔ)料庫(kù)。 雖然,在日常生活中,口頭交際是最主要的交流方式。 但是由于口語(yǔ)語(yǔ)料需要先轉(zhuǎn)寫(xiě)成文本才能為語(yǔ)料庫(kù)分析軟件進(jìn)行識(shí)別和處理,口語(yǔ)語(yǔ)料庫(kù)的建設(shè)需要耗費(fèi)更多的人力和物力, 因而純粹的口語(yǔ)語(yǔ)料庫(kù)非常少見(jiàn)[7] 4 [8] 69-74 。
綜上 所 述, 語(yǔ) 料 庫(kù) 的 分 類 體 系 可 以 用 圖 1 表示。
在上述分類體系中,從同一視角對(duì)語(yǔ)料庫(kù)的二元?jiǎng)澐种皇菫榱朔奖阌懻?并不能排除兩種劃分之間的過(guò)渡類型。 例如,時(shí)間跨度只是一個(gè)相對(duì)的概念,歷時(shí)語(yǔ)料庫(kù)和共時(shí)語(yǔ)料庫(kù)之間僅僅存在度的差異,無(wú)法截然分開(kāi)。 盡管如此,該分類體系為理解氣象英語(yǔ)語(yǔ)料庫(kù)的類型特征提供了一個(gè)參照的框架。 首先,氣象英語(yǔ)語(yǔ)料庫(kù)不關(guān)心整個(gè)語(yǔ)言的使用情況,僅專注于氣象學(xué)科,顯然應(yīng)該歸于專用語(yǔ)料庫(kù),這是氣象英語(yǔ)語(yǔ)料庫(kù)最基本的類型特點(diǎn)。 此外,氣象英語(yǔ)語(yǔ)料庫(kù)不以翻譯或跨語(yǔ)對(duì)比為研究目標(biāo)。 其次,氣象英語(yǔ)語(yǔ)料庫(kù)屬單語(yǔ)語(yǔ)料庫(kù),僅涉及英語(yǔ)這一種語(yǔ)言,旨在記錄和描寫(xiě)氣象專業(yè)英語(yǔ)的語(yǔ)義/ 概念或句法特征,所收集的語(yǔ)料源自能夠熟練使用英語(yǔ)進(jìn)行專業(yè)交際的氣象專家,主要指以英語(yǔ)為母語(yǔ)的氣象專業(yè)人士,與服務(wù)于中介語(yǔ)研究的學(xué)習(xí)者語(yǔ)料庫(kù)有著明顯的區(qū)別。 再次,氣象交際主要是一種書(shū)面語(yǔ)交際,雖然也涉及課堂教學(xué)和學(xué)術(shù)講座等口頭形式,但是本質(zhì)上屬于正式的語(yǔ)體。 因此,氣象英語(yǔ)語(yǔ)料庫(kù)可歸為筆語(yǔ)語(yǔ)料庫(kù)。 最后,氣象英語(yǔ)語(yǔ)料庫(kù)關(guān)注的是當(dāng)代氣象英語(yǔ)的使用情況, 并不特別關(guān)心氣象英語(yǔ)的發(fā)展變化,因而本質(zhì)上屬于共時(shí)語(yǔ)料庫(kù)。 通過(guò)在語(yǔ)料庫(kù)的整個(gè)分類體系中對(duì)氣象英語(yǔ)語(yǔ)料庫(kù)進(jìn)行定位,可以幫助語(yǔ)料庫(kù)的設(shè)計(jì)者從宏觀上把握其類型特征,為確定語(yǔ)料的規(guī)模大小、語(yǔ)料選擇的具體標(biāo)準(zhǔn)、語(yǔ)料的加工處理奠定基礎(chǔ)。
2 語(yǔ)料規(guī)模
語(yǔ)料的規(guī)模是指語(yǔ)料庫(kù)所包含的形符( token) 總數(shù)(包含多次出現(xiàn)且被重復(fù)計(jì)入的詞),是設(shè)計(jì)者在語(yǔ)料庫(kù)建設(shè)之初就需要考慮的一個(gè)重要方面。 20 世紀(jì) 60—70 年代,語(yǔ)料的收集主要靠鍵盤輸入和光學(xué)掃描,需要耗費(fèi)大量的時(shí)間、人力和資金。受技術(shù)水平的限制,能夠存儲(chǔ)和處理的數(shù)據(jù)量也非常有限。 而現(xiàn)在大部分文本都以電子形式存在,省去了人工輸入之苦。 就硬件而言,普通的個(gè)人電腦已經(jīng)能夠滿足語(yǔ)料庫(kù)建設(shè)對(duì)海量數(shù)據(jù)的存儲(chǔ)和處理要求。 因此,討論“語(yǔ)料規(guī)模需要有多大” 比探討“語(yǔ)料規(guī)模能有多大”更有實(shí)際意義。
語(yǔ)料規(guī)模的大小首先取決于建庫(kù)的目的。 語(yǔ)料庫(kù)可用于研究語(yǔ)法,也可以用于考察詞匯。 與詞匯相比,語(yǔ)法結(jié)構(gòu)數(shù)量少且復(fù)現(xiàn)率高,所以用于研究語(yǔ)法特征的語(yǔ)料規(guī)模較小。 例如,Biber [9] 指出 1000 詞的語(yǔ)料就能滿足研究英語(yǔ)動(dòng)詞現(xiàn)在時(shí)和過(guò)去時(shí)的需要。 用于考察詞匯特征的語(yǔ)料規(guī)模則需要大很多[10] 。 由齊普夫定律[11] 可知,部分詞匯 (如 and、the)在文本中出現(xiàn)的頻率非常高,部分詞匯的出現(xiàn)頻率卻非常低。 只有增加語(yǔ)料的規(guī)模,才可能增加相對(duì)生僻的詞匯在語(yǔ)料庫(kù)中出現(xiàn)的頻次。對(duì)詞典編纂而言,只有當(dāng)語(yǔ)料庫(kù)包含的類符總量足夠大時(shí),基于語(yǔ)料庫(kù)產(chǎn)生的詞表才能滿足詞典對(duì)收詞量的需要,為詞典編者提供足夠量的索引行作為描寫(xiě)詞匯特征的數(shù)據(jù)基礎(chǔ)。 Krishnamurthy [12] 認(rèn)為形符量達(dá)到 1 億的語(yǔ)料庫(kù)能夠滿足袖珍詞典的編纂需要,但是還不足以用來(lái)描寫(xiě)詞匯的類連接特征。 Atkins 和 Rundell [8] 54 指出有時(shí)候一個(gè)詞即使在語(yǔ)料庫(kù)中出現(xiàn) 100 次也不足以保證描寫(xiě)詞匯特征所需要的確定性( descriptive certainty)。 如果被描寫(xiě)的詞是多義詞,有著復(fù)雜的語(yǔ)法結(jié)構(gòu)和豐富的搭配型式,那么語(yǔ)料規(guī)模只有成倍增加才能滿足編者描寫(xiě)多義詞的需要。
語(yǔ)料的規(guī)模還與涉及的領(lǐng)域( domain) 或主題 (topic)的多少和寬窄有關(guān)。 就通用語(yǔ)料庫(kù)而言,為了取得平衡的效果,語(yǔ)料往往需要涵蓋多個(gè)主題, 其規(guī)模也必然很大。 相比之下,“專用語(yǔ)料庫(kù)往往較小,但是依然能夠代表專業(yè)語(yǔ)言變體,因?yàn)樯婕暗膶I(yè)領(lǐng)域越窄,代表該領(lǐng)域所需要的文本數(shù)量就越小” [13] 408 。 專用語(yǔ)料庫(kù)在語(yǔ)料規(guī)模方面的這一特點(diǎn)與術(shù)語(yǔ)自身的特點(diǎn)是分不開(kāi)的。 首先,與通用詞匯比,術(shù)語(yǔ)具有專業(yè)特殊性( domain-specificity), 數(shù)量相對(duì)少,在專業(yè)文本中的分布密集程度高。 因此,規(guī)模較小的專用語(yǔ)料庫(kù)也能夠滿足術(shù)語(yǔ)研究對(duì)覆蓋范圍和復(fù)現(xiàn)率的要求。 其次,由于術(shù)語(yǔ)在搭配方面透明度高且規(guī)律性強(qiáng),無(wú)需借助對(duì)大量語(yǔ)料的頻次統(tǒng)計(jì)以濾掉那些高度依賴語(yǔ)境的非典型搭配 (例如,. . . went to the graveyard with weeping eyes and hairs 中的軛式搭配 weeping eyes and hairs)。最后,在術(shù)語(yǔ)中,單義術(shù)語(yǔ)占據(jù)多數(shù),即使有多義術(shù)語(yǔ),其 義 項(xiàng) 數(shù) 量 與 通 用 語(yǔ) 言 中 的 常 用 詞 匯 ( 如 break)也不可同日而語(yǔ)。 因此,描寫(xiě)術(shù)語(yǔ)需要的索引行的數(shù)量在理論上比描寫(xiě)常用詞匯要小。
Bowker 和 Pearson [14]45 指出“不應(yīng)該想當(dāng)然地認(rèn)為(專用語(yǔ)料庫(kù)) 總是越大越好”。 李德俊[15] 98 也提醒說(shuō),由于“規(guī)模悖論”的存在,語(yǔ)料庫(kù)的規(guī)模并不是越大越好,在語(yǔ)料庫(kù)建設(shè)時(shí),要特別注意“收益遞減率”(the law of diminishing returns)。 作為典型的專用語(yǔ)料庫(kù),氣象英語(yǔ)語(yǔ)料庫(kù)僅涉及氣象專業(yè)文本,其語(yǔ)料規(guī)模無(wú)需達(dá)到通用語(yǔ)料庫(kù)的級(jí)別。 參考同類面向術(shù)語(yǔ)知識(shí)庫(kù)編纂的專用語(yǔ)料庫(kù)的設(shè)計(jì)經(jīng)驗(yàn)(如[16]),筆者認(rèn)為氣象英語(yǔ)語(yǔ)料庫(kù)的語(yǔ)料規(guī)模至少達(dá)到百萬(wàn)級(jí)別,才能滿足氣象術(shù)語(yǔ)知識(shí)庫(kù)術(shù)語(yǔ)知識(shí)描寫(xiě)對(duì)語(yǔ)料規(guī)模的要求。 此外,考慮到氣象英語(yǔ)中新術(shù)語(yǔ)、新用法持續(xù)出現(xiàn)的特點(diǎn),氣象英語(yǔ)語(yǔ)料庫(kù)應(yīng)該呈現(xiàn)出一定的開(kāi)放性,允許編者根據(jù)編纂的實(shí)際需要定期補(bǔ)充新文本。 換言之,氣象英語(yǔ)語(yǔ)料庫(kù)的語(yǔ)料收集不是一次就能完成的,而是一個(gè)在百萬(wàn)級(jí)別基礎(chǔ)上不斷充實(shí)的動(dòng)態(tài)過(guò)程。
3 選擇標(biāo)準(zhǔn)
語(yǔ)料有規(guī)模大小之別,但代表性是其共同特點(diǎn)。 語(yǔ)料的代表性主要通過(guò)對(duì)文本的選擇來(lái)實(shí)現(xiàn)。文本選擇的標(biāo)準(zhǔn)可以分為內(nèi)部標(biāo)準(zhǔn)和外部標(biāo)準(zhǔn)兩類。 就通用語(yǔ)料庫(kù)而言,語(yǔ)料選擇的內(nèi)部標(biāo)準(zhǔn)是指文本所共享的語(yǔ)言或文體特征。 Atkins 和 Rundell [8] 54 介紹了基于內(nèi)部標(biāo)準(zhǔn)的文本選擇過(guò)程: (1)選擇系列來(lái)源不同的文本;(2) 分析文本中反復(fù)出現(xiàn)的詞匯或語(yǔ)法特征(如語(yǔ)態(tài)、人稱、搭配); (3)基于這些特點(diǎn)嘗試對(duì)文本進(jìn)行分類;(4) 收集更多能夠包含這些語(yǔ)言特征的文本,繼續(xù)分析文本的語(yǔ)言特征,改進(jìn)其分類,收集更多文本,直至這些特征在語(yǔ)料庫(kù)中更清晰地反映出來(lái)。 值得注意的是,依據(jù)內(nèi)部標(biāo)準(zhǔn)從語(yǔ)料中獲取的數(shù)據(jù)可能因循環(huán)論證而信度受損[17] 171 。 鑒于此, Sinclair [17]提出按照文本的情景、功能等非語(yǔ)言( non-linguistic) 或語(yǔ)言外(extra-linguistic)特征選擇語(yǔ)料,這樣至少可以使語(yǔ)言特征在語(yǔ)料庫(kù)建設(shè)的開(kāi)始階段不受文本選擇的影響。 語(yǔ)料庫(kù)的建設(shè)者在按照外部標(biāo)準(zhǔn)選擇語(yǔ)料的同時(shí),還可以根據(jù)從語(yǔ)料分析中獲取的語(yǔ)言特征評(píng)估和改進(jìn)語(yǔ)料的代表性[18]150 ,從而把外部標(biāo)準(zhǔn)和內(nèi)部標(biāo)準(zhǔn)統(tǒng)一到文本的選擇過(guò)程中。
專用語(yǔ)料庫(kù)也可以把語(yǔ)言特征作為選擇專業(yè)文本的內(nèi)部標(biāo)準(zhǔn)。 Halskov [19]主張把易讀性(readability)和專業(yè)知識(shí)密度作為衡量專業(yè)文本質(zhì)量的重要指標(biāo)。 他認(rèn)為易讀性是學(xué)術(shù)文本的重要特征, 與句子長(zhǎng)度、詞(包括復(fù)合詞) 長(zhǎng)度和被動(dòng)語(yǔ)態(tài)的使用量呈反比關(guān)系,與通用詞匯密度和人稱代詞的使用量呈正比關(guān)系。 專業(yè)知識(shí)密度是學(xué)術(shù)文本的另一個(gè)特征,與未登錄詞( out of vocabulary words, 指在自然語(yǔ)言處理中沒(méi)有被詞典收錄的各類專有名詞、縮略語(yǔ)、新增詞匯等)和知識(shí)型式(主要包含詞匯或語(yǔ)法標(biāo)記語(yǔ),能夠幫助文本讀者理解概念的意義和概念之間的關(guān)系)的密度呈正比關(guān)系。 換言之,易讀性越低,知識(shí)密度越高,文本質(zhì)量就越高。易讀性和知識(shí)密度雖然為專用語(yǔ)料庫(kù)的文本選擇提供了參考,但是由于偏好知識(shí)密集型文本,容易造成文本類型單一的缺點(diǎn)。
Bowker 和 Pearson [14] 51 指出,為了保證更全面地覆蓋專門用途語(yǔ)言的概念和語(yǔ)言特征,專用語(yǔ)料庫(kù)應(yīng)該選擇與所涉學(xué)科相關(guān)的各類文本。 他們根據(jù)參與方把專業(yè)交際分為專家-專家、專家-初學(xué)者(initiate)、相對(duì)專家(relative expert) -外行(uninitiate)和老師-學(xué)生四種類型[20]35-39 。 他們認(rèn)為,第三種交際不僅術(shù)語(yǔ)密度低,而且對(duì)術(shù)語(yǔ)的使用也比 較隨意,因而主張把該類交際中涉及的文本排除在語(yǔ)料庫(kù)之外。 筆者認(rèn)為在該類交際中,鑒于信息接受者的專業(yè)知識(shí)水平低,信息發(fā)出者為了有效傳遞專業(yè)信息,往往以深入淺出的方式對(duì)核心概念進(jìn)行解釋,專業(yè)文本因而提供了較豐富的認(rèn)知語(yǔ)境信息,也值得納入專用語(yǔ)料庫(kù)的選材范圍。
就氣象英語(yǔ)語(yǔ)料庫(kù)而言,這四類交際場(chǎng)景涉及專著(如 Severe Convective Storms) 和學(xué)術(shù)期刊(如 Atmospheric Research)、專業(yè)教材(如 An Introduction to Dynamic Meteorology)、報(bào)刊科普或?qū)谖恼?如 ScienceDaily 網(wǎng)站上有關(guān)氣象的科普文章)、入門級(jí)教材( 如 Essentials of Meteorology: An Invitation to the Atmosphere) 等文本類型。 Bergenholtz 和 Tarp [21]94指出專用語(yǔ)料庫(kù)在選擇文本的時(shí)候還應(yīng)該兼顧各個(gè)子學(xué)科并根據(jù)其重要性確定各類文本在語(yǔ)料中所占的比重。 具體到氣象英語(yǔ)語(yǔ)料庫(kù),對(duì)語(yǔ)料的選擇應(yīng)該至少涵蓋大氣、大氣探測(cè)、大氣物理學(xué)、大氣化學(xué)、動(dòng)力物理學(xué)、天氣學(xué)、氣候?qū)W、應(yīng)用氣象學(xué) 8 個(gè)學(xué)科分支。
4 加工處理
語(yǔ)料庫(kù)的一大優(yōu)勢(shì)是可以借助分析軟件對(duì)語(yǔ)料進(jìn)行多文本檢索,快速提取所需要的具體信息或統(tǒng)計(jì)某一語(yǔ)言特征的整體分布情況。 語(yǔ)料的可機(jī)讀性是語(yǔ)料庫(kù)發(fā)揮這一優(yōu)勢(shì)的前提。 為此,首先需要對(duì)選取的語(yǔ)料進(jìn)行清潔處理。 用于氣象英語(yǔ)語(yǔ)料庫(kù)建設(shè)的語(yǔ)料資源多是 PDF 和 HTML 數(shù)字文本,在投入使用之前,需要統(tǒng)一轉(zhuǎn)換成純文本。 在此過(guò)程中,還會(huì)產(chǎn)生一些不合規(guī)范的符號(hào)或格式, 若不加以清理會(huì)導(dǎo)致詞匯分析、搭配統(tǒng)計(jì)不準(zhǔn)確以及詞性賦碼出錯(cuò)或無(wú)法進(jìn)行[7] 32 。 此外,由于語(yǔ)料來(lái)源于各種類型的出版物,被選取的文本可能還包含致謝、版權(quán)頁(yè)、頁(yè)頭書(shū)名、圖表公式、索引目錄、參考文獻(xiàn)等內(nèi)容。 它們對(duì)氣象術(shù)語(yǔ)知識(shí)庫(kù)編纂沒(méi)有參考價(jià)值,也需要從文本中清理出去[8]85 。
在進(jìn)行必要的清理之后,還需要對(duì)語(yǔ)料做進(jìn)一步的處理,以便借助軟件從語(yǔ)料分析中得到更準(zhǔn)確的結(jié)果:(1)分詞處理( tokenization)是語(yǔ)料預(yù)處理中的一個(gè)常見(jiàn)步驟,指將一連串的字符轉(zhuǎn)換成相互分離、容易識(shí)別的形符。 梁茂成、李文中和許家金[7] 45 指出,如果不對(duì)語(yǔ)料進(jìn)行分詞處理,一來(lái)容易導(dǎo)致檢索困難,二來(lái)可能會(huì)使語(yǔ)料庫(kù)的頻率統(tǒng)計(jì)出現(xiàn)誤差,還可能會(huì)影響語(yǔ)料庫(kù)的標(biāo)注和后期加工。 (2)詞目還原( lemmatization)是語(yǔ)料預(yù)處理中的另一項(xiàng)基本操作,是指將詞匯的各種屈折形式映射至原形,使分析軟件能夠把它們歸并為同一個(gè)類符,從而把與詞目相關(guān)的各類統(tǒng)計(jì)信息匯總給編者。 氣象英語(yǔ)語(yǔ)料庫(kù)同樣有必要進(jìn)行分詞和詞目還原,但是由于某些分析軟件( 如術(shù)語(yǔ)提取軟件 TermoStat、搭配關(guān)系和概念關(guān)系提取軟件 Sketch Engine)已經(jīng)整合了這兩項(xiàng)功能,語(yǔ)料庫(kù)的建設(shè)者無(wú)需對(duì)語(yǔ)料再做這方面的處理。
Leech [22]4 指出“為了從語(yǔ)料庫(kù)中提取信息,經(jīng)常得先從輸入信息開(kāi)始”。 對(duì)語(yǔ)料進(jìn)行清理、分詞和削尾處理之后,語(yǔ)料庫(kù)已經(jīng)可以投入使用,但是為了讓使用者更合理地解讀由軟件獲取的分析結(jié)果,還需要增加元數(shù)據(jù)(meta-data)標(biāo)記,盡可能恢復(fù)在語(yǔ)料采集中丟失的語(yǔ)境信息。 在各類元數(shù)據(jù)中,文本分類信息和結(jié)構(gòu)信息對(duì)合理解讀從語(yǔ)料庫(kù)中獲取的數(shù)據(jù)特別重要[18]155 。 就英語(yǔ)氣象術(shù)語(yǔ)知識(shí)庫(kù)而言,前者旨在明確某一具體文本在氣象學(xué)學(xué)科體系中的定位,可以幫助編者確定某一術(shù)語(yǔ)或特征的學(xué)科分支來(lái)源。 后者旨在說(shuō)明文本的各組件之間的界限(如學(xué)術(shù)論文的摘要、綜述、結(jié)論等組件)。 這類信息可幫助編者確定某一語(yǔ)言特征在文本中的不同位置,從而結(jié)合文本結(jié)構(gòu)對(duì)數(shù)據(jù)做出更全面的解讀。
語(yǔ)料還需要進(jìn)行必要的標(biāo)注。 對(duì)術(shù)語(yǔ)數(shù)據(jù)庫(kù)創(chuàng)建而言,術(shù)語(yǔ)、搭配和概念關(guān)系這三類信息至關(guān)重要,一般需要利用正則表達(dá)式設(shè)置復(fù)雜的檢索條件才能加以提取。 以下是兩款軟件從語(yǔ)料中提取術(shù)語(yǔ)、搭配和概念關(guān)系等信息類型所使用的檢索語(yǔ)法:
TermoStat 的術(shù)語(yǔ)檢索語(yǔ)法: (A| N)? (A | N)? (A | N)? (A | N)? (A | N)? N [23] Sketch Engine 的“動(dòng)詞+名詞”搭配檢索語(yǔ)法: 1: "V" "(DET|NUM|ADJ|ADV|N)"∗ 2: "N" Sketch Engine 的種屬關(guān)系檢索語(yǔ)法: HYPONYM, | ( | : | is| belongs ( to) ( a | the | …) type | category |…of HYPERNYM [24]
從以上檢索語(yǔ)法可知,增加詞性標(biāo)注是提取以上信息類型的前提。 因此,對(duì)語(yǔ)料進(jìn)行詞性賦碼是面向術(shù)語(yǔ)數(shù)據(jù)庫(kù)的語(yǔ)料加工處理的基本內(nèi)容。 術(shù)語(yǔ)提取軟件 TermoStat 默認(rèn)對(duì)上傳的語(yǔ)料進(jìn)行賦碼處理。 語(yǔ)料庫(kù)檢索軟件 Sketch Engine 為英語(yǔ)就提供了 11 種詞性賦碼集,語(yǔ)料庫(kù)建設(shè)者根據(jù)需要選擇其中一種賦碼后,軟件自動(dòng)完成對(duì)語(yǔ)料的詞性賦碼。
5 結(jié)語(yǔ)
語(yǔ)料庫(kù)設(shè)計(jì)是從語(yǔ)料庫(kù)中提取可靠數(shù)據(jù)的關(guān)鍵。 為了建設(shè)面向術(shù)語(yǔ)知識(shí)庫(kù)編纂的語(yǔ)料庫(kù),編者需要首先在語(yǔ)料庫(kù)分類體系中為專用語(yǔ)料庫(kù)定位以明確其類型特征,然后根據(jù)語(yǔ)料庫(kù)的建設(shè)目的和涉及的主題范圍確定語(yǔ)料的大致規(guī)模,并根據(jù)數(shù)據(jù)提取中出現(xiàn)的新情況向語(yǔ)料庫(kù)中添加新語(yǔ)料。 為了保證語(yǔ)料庫(kù)的代表性,編者還需要根據(jù)專業(yè)交際的特點(diǎn)和學(xué)科的內(nèi)部構(gòu)成確定語(yǔ)料選擇的標(biāo)準(zhǔn)。最后在使用語(yǔ)料之前,還應(yīng)該對(duì)收集的文本進(jìn)行必要的格式轉(zhuǎn)換、內(nèi)容清理、信息標(biāo)注等處理。
論文指導(dǎo) >
SCI期刊推薦 >
論文常見(jiàn)問(wèn)題 >
SCI常見(jiàn)問(wèn)題 >