计算语言学

语言学
理论语言学
应用语言学
其他

計算語言學,亦稱電腦語言學英语:computational linguistics)是一門跨學科的研究領域,試圖找出自然語言的規律,建立運算模型,最終讓電腦能夠像人類般分析,理解和處理自然語言。

過去,計算語言學的研究一般由專門負責利用電腦處理自然語言的電腦學家進行。由於近年的研究顯示人類語言是超乎想像的複雜,現在的計算語言學研究多由來自不同學科的專家共同進行。一般來說,研究隊伍的成員有電腦學家、語言學家、語言專家(熟悉有關研究項目所要處理的語言的人),以至研究人工智能認知心理學數學邏輯學等的專家。

計算語言學具有理論和應用的成分。理論計算語言學聚焦於理論語言學與認知科學;應用計算語言學聚焦於模擬人類使用語言的實用成果。[1]

計算語言學會英语Association for Computational Linguistics對於計算語言學的定義是:……從計算的觀點,以科學方法研究語言的學問。計算語言學家關注於提供各種語言學現象的計算模型[2]

起源

計算語言學始於一九五零年代的美國,是人工智能研究的開端。當時,美國希望能夠利用運算又快又準確的電腦,將大量外語材料瞬間翻譯成英語;研究重點特別放在翻譯俄文寫成的科學技術刊物上,以窺探蘇聯的科技發展。[3]電腦既然比人類運算更快、更準確,當初認為電腦很快就可以開始處理語言。[4]計算與計量方法也曾經用於重建現代語言的早先形式以及將現代語言組成語群。早期的方法例如 詞彙統計學英语lexicostatistics語言年代學都證實未成熟、不準確。不過近年來跨領域研究借用生物學,尤其是基因作圖,產生了更精密的分析工具與更可靠的結果。[5]

機器翻譯無法立即產生精確的翻譯,人類語言的自動處理被視為遠比當初所設想的複雜。計算語言學這個新領域於是誕生,從而發展能夠智慧處理語言資料的演算法與軟體。「計算語言學」這個術語是由 計算語言學會英语Association for Computational Linguistics 計算語言學國際委員會英语International Committee on Computational Linguistics的起始成員大衛•海斯( David G. Hays英语David G. Hays)所創。[6]1960年代,人工智慧出現,計算語言學這個領域成為人工智慧的分支,處理人類層次的理解與自然語言的產出。

為了翻譯一種語言成為另一種語言,發覺必須理解兩種語言的語法,包括詞法句法。為了理解句法,又必須理解語義 詞彙表英语lexicon,甚至語用學。因此本來只是兩種語言之間的翻譯,演變成探究如何使用電腦去表述與處理自然語言。[7]