漢籍佛典進階文字處理資源

(Textual Processing Resource for Chinese Buddhist Texts)

隨著人工智慧技術於數位人文領域之應用逐步深入,數位人文領域之研究方法逐漸從表層之詞彙頻率統計等基本方式,轉入更深一層之分析與理解。而欲發展人工智慧方法,除了單純的文字語料外,常需要基於經過進一步處理與標注之語料資源,方能有效開展相關研究。是故本研究小組推展「漢籍佛典進階文字處理資源」專案,旨在提供可適用於人工智慧自然語言處理等資訊方法之漢籍佛典語料,除了做為本研究小組發展相關佛典處理所需之人工智慧技術之用外,亦希望藉由開放資源之方式,將所處理之進文字語料資源與學界共享,協助推進漢籍佛典相關研究,共同合作開創佛學數位人文研究之新方向。

漢籍佛典進階文字處理資源專案,初步將基於 CBETA 佛典文字資源針對自然語言處理研究所需,進行進一步之語料標注。首先針對佛典分詞問題,提供經由人工檢證之高品質漢籍佛典分詞之語料,作為機器學習分詞方法之訓練資料集,以為發展佛典分詞之資源。同時,本專案亦將開放基於此語料所訓練之分詞系統,提供各方自由使用並可進行 API 介接。對於需基於分詞結果之研究,可直接利用本專案之成果,無需自行重複開發相關之分詞工具,節省研究時間。此外,對於現今基於深度學習之自然語言處理方法,其模型需要相關之字詞嵌入作為輸入。本專案亦提供基於 CBETA 文本之字嵌入及詞嵌入之預訓練資料,以便各相關研究可直接利用。

本專案將持續研發提供更多進文字處理資源,包括漢籍佛典專有名詞標記語料等,以及相關之自然語言處理系統及 API,並開放提供各界先進參考利用,期能逐步建構齊備漢籍佛典研究所需之各項資源,還望學界先進不吝賜教。