星期四, 12月 11, 2008

從 THDL 發掘統計的相對性意義

昨天在實驗室會議上,把最近的一些想法與心得提出來和眾人分享討論。

一個重點是,強調 THDL 應該整合檢索 (Retrieval) 與文字採礦 (Text Mining)。

原因說起來也很簡單。採礦的基礎是來自於統計(若內容是文字資料,統計的基礎就是詞頻與文件數量),但文字資料不似數字資料,經常有其模糊性。因此要深入解讀採礦的結果,通常研究者還必須檢視文件的內容,而檢索的目的,就是讓使用者能夠從資料庫中,找到「想要的文件」。

此外,由於 THDL 內容的特性(很多資料,尤其是古契書,都已經佚失),所有 THDL 文件的集合只佔所關心的母體(所有明清時期臺灣相關的重要文字資料)一小部分,因此要利用統計來解讀 THDL 的採礦結果,就必須非常小心。

在母體狀況未明之下,如何經由 text mining 來產生意義?

我的想法是:藉由比較。雖然 THDL 並沒有包含「所有」關心的文件,但它已經相對完整(當然啦,項老師有個目標是讓它「更完整」)。因此,若假設這個樣本空間就具有某種代表性(例如,假設 THDL 文件具有類似隨機抽樣的代表性),那麼把這個樣本空間當成母體,比較資料庫中的兩個文件子集,就可能得到有趣的觀察。

例如,目前的 THDL 系統,除了一般的檢索外,也可繪出這樣的統計圖:


其中 X 軸是西元的年代,Y 軸則是文件的數量。灰底的背景表示「全文含有『杜賣』的文件」,而淺紅底的區塊則表示「全文含有『絕賣』的文件」。

從這張圖,可以很明顯地看出使用「絕賣」這個詞彙的契書大致逐年遞減,而「杜賣」這個詞彙則逐漸躍居主流。

另外一個例子是:


其中,灰底的背景表示「全文含有『杜賣』、『找』以及『贖』的文件」,而淺紅底的區塊則表示「全文含有『杜賣』以及的文件」。

從這張圖,可以看出有『找』出現的杜賣相關文件,幾乎都會有『贖』字出現(例如,「不敢言贖找洗」)。如果在比較幾張類似的圖,或許可以推測明清時期的土地買主,最在意杜賣行為之後賣方還會有「贖」的要求。

雖然在設計與實作上,著實也花了好些時間與氣力,但把這些 mining tools 整合到 THDL 之後,自己還真覺得頗有成就感。畢竟,這些「簡單、直觀、說起來也沒什麼」的整合想法,當中蘊含有在這幾年逐漸體會的心得。

於是,除了「經由檢索技術,很快地找出前人所犯的明顯錯誤」(這一點應是歷史學者比較能夠接受的),我們也希望能夠「利用 mining 技術,讓使用者能夠看到趨勢上的變化、概念間的比較」。

只是,自己心裡也明白,text mining 這個領域其實還相當不成熟。要說服熟悉歷史的專家(說整合性地應用 retrieval 與 mining,應有其不可忽視的潛力),仍有一段遙遠漫長的路。

沒有留言: