星期二, 2月 07, 2006

談古文書文件檢索:之六

咦!等一下,標題是不是打錯字了。原本是「談古契書資料處理」,怎麼變成了「談古文書文件檢索」?

喔,原來這一陣子從 prototype 升級到 pre-β,處理的文件,應頭頭的要求改成了「明清檔案」,也就是明清時期,與台灣相關的文獻資料。古契書當然也算是一種古文書啦。

至於「資料處理」轉變為「文件檢索」,則是因為近日慢慢釐清,項老師想探索研究的「歷史資訊學」(histinformatics),其基本必備的功能就是檢索。如此一來,做先期的資料處理、data purification,也可以說是為了文件檢索。

所以,看來寫序列短文,有時也像軟體開發,會慢慢演化 (evolve)的 :)

那麼,處理古契書和更具一般性的古文書,有什麼不同的地方嗎?

理論上是有的。因為,古契書在不同的時空背景,有它特定的格式。如果能夠善用這些特徵,應該能夠提供使用者更好用的檢索工具,甚至可以應用某些人工智能 (AI) 或資料採礦 (Data Mining) 的方法,找出一些有趣的東西。

當資料量增多,資料種類增加時,單純的全文檢索,通常是不夠的。想一想,如果不是有相當大的需求,Microsoft 為什麼要花那麼大的力氣,開發新的 desktop 搜尋系統 WinFS,利用各種文件(或稱作「可檢索物件」)的特性,來組織、搜尋與共用各式各樣資料與資訊呢?

另一方面,實務上要利用到各種文件(尤其是一般人很少研讀的「古文書」)的特徵與相異性,通常得費相當大的功夫。M$ 有錢有勢,實驗室可沒有這種本錢。因此,若沒有想清楚背後的檢索、採礦模型,弄出來的東西恐怕只能是「玩具」(toy system),很難「實用」或甚至「好用」。

本來這一回是想談談古文書檢索中,關於 Query Syntax 的一些經驗的。不過,在這兒光是發發牢騷,就已經寫了好幾段文字 :p 因此,就留待下回,再抒發這部分的感想吧。

沒有留言: