星期五, 11月 24, 2006

再談淡新檔案的文件檢索

約莫三個星期前,我提到了一個關於「淡新檔案」的檢索問題

試著重述一下手頭有的東西。首先,台大圖書館有具歷史意義與價值的「淡新檔案」資料。希望利用電腦來處理這些資訊,前提是這些資訊必須數位化。於是,經過繁複的數位化處理後,我們將那些資料以「件」的方式來儲存(通常一個「件」就是一份公文,儲存為一個檔案)。

現在問題來了:歷史學者並非獨立地看待每個「件」。解讀歷史,必須鑑古識今,參考時代的脈絡與環境,才能得出有價值的解析。淡新檔案中,其實是以「案」來作為「有價值資訊」的單位,每個「案」是由多個「件」所組成,而時間則可能貫穿數十年之久。

套用流行的資訊檢索方式,是可以將「件」視為檢索的文件單位。使用者輸入查詢後,檢索結果是符合查詢條件的所有「件」的列表。

是可以用後處理(Post-Query Processing)的方式,將檢索結果分類(例如,利用阿尼說的「文件夾」概念,或者我從前論文所建議的 multi-dimensional spotlights),然後將「同個案之下的相關件」彙整在一起。但是,既然「案」才是有意義的解讀單位,而且每一個「件」其實都沒有多少(通常只有幾百)個字;那麼把「案」視為文件單位,是不是更為自然、而且便利呢?

於是,寫了一些程式,粗略地實作了將「案」視為文件單位的想法。除了因為淡新檔案裡只有一千多個「案」,彰顯不出系統的威力(從大量文件中,快速地搜尋出符合條件子集的能力)外,初步的感覺還不錯。

只是,如果真的把「案」視為文件單位,那麼如何組織與呈現一個「案」下的所有「件」,甚至整合每個「件」的「詮釋資料」(metadata),就帶出更多有待探討與解決的問題了。或許,這也是一個值得關注、思考的研究主題呢。

沒有留言: