也是回顧: 再談淡新檔案的文件檢索

星期五, 11月 24, 2006

再談淡新檔案的文件檢索

約莫三個星期前，我提到了一個關於「淡新檔案」的檢索問題。

試著重述一下手頭有的東西。首先，台大圖書館有具歷史意義與價值的「淡新檔案」資料。希望利用電腦來處理這些資訊，前提是這些資訊必須數位化。於是，經過繁複的數位化處理後，我們將那些資料以「件」的方式來儲存（通常一個「件」就是一份公文，儲存為一個檔案）。

現在問題來了：歷史學者並非獨立地看待每個「件」。解讀歷史，必須鑑古識今，參考時代的脈絡與環境，才能得出有價值的解析。淡新檔案中，其實是以「案」來作為「有價值資訊」的單位，每個「案」是由多個「件」所組成，而時間則可能貫穿數十年之久。

套用流行的資訊檢索方式，是可以將「件」視為檢索的文件單位。使用者輸入查詢後，檢索結果是符合查詢條件的所有「件」的列表。

是可以用後處理（Post-Query Processing）的方式，將檢索結果分類（例如，利用阿尼說的「文件夾」概念，或者我從前論文所建議的 multi-dimensional spotlights），然後將「同個案之下的相關件」彙整在一起。但是，既然「案」才是有意義的解讀單位，而且每一個「件」其實都沒有多少（通常只有幾百）個字；那麼把「案」視為文件單位，是不是更為自然、而且便利呢？

於是，寫了一些程式，粗略地實作了將「案」視為文件單位的想法。除了因為淡新檔案裡只有一千多個「案」，彰顯不出系統的威力（從大量文件中，快速地搜尋出符合條件子集的能力）外，初步的感覺還不錯。

只是，如果真的把「案」視為文件單位，那麼如何組織與呈現一個「案」下的所有「件」，甚至整合每個「件」的「詮釋資料」(metadata)，就帶出更多有待探討與解決的問題了。或許，這也是一個值得關注、思考的研究主題呢。

沒有留言:

張貼留言

也是回顧

星期五, 11月 24, 2006

再談淡新檔案的文件檢索

沒有留言:

Archives

最新的回應

Loading...

老骨頭們

分類