也是回顧: 談古文書文件檢索：之六

星期二, 2月 07, 2006

談古文書文件檢索：之六

咦！等一下，標題是不是打錯字了。原本是「談古契書資料處理」，怎麼變成了「談古文書文件檢索」？

喔，原來這一陣子從 prototype 升級到 pre-β，處理的文件，應頭頭的要求改成了「明清檔案」，也就是明清時期，與台灣相關的文獻資料。古契書當然也算是一種古文書啦。

至於「資料處理」轉變為「文件檢索」，則是因為近日慢慢釐清，項老師想探索研究的「歷史資訊學」(histinformatics)，其基本必備的功能就是檢索。如此一來，做先期的資料處理、data purification，也可以說是為了文件檢索。

所以，看來寫序列短文，有時也像軟體開發，會慢慢演化 (evolve)的 :)

那麼，處理古契書和更具一般性的古文書，有什麼不同的地方嗎？

理論上是有的。因為，古契書在不同的時空背景，有它特定的格式。如果能夠善用這些特徵，應該能夠提供使用者更好用的檢索工具，甚至可以應用某些人工智能 (AI) 或資料採礦 (Data Mining) 的方法，找出一些有趣的東西。

當資料量增多，資料種類增加時，單純的全文檢索，通常是不夠的。想一想，如果不是有相當大的需求，Microsoft 為什麼要花那麼大的力氣，開發新的 desktop 搜尋系統 WinFS，利用各種文件（或稱作「可檢索物件」）的特性，來組織、搜尋與共用各式各樣資料與資訊呢？

另一方面，實務上要利用到各種文件（尤其是一般人很少研讀的「古文書」）的特徵與相異性，通常得費相當大的功夫。M$ 有錢有勢，實驗室可沒有這種本錢。因此，若沒有想清楚背後的檢索、採礦模型，弄出來的東西恐怕只能是「玩具」(toy system)，很難「實用」或甚至「好用」。

本來這一回是想談談古文書檢索中，關於 Query Syntax 的一些經驗的。不過，在這兒光是發發牢騷，就已經寫了好幾段文字 :p 因此，就留待下回，再抒發這部分的感想吧。

沒有留言:

張貼留言

也是回顧

星期二, 2月 07, 2006

談古文書文件檢索：之六

沒有留言:

Archives

最新的回應

Loading...

老骨頭們

分類