也是回顧: 談古契書資料處理：之五

星期三, 1月 25, 2006

談古契書資料處理：之五

時間過得快，似乎也該繼續「古契書資料處理」的一些討論了。

原本在「之五」的討論裡，想談談檢索系統的。但是之前將全文檢索的資料庫，從 MySQL 轉到 M$SQL 的過程，遇到了許多不甚常見的問題（參考之前的 posts: MySQL 的全文搜尋效率、MySQL 到 SQL Server 的轉換、與 SQL Server 的全文檢索），因此就耽擱了。

將古籍數位化後，接下來就會想提供檢索系統。

然而，需要提供怎樣的檢索功能呢？一個很基本的要求，就是支援全文檢索。所謂「全文檢索」，就是系統對整篇文章（而不是只對某些特定的詞彙）都做索引，因此只要使用者輸入文章中出現的字詞，系統就能夠找到這篇文章。

但是，全文檢索在許多狀況下，似乎還不夠「好用」。許多詞彙（尤其是一般性用途的字詞）在大量的文章中都會出現，因此若僅僅輸入那些字詞當作 query string，系統就會「找到」一大堆文件，每個文件雖然都有出現指定的詞彙，但是卻不見得是使用者想找的。

這下子怎麼辦呢？

一般來說，有兩種方式或許可以改善檢索的有效性：一種是，對使用者提供合適的 query-refinement 建議；另外一種，則是對文件提供「分類」或「分群」的功能。有許多古籍資料有 metadata（詮釋文件的資料），因此可利用來提供 post-query classification 的功能。此外，clustering 也是一種常見的技術，通常是利用文件中的關鍵字，自動將文件分為數個群組。

我的 prototype 只考慮加上「相當有限」的 metadata，與一些（半自動化）特殊地名擷取的機制。但即使如此，整合起來，也不是「一片蛋糕」(a piece of cake) 般地容易。更何況，現在的 prototype 已經「升級」為 pre-β 了，要做的事情，可是排了很長的隊呢。

沒有留言:

張貼留言

也是回顧

星期三, 1月 25, 2006

談古契書資料處理：之五

沒有留言:

Archives

最新的回應

Loading...

老骨頭們

分類