星期三, 1月 25, 2006

談古契書資料處理:之五

時間過得快,似乎也該繼續「古契書資料處理」的一些討論了。

原本在「之五」的討論裡,想談談檢索系統的。但是之前將全文檢索的資料庫,從 MySQL 轉到 M$SQL 的過程,遇到了許多不甚常見的問題(參考之前的 posts: MySQL 的全文搜尋效率MySQL 到 SQL Server 的轉換、與 SQL Server 的全文檢索),因此就耽擱了。

將古籍數位化後,接下來就會想提供檢索系統。

然而,需要提供怎樣的檢索功能呢?一個很基本的要求,就是支援全文檢索。所謂「全文檢索」,就是系統對整篇文章(而不是只對某些特定的詞彙)都做索引,因此只要使用者輸入文章中出現的字詞,系統就能夠找到這篇文章。

但是,全文檢索在許多狀況下,似乎還不夠「好用」。許多詞彙(尤其是一般性用途的字詞)在大量的文章中都會出現,因此若僅僅輸入那些字詞當作 query string,系統就會「找到」一大堆文件,每個文件雖然都有出現指定的詞彙,但是卻不見得是使用者想找的。

這下子怎麼辦呢?

一般來說,有兩種方式或許可以改善檢索的有效性:一種是,對使用者提供合適的 query-refinement 建議;另外一種,則是對文件提供「分類」或「分群」的功能。有許多古籍資料有 metadata(詮釋文件的資料),因此可利用來提供 post-query classification 的功能。此外,clustering 也是一種常見的技術,通常是利用文件中的關鍵字,自動將文件分為數個群組。

我的 prototype 只考慮加上「相當有限」的 metadata,與一些(半自動化)特殊地名擷取的機制。但即使如此,整合起來,也不是「一片蛋糕」(a piece of cake) 般地容易。更何況,現在的 prototype 已經「升級」為 pre-β 了,要做的事情,可是排了很長的隊呢。

沒有留言: