星期五, 6月 22, 2007

從「文件的後分類」談起

約從三個月前,項老師在實驗室會議裡,就多次提到「文件檢索後分類」的重要性。

對任意的使用者查詢字串 q,系統可以計算出一個符合 q 的文件集合 R(q)。對我來說,「檢索後分類」 (post-query classification) 指的是,對 R(q) 進行分類,並將分類的結果呈現給使用者,讓使用者決定接下來要做什麼動作。

這麼簡單的想法,講起來還真的沒什麼(至少我在多年前的博士論文就提過啦)。不過,據說對「圖書資訊學」來說,這個觀念還頗新奇呢。

項老師說,他覺得「檢索後分類」和「傳統的檢索」是很不一樣的。他說,傳統的檢索,目的是「找一篇或幾篇文件」,但「檢索後分類」卻可以讓使用者「看到」文件集合的特性,因此「檢索後分類」的背後,應該還有著更深層的哲學基礎。

是啊,我也認為「檢索後分類」的背後,還有很多值得細細思考之處。例如,我覺得有一種看法就頗值得想想,那就是從「資料採礦」(Data Mining) 的角度,將這些後分類視為「mining for document patterns」。

只是,「文件檢索」和「資料採礦」,在本質上終究還是有著頗大的差異。我想,若能細細品味、思考其間的關係與異同,應該也是一件很有意思的事情吧。

4 則留言:

被掛掉的阿尼 提到...

本來早想回這篇的, 但覺得蜥蜴應該不要想工作, 就拖到現在小孩穩定了, 再來聊工作^^
資料採礦或類似的分類, 常常是建在有漂亮的座標系上的作法(例如 k-mean), 而文件檢索(文件通常被視為一堆關鍵字的組合), 如何用座標表達, 就是一直沒有好結果.
所以前一陣子做診療指引時, 先用分類目標當座標, 然後把屬性(其實是病症的關鍵字)尺度化, 牛肉網訓練的目標是由屬性取得分類的向量. 最後目的是要做病歷的近似程度(可以拿給k-mean用了), 與這個議題不同. 不過因為只做了眼科, 小範圍本來就比較沒問題, 要做到家醫科可能要有大頭想要投入才行.

tu 提到...

用座標的方式表達文件的特徵,應該只能算是「簡單數學模型」的應用吧。

問題是,不用座標(特徵向量)來表達文件特徵,也看不出有什麼好方法來將文件模型化(以供後續計算)。

也就是因為單純的數學模型效果不好,因此才會更強調「參考連結」(Referential Links)對「文件品質指標」的重要性吧。

阿尼的「診療指引」,或許可說是「資料採礦」加上一些「專家系統想法」的東西?

被掛掉的阿尼 提到...

當然知道是最簡單的數學模型, 可是問題就在連簡單的座標系都給不出來, 那些做法就總覺得只是在縫縫補補

tu 提到...

這也就是奇妙的地方啊。

必須找到「簡單、合適」的數學模型,才能有效地解決問題。合適的模型找到後,往往就覺得沒有什麼;但在沒有找到前,就只能「縫縫補補」做雜工...