星期一, 11月 12, 2007

又旁聽一堂淡新檔案課程

今天早上,又旁聽了一堂淡新檔案的課程。

坦白說,自己是很想「蹺課」的。原因不是課堂太枯燥,而是自己這些日子頗為準備代課內容而傷神,實在很怕又感受到許多「可能有趣的應用」,又要花上十天半月的時間來把玩。

或許因為我是以「資訊工具能夠幫上什麼忙」的角度去旁聽「趣味」,不似修課學生必須嚴肅看待某些事(例如讀懂大半的文字內容),因此反而時有收穫。

今天,在修課學生的報告後,我講了一下 co-occurrence graphs(這是我自己取的名字),希望利用「兩個詞彙所共同出現的文件數量」來討論一些可能的應用。其中,除了上個月提到的 circle graph 之外,另外還提供了兩張圖,希望能藉此拋磚引玉,激發大家思考可能的應用,並提供改進的建議。

其中的一張圖如下(原圖「吳昌和」出現在兩個節點中,在此已經修正 -- 人啊,是很容易弄錯、寫錯、畫錯的),它用圖形的方式,描繪出「在淡新檔案中,陳元出現在 19 個案子裡,蔡雲出現在 5 個案件中,而其共同出現的案件有 4 份」。這兩個人還有與一些人經常共同出現,例如,蔡雲和丁曰健就共同出現在 3 個案件中,而陳元與方祖蔭共同出現在 4 份案件裡。(橘色的節點表示那個人曾經擔任官職。)


另外一張圖則嘗試以「人名」為主,描繪出這些人與「地名」、「淡新分類」之間共同出現的關係(也對原圖有作些小修正)


或許是我的圖形畫得還算好看,或許是歷史系的人很少看到這樣的東西,並沒有人提出想法或異議。吳密察教授藉機開導學生:除了重視質的研究外,也需重視量(通常就是統計)的研究。

吳教授平靜地說,這是資工系所提出的有趣邀請,歷史系的人應該好好地思考:如何應用(這類統計工具)並發掘一些有趣的東西。他還說,像第一張圖,傳統的歷史學者可能需要花上一年才畫得出來;而第二張圖,甚至可能得耗上五年呢。(聽起來,應該是對這些圖頗有肯定的意味。給自己一些鼓勵,自我陶醉三十秒,哇哈哈...)

那麼,今天我的旁聽有找到「可能有趣的資訊科技應用」嗎?呃,有啊...(是該高興還是嘆氣呢?)

4 則留言:

lcat 提到...

自己的經驗是,如果沒有意見,大概是根本沒專心聽,或者是根本沒聽懂 Orz

tu 提到...

嗯,或許貓說的有道理。但是,「聽懂」本來就不是一件容易的事情 -- 尤其是當自己並不熟悉「要聽懂的東西」的時候。

匿名 提到...

隨便亂寫:
*如果是有特定關係, 也許就會便成有向圖, 例如借方和貸方, 然後就可以展成一幅政商OX架構圖

* 用同時出現 (co-occurrence ) 來給出是否存在Edge, 在考慮"是否相連"之類的事情時似乎就變得有些奇怪 (得有一份文件是大家都一起出現的?)

匿名 提到...

co-occurrence graphs 不考慮方向性,所以不是有向圖。

為什麼不弄個有向圖呢?這樣不是比較 general,也可以表示比較多狀況嗎?

因為啊,光是沒有方向性的圖,就已經「夠複雜」、「夠難消化」了。

現在的主要問題,並不在模型不夠 general,而在於模型太過 powerful。太過 general & powerful,反而容易忘卻原本的目的...