星期四, 11月 29, 2007

第四堂代課

還是像個小孩子,對老師的讚美感到欣喜。

事情是這樣的。昨天代項老師上第四堂「資訊與歷史研究」的課。按照往例,我頗費神地準備投影片內容(這次的內容是關於文件分類,介紹 document classification 的一些方法,以及在 THDL 的一些可能應用)。趕幾週夜車的結果,就是弄得自己身心俱疲。

不一樣的地方是,昨天項老師有出席指導。他在課後對我說,他覺得我在內容掌握上進步很多。我對這種讚美其實相當沒有抵抗力,本來下午要花兩個小時大吐苦水的,就因為內心陶陶然而決定「只能抱怨半個小時」。

哎哎,我還是很容易被長輩用讚美來打動的。不是嗎?

星期一, 11月 26, 2007

在家幫忙帶小朋友

太太生病去看醫生,我在家幫忙帶小寶寶。

雖然帶小朋友不需要什麼高學歷,但隔行如隔山,有時真覺得帶小朋友比上班還要累。

看到阿尼在上篇 post 裡回應說,希望改行當家庭主婦。是真的嗎?我很好奇。家庭主婦其實是相當辛勞的。在我看來,如果家裡有小孩,認真的家庭主婦幾乎每天都找不到自己的空閒時間。

也許,阿尼是寫錯了,他應該是想當「家庭貴婦」吧,哈哈哈... :p

不過,稍微用心去感受時,就會在家庭的整潔、家人的健康、與小朋友的成長中,回饋到溫暖與幸福。這或許就是當家庭主婦的樂趣罷。

星期一, 11月 19, 2007

莫名其妙的忙碌生活

又過了忙碌的一週。怎麼會感覺如此疲憊、怎麼會忙碌到連寫 Blog 都沒有空?

也不過才三個月前,自己還能抽出時間到鹿鳴堂喝喝悠閒的早餐咖啡。想不到近來每天一大早就起牀、過了午夜才睡覺。連續幾個星期下來,人都累壞了。

小妹說,我給自己太大的壓力了。準備代課用的投影片,那裡需要花這麼多氣力?準備這麼久,內容一定不少,那學生怎麼能夠在短短的幾個小時內就能吸收理解?

她說得對。就如同朋友在前些時日所指點的,我把事情看得太嚴重了。

哎,我也很想「輕鬆」地去看待啊。只是,或許是個性使然,我總是講不出「自己弄不懂、不了解」的東西。Text Mining 原本就不是我所熟悉的領域,而要把它們與 THDL 串接起來,那就需要花上更多氣力了。

好處是,在短短的幾個月間,我真的對 Text Mining 在 THDL 的應用頗有感悟;但代價是:得賠上自己的悠閒時間。

有時,會覺得自己雖然多明瞭了許多 Mining 相關的技術,但就算不懂,也還不是一樣過生活?何必把自己的生活弄得這麼忙碌呢!

星期一, 11月 12, 2007

又旁聽一堂淡新檔案課程

今天早上,又旁聽了一堂淡新檔案的課程。

坦白說,自己是很想「蹺課」的。原因不是課堂太枯燥,而是自己這些日子頗為準備代課內容而傷神,實在很怕又感受到許多「可能有趣的應用」,又要花上十天半月的時間來把玩。

或許因為我是以「資訊工具能夠幫上什麼忙」的角度去旁聽「趣味」,不似修課學生必須嚴肅看待某些事(例如讀懂大半的文字內容),因此反而時有收穫。

今天,在修課學生的報告後,我講了一下 co-occurrence graphs(這是我自己取的名字),希望利用「兩個詞彙所共同出現的文件數量」來討論一些可能的應用。其中,除了上個月提到的 circle graph 之外,另外還提供了兩張圖,希望能藉此拋磚引玉,激發大家思考可能的應用,並提供改進的建議。

其中的一張圖如下(原圖「吳昌和」出現在兩個節點中,在此已經修正 -- 人啊,是很容易弄錯、寫錯、畫錯的),它用圖形的方式,描繪出「在淡新檔案中,陳元出現在 19 個案子裡,蔡雲出現在 5 個案件中,而其共同出現的案件有 4 份」。這兩個人還有與一些人經常共同出現,例如,蔡雲和丁曰健就共同出現在 3 個案件中,而陳元與方祖蔭共同出現在 4 份案件裡。(橘色的節點表示那個人曾經擔任官職。)


另外一張圖則嘗試以「人名」為主,描繪出這些人與「地名」、「淡新分類」之間共同出現的關係(也對原圖有作些小修正)


或許是我的圖形畫得還算好看,或許是歷史系的人很少看到這樣的東西,並沒有人提出想法或異議。吳密察教授藉機開導學生:除了重視質的研究外,也需重視量(通常就是統計)的研究。

吳教授平靜地說,這是資工系所提出的有趣邀請,歷史系的人應該好好地思考:如何應用(這類統計工具)並發掘一些有趣的東西。他還說,像第一張圖,傳統的歷史學者可能需要花上一年才畫得出來;而第二張圖,甚至可能得耗上五年呢。(聽起來,應該是對這些圖頗有肯定的意味。給自己一些鼓勵,自我陶醉三十秒,哇哈哈...)

那麼,今天我的旁聽有找到「可能有趣的資訊科技應用」嗎?呃,有啊...(是該高興還是嘆氣呢?)

星期三, 11月 07, 2007

代課:之三

今天早上第三次代項老師上「資訊與歷史研究」的課程,講完後只覺得人就快虛脫了。

雖然離上回代課已經有兩個星期,但這十幾天來精神狀態卻一直是緊繃的。睡眠不足、心情也無法放鬆,總覺得準備投影片需要更多更長的時間。沒有什麼閒暇看朋友的 Blogs,更空不出時間來寫寫 Blog。

今天的題目是 feature extraction(特徵擷取:就是從全文中抓出年代日期、人名、地名等的方法),而我準備的內容包含 regular expression、n-grams、「從全文中擷取人名、地名的詞夾子演算法」、還有 Hidden Markov Model (HMM)。

為了準備這些東西,花了我數個星期的時間。聽眾不全來自資訊科系(有的來自於歷史系)、也不全是台大的學生,因此我並不想用「定義數學符號、然後推導公式」來拖過時段。

於是,許多內容,我還得實際寫程式,才能跑出一些比較有趣的結果(好讓聽眾能夠把這些技術面的東西與 THDL 連結起來)。花費的時間氣力都不少,但課堂上卻似乎一下子就講完了,而聽眾也似乎認為這些東西是「理所當然」就該有的。(雖然知道,有趣的東西,應該可以用輕鬆一些的方式來闡明。但... 實在是力有未逮啊。)

無可否認的是,自己在代課內容的準備過程裡,學到了相當多的東西(也把一些以前弄不清楚的概念、retrieval & mining 的關係釐清許多)。然而,我仍極力想把原先安排的第五堂課擠掉。原因是,真的覺得快撐不下去了...

星期四, 11月 01, 2007

風雨故人來

日子過得快,轉眼間已經十一月了。

昨天刮著秋風下著細雨,一位高中同學從美國回台灣,邀約我和令一位高中同學聚吃晚餐,相聊甚歡。

想想 22 個年頭不見,除了身材有些發福,大家其實也都沒有多少變化。風雨故人來,為平凡的生活添上些許驚喜。