星期一, 12月 29, 2008

讀經小狀元

小傢伙今天「讀經闖關成功」,當上薇閣幼稚園的「讀經小狀元」。

要成為「讀經小狀元」,必須背誦完第六冊「兒童中國文化導讀」。事實上,幼稚園有安排進度,每個學期背誦兩冊。因此,只要跟著進度走,每個小朋友都可以當上讀經小狀元。

雖然在小傢伙班上,有幾位「很厲害」的小朋友,已經能夠背完第八冊;但我還是覺得,小傢伙能夠每天花上二三十分鐘來讀經,真的已經很不錯了。

這也算是炫耀文嗎?

星期三, 12月 24, 2008

該不該再多休息幾天?

強迫自己幾天不去看程式,終於能夠早些睡覺,感覺起來精神好多了。

這兩天甚至把多年前買的「魔法門外傳 III」安裝到 VM 系統上,而且也還真的玩上一小陣子。

但接下來,是要「繼續對 THDL 系統的後續問題視而不見」,還是「好吧,既然已經休息了幾天,該上工了」?

當然想再繼續懶散個幾天。畢竟已經疲倦好一陣子,實在不該讓工作(寫程式)把自己的生活弄得太忙亂。

只是,目前已可見到數個跟系統相關的東西有待實作。依自己的急性子,就算想休息,恐怕也很難真的放下吧。

星期三, 12月 17, 2008

多出來的一個下午

今天項老師有要事,實驗室會議提早兩個小時結束。

於是,自己就多出了將近一個下午的時間。正巧小寶寶也睡著了,可以好好地睡個小小的午覺。

這是難得的幸福時光,要珍惜。

雖然睡了半個小時後,就被電話吵醒,但感覺還是很舒暢。

星期二, 12月 16, 2008

因忙碌鬱悶而想花錢買東西

如果說,忙碌就是指「找不出自在悠閒時間的感覺」,那自己最近還忙得頗不像話。

連著十幾天晚上都忙碌到十二點過後才匆匆上床睡覺,而早上又多半是家裡醒得最早的人。身體本就不算強健,睡眠不足就很容易導致情緒不穩,疲憊感大增。

也不是不知道該早些睡。麻煩的是,晚上催促小朋友們入睡後,經常已過十點鐘。最近手頭的事情比較多,而這些事情(有程式要修改、有投影片要準備、有新想法等待沈澱與記錄)都只能在小朋友入睡後的空檔進行。

工作不是都該在上班的時間做嗎?

只能怪自己,常沒能在上班時間做好比較需要思考的事情。上班的時間,自己通常只能處理常態或雜務性質的工作,卻不善於處理需要較長時間思考的複雜作業。

身心疲累,有時就會想花錢。但錢還是不能亂花,總該買些比較務實、比較有價值的東西,不是嗎?

於是,漸漸覺得從前喜歡買書,很可能也只是鬱悶心情的一種發洩。只是,這幾年幾乎都沒有時間可以看書,因此也漸漸地改買小朋友的書籍、文具、甚至玩具,改買屬於家用耗材的三四號電池。糟糕的是,最近這些東西越來越多,已經有些囤積的味道了。

找不到合適的東西來花錢,是不是也會讓自己更覺鬱悶呢?

星期四, 12月 11, 2008

從 THDL 發掘統計的相對性意義

昨天在實驗室會議上,把最近的一些想法與心得提出來和眾人分享討論。

一個重點是,強調 THDL 應該整合檢索 (Retrieval) 與文字採礦 (Text Mining)。

原因說起來也很簡單。採礦的基礎是來自於統計(若內容是文字資料,統計的基礎就是詞頻與文件數量),但文字資料不似數字資料,經常有其模糊性。因此要深入解讀採礦的結果,通常研究者還必須檢視文件的內容,而檢索的目的,就是讓使用者能夠從資料庫中,找到「想要的文件」。

此外,由於 THDL 內容的特性(很多資料,尤其是古契書,都已經佚失),所有 THDL 文件的集合只佔所關心的母體(所有明清時期臺灣相關的重要文字資料)一小部分,因此要利用統計來解讀 THDL 的採礦結果,就必須非常小心。

在母體狀況未明之下,如何經由 text mining 來產生意義?

我的想法是:藉由比較。雖然 THDL 並沒有包含「所有」關心的文件,但它已經相對完整(當然啦,項老師有個目標是讓它「更完整」)。因此,若假設這個樣本空間就具有某種代表性(例如,假設 THDL 文件具有類似隨機抽樣的代表性),那麼把這個樣本空間當成母體,比較資料庫中的兩個文件子集,就可能得到有趣的觀察。

例如,目前的 THDL 系統,除了一般的檢索外,也可繪出這樣的統計圖:


其中 X 軸是西元的年代,Y 軸則是文件的數量。灰底的背景表示「全文含有『杜賣』的文件」,而淺紅底的區塊則表示「全文含有『絕賣』的文件」。

從這張圖,可以很明顯地看出使用「絕賣」這個詞彙的契書大致逐年遞減,而「杜賣」這個詞彙則逐漸躍居主流。

另外一個例子是:


其中,灰底的背景表示「全文含有『杜賣』、『找』以及『贖』的文件」,而淺紅底的區塊則表示「全文含有『杜賣』以及的文件」。

從這張圖,可以看出有『找』出現的杜賣相關文件,幾乎都會有『贖』字出現(例如,「不敢言贖找洗」)。如果在比較幾張類似的圖,或許可以推測明清時期的土地買主,最在意杜賣行為之後賣方還會有「贖」的要求。

雖然在設計與實作上,著實也花了好些時間與氣力,但把這些 mining tools 整合到 THDL 之後,自己還真覺得頗有成就感。畢竟,這些「簡單、直觀、說起來也沒什麼」的整合想法,當中蘊含有在這幾年逐漸體會的心得。

於是,除了「經由檢索技術,很快地找出前人所犯的明顯錯誤」(這一點應是歷史學者比較能夠接受的),我們也希望能夠「利用 mining 技術,讓使用者能夠看到趨勢上的變化、概念間的比較」。

只是,自己心裡也明白,text mining 這個領域其實還相當不成熟。要說服熟悉歷史的專家(說整合性地應用 retrieval 與 mining,應有其不可忽視的潛力),仍有一段遙遠漫長的路。

星期五, 12月 05, 2008

淡水半日遊

昨天載小傢伙回診、上學後,時間已經接近中午了。

想說已經有頗長的一段時日沒有造訪淡水,而接下來又有鋒面來臨,帶小寶寶去河邊走走、看看漁船、吹吹泡泡,順道與太太逛逛街,應該不錯。

午後的淡水河邊停滿了小船。即使是在非假日,接近傍晚的時刻仍然有大批的遊客來回走動,河邊與街上熱鬧得很。

在冬天裡享受溫暖的陽光,小寶寶很是高興。沿途買了一些小玩具,做了幾份姓名貼,買了幾支「三峽老街」的牛角麵包來享用。在捷運旁的小攤上看到鏽有史努比的絨毛手機袋,觸感不錯,一袋只要 50 元。很高興地買了幾只,想說可以用來裝筆電的滑鼠,或者當作零錢包。

在每天修改程式的工作外,抽出時間到戶外走走,花些小錢(促進經濟),對自己和社會應該都不錯。