小傢伙今天「讀經闖關成功」,當上薇閣幼稚園的「讀經小狀元」。
要成為「讀經小狀元」,必須背誦完第六冊「兒童中國文化導讀」。事實上,幼稚園有安排進度,每個學期背誦兩冊。因此,只要跟著進度走,每個小朋友都可以當上讀經小狀元。
雖然在小傢伙班上,有幾位「很厲害」的小朋友,已經能夠背完第八冊;但我還是覺得,小傢伙能夠每天花上二三十分鐘來讀經,真的已經很不錯了。
這也算是炫耀文嗎?
星期三, 12月 24, 2008
該不該再多休息幾天?
強迫自己幾天不去看程式,終於能夠早些睡覺,感覺起來精神好多了。
這兩天甚至把多年前買的「魔法門外傳 III」安裝到 VM 系統上,而且也還真的玩上一小陣子。
但接下來,是要「繼續對 THDL 系統的後續問題視而不見」,還是「好吧,既然已經休息了幾天,該上工了」?
當然想再繼續懶散個幾天。畢竟已經疲倦好一陣子,實在不該讓工作(寫程式)把自己的生活弄得太忙亂。
只是,目前已可見到數個跟系統相關的東西有待實作。依自己的急性子,就算想休息,恐怕也很難真的放下吧。
這兩天甚至把多年前買的「魔法門外傳 III」安裝到 VM 系統上,而且也還真的玩上一小陣子。
但接下來,是要「繼續對 THDL 系統的後續問題視而不見」,還是「好吧,既然已經休息了幾天,該上工了」?
當然想再繼續懶散個幾天。畢竟已經疲倦好一陣子,實在不該讓工作(寫程式)把自己的生活弄得太忙亂。
只是,目前已可見到數個跟系統相關的東西有待實作。依自己的急性子,就算想休息,恐怕也很難真的放下吧。
星期三, 12月 17, 2008
星期二, 12月 16, 2008
因忙碌鬱悶而想花錢買東西
如果說,忙碌就是指「找不出自在悠閒時間的感覺」,那自己最近還忙得頗不像話。
連著十幾天晚上都忙碌到十二點過後才匆匆上床睡覺,而早上又多半是家裡醒得最早的人。身體本就不算強健,睡眠不足就很容易導致情緒不穩,疲憊感大增。
也不是不知道該早些睡。麻煩的是,晚上催促小朋友們入睡後,經常已過十點鐘。最近手頭的事情比較多,而這些事情(有程式要修改、有投影片要準備、有新想法等待沈澱與記錄)都只能在小朋友入睡後的空檔進行。
工作不是都該在上班的時間做嗎?
只能怪自己,常沒能在上班時間做好比較需要思考的事情。上班的時間,自己通常只能處理常態或雜務性質的工作,卻不善於處理需要較長時間思考的複雜作業。
身心疲累,有時就會想花錢。但錢還是不能亂花,總該買些比較務實、比較有價值的東西,不是嗎?
於是,漸漸覺得從前喜歡買書,很可能也只是鬱悶心情的一種發洩。只是,這幾年幾乎都沒有時間可以看書,因此也漸漸地改買小朋友的書籍、文具、甚至玩具,改買屬於家用耗材的三四號電池。糟糕的是,最近這些東西越來越多,已經有些囤積的味道了。
找不到合適的東西來花錢,是不是也會讓自己更覺鬱悶呢?
連著十幾天晚上都忙碌到十二點過後才匆匆上床睡覺,而早上又多半是家裡醒得最早的人。身體本就不算強健,睡眠不足就很容易導致情緒不穩,疲憊感大增。
也不是不知道該早些睡。麻煩的是,晚上催促小朋友們入睡後,經常已過十點鐘。最近手頭的事情比較多,而這些事情(有程式要修改、有投影片要準備、有新想法等待沈澱與記錄)都只能在小朋友入睡後的空檔進行。
工作不是都該在上班的時間做嗎?
只能怪自己,常沒能在上班時間做好比較需要思考的事情。上班的時間,自己通常只能處理常態或雜務性質的工作,卻不善於處理需要較長時間思考的複雜作業。
身心疲累,有時就會想花錢。但錢還是不能亂花,總該買些比較務實、比較有價值的東西,不是嗎?
於是,漸漸覺得從前喜歡買書,很可能也只是鬱悶心情的一種發洩。只是,這幾年幾乎都沒有時間可以看書,因此也漸漸地改買小朋友的書籍、文具、甚至玩具,改買屬於家用耗材的三四號電池。糟糕的是,最近這些東西越來越多,已經有些囤積的味道了。
找不到合適的東西來花錢,是不是也會讓自己更覺鬱悶呢?
星期四, 12月 11, 2008
從 THDL 發掘統計的相對性意義
昨天在實驗室會議上,把最近的一些想法與心得提出來和眾人分享討論。
一個重點是,強調 THDL 應該整合檢索 (Retrieval) 與文字採礦 (Text Mining)。
原因說起來也很簡單。採礦的基礎是來自於統計(若內容是文字資料,統計的基礎就是詞頻與文件數量),但文字資料不似數字資料,經常有其模糊性。因此要深入解讀採礦的結果,通常研究者還必須檢視文件的內容,而檢索的目的,就是讓使用者能夠從資料庫中,找到「想要的文件」。
此外,由於 THDL 內容的特性(很多資料,尤其是古契書,都已經佚失),所有 THDL 文件的集合只佔所關心的母體(所有明清時期臺灣相關的重要文字資料)一小部分,因此要利用統計來解讀 THDL 的採礦結果,就必須非常小心。
在母體狀況未明之下,如何經由 text mining 來產生意義?
我的想法是:藉由比較。雖然 THDL 並沒有包含「所有」關心的文件,但它已經相對完整(當然啦,項老師有個目標是讓它「更完整」)。因此,若假設這個樣本空間就具有某種代表性(例如,假設 THDL 文件具有類似隨機抽樣的代表性),那麼把這個樣本空間當成母體,比較資料庫中的兩個文件子集,就可能得到有趣的觀察。
例如,目前的 THDL 系統,除了一般的檢索外,也可繪出這樣的統計圖:
其中 X 軸是西元的年代,Y 軸則是文件的數量。灰底的背景表示「全文含有『杜賣』的文件」,而淺紅底的區塊則表示「全文含有『絕賣』的文件」。
從這張圖,可以很明顯地看出使用「絕賣」這個詞彙的契書大致逐年遞減,而「杜賣」這個詞彙則逐漸躍居主流。
另外一個例子是:
其中,灰底的背景表示「全文含有『杜賣』、『找』以及『贖』的文件」,而淺紅底的區塊則表示「全文含有『杜賣』以及的文件」。
從這張圖,可以看出有『找』出現的杜賣相關文件,幾乎都會有『贖』字出現(例如,「不敢言贖找洗」)。如果在比較幾張類似的圖,或許可以推測明清時期的土地買主,最在意杜賣行為之後賣方還會有「贖」的要求。
雖然在設計與實作上,著實也花了好些時間與氣力,但把這些 mining tools 整合到 THDL 之後,自己還真覺得頗有成就感。畢竟,這些「簡單、直觀、說起來也沒什麼」的整合想法,當中蘊含有在這幾年逐漸體會的心得。
於是,除了「經由檢索技術,很快地找出前人所犯的明顯錯誤」(這一點應是歷史學者比較能夠接受的),我們也希望能夠「利用 mining 技術,讓使用者能夠看到趨勢上的變化、概念間的比較」。
只是,自己心裡也明白,text mining 這個領域其實還相當不成熟。要說服熟悉歷史的專家(說整合性地應用 retrieval 與 mining,應有其不可忽視的潛力),仍有一段遙遠漫長的路。
一個重點是,強調 THDL 應該整合檢索 (Retrieval) 與文字採礦 (Text Mining)。
原因說起來也很簡單。採礦的基礎是來自於統計(若內容是文字資料,統計的基礎就是詞頻與文件數量),但文字資料不似數字資料,經常有其模糊性。因此要深入解讀採礦的結果,通常研究者還必須檢視文件的內容,而檢索的目的,就是讓使用者能夠從資料庫中,找到「想要的文件」。
此外,由於 THDL 內容的特性(很多資料,尤其是古契書,都已經佚失),所有 THDL 文件的集合只佔所關心的母體(所有明清時期臺灣相關的重要文字資料)一小部分,因此要利用統計來解讀 THDL 的採礦結果,就必須非常小心。
在母體狀況未明之下,如何經由 text mining 來產生意義?
我的想法是:藉由比較。雖然 THDL 並沒有包含「所有」關心的文件,但它已經相對完整(當然啦,項老師有個目標是讓它「更完整」)。因此,若假設這個樣本空間就具有某種代表性(例如,假設 THDL 文件具有類似隨機抽樣的代表性),那麼把這個樣本空間當成母體,比較資料庫中的兩個文件子集,就可能得到有趣的觀察。
例如,目前的 THDL 系統,除了一般的檢索外,也可繪出這樣的統計圖:
其中 X 軸是西元的年代,Y 軸則是文件的數量。灰底的背景表示「全文含有『杜賣』的文件」,而淺紅底的區塊則表示「全文含有『絕賣』的文件」。
從這張圖,可以很明顯地看出使用「絕賣」這個詞彙的契書大致逐年遞減,而「杜賣」這個詞彙則逐漸躍居主流。
另外一個例子是:
其中,灰底的背景表示「全文含有『杜賣』、『找』以及『贖』的文件」,而淺紅底的區塊則表示「全文含有『杜賣』以及的文件」。
從這張圖,可以看出有『找』出現的杜賣相關文件,幾乎都會有『贖』字出現(例如,「不敢言贖找洗」)。如果在比較幾張類似的圖,或許可以推測明清時期的土地買主,最在意杜賣行為之後賣方還會有「贖」的要求。
雖然在設計與實作上,著實也花了好些時間與氣力,但把這些 mining tools 整合到 THDL 之後,自己還真覺得頗有成就感。畢竟,這些「簡單、直觀、說起來也沒什麼」的整合想法,當中蘊含有在這幾年逐漸體會的心得。
於是,除了「經由檢索技術,很快地找出前人所犯的明顯錯誤」(這一點應是歷史學者比較能夠接受的),我們也希望能夠「利用 mining 技術,讓使用者能夠看到趨勢上的變化、概念間的比較」。
只是,自己心裡也明白,text mining 這個領域其實還相當不成熟。要說服熟悉歷史的專家(說整合性地應用 retrieval 與 mining,應有其不可忽視的潛力),仍有一段遙遠漫長的路。
星期五, 12月 05, 2008
淡水半日遊
昨天載小傢伙回診、上學後,時間已經接近中午了。
想說已經有頗長的一段時日沒有造訪淡水,而接下來又有鋒面來臨,帶小寶寶去河邊走走、看看漁船、吹吹泡泡,順道與太太逛逛街,應該不錯。
午後的淡水河邊停滿了小船。即使是在非假日,接近傍晚的時刻仍然有大批的遊客來回走動,河邊與街上熱鬧得很。
在冬天裡享受溫暖的陽光,小寶寶很是高興。沿途買了一些小玩具,做了幾份姓名貼,買了幾支「三峽老街」的牛角麵包來享用。在捷運旁的小攤上看到鏽有史努比的絨毛手機袋,觸感不錯,一袋只要 50 元。很高興地買了幾只,想說可以用來裝筆電的滑鼠,或者當作零錢包。
在每天修改程式的工作外,抽出時間到戶外走走,花些小錢(促進經濟),對自己和社會應該都不錯。
想說已經有頗長的一段時日沒有造訪淡水,而接下來又有鋒面來臨,帶小寶寶去河邊走走、看看漁船、吹吹泡泡,順道與太太逛逛街,應該不錯。
午後的淡水河邊停滿了小船。即使是在非假日,接近傍晚的時刻仍然有大批的遊客來回走動,河邊與街上熱鬧得很。
在冬天裡享受溫暖的陽光,小寶寶很是高興。沿途買了一些小玩具,做了幾份姓名貼,買了幾支「三峽老街」的牛角麵包來享用。在捷運旁的小攤上看到鏽有史努比的絨毛手機袋,觸感不錯,一袋只要 50 元。很高興地買了幾只,想說可以用來裝筆電的滑鼠,或者當作零錢包。
在每天修改程式的工作外,抽出時間到戶外走走,花些小錢(促進經濟),對自己和社會應該都不錯。
訂閱:
文章 (Atom)