這兩週裡,雖然還是有處理 THDL 的一些小更新,但主要的工作是準備代課的投影片。
昨天的代課,內容先從《紅樓夢》的單字頻分析講起,然後是文件的分類。我介紹了三種文件分類的方法:決策樹 (Decision Tree)、貝式分類法(Naive Bayesian Classifier)、還有以距離為基礎(Distance-Based)的方法。
即使自己花了好幾天來改進投影片的內容,但準備得似乎還是不夠。或許因為沒能使用更直觀、更單純、與 THDL 更接近的實例來說明,台下同學們聽得有些乏味,頻頻打呵欠想睡覺。
也許是因為準備的工作進行得比較久,上週代課的狀況則要好些。上週介紹了實驗室擷取人名、地名的「詞夾子」方法,接著在一個小時左右的時間裡,從基礎的機率介紹起,講到隨機過程,然後是馬可夫鏈 (Markov Chain),最後是含隱藏狀態的馬可夫模型 (HMM, Hidden Markov Model)。
HMM 的直觀其實很單純,基本的理論也不難,但許多人(包括多年前的我)似乎都沒能抓到要領。為了讓這個方法更能被感受與理解,我還是花了很多天的時間,準備了一些「麻雀雖小,五臟俱全」的例子,希望能增進聽眾在直觀上的理解。
課後,項老師說我對 HMM 講得很清楚,實驗室的幾位學弟的感覺也頗正面(連歷史系出身的豐恩都說大致上能聽懂 HMM 的直觀)。雖然早已是中年人,但受到稱讚與鼓勵,人還是會覺得高興與振奮。
沒有留言:
張貼留言