星期日, 10月 14, 2007

還是太難

連續幾個星期在晚上熬夜,身體已經不堪負荷了。

熬夜的主要目的,竟然是「準備代課所需的投影片內容」。

說到頭來,還是因為自己生產力太差。一張投影片的內容,經常就需要花上數個小時的準備。

Text mining 所使用的許多技術,都是由 data mining 沿遞而來。自己對於資料採礦的理論與實務懂得本來就不多,要在 THDL 中妥善應用 text mining 來「發掘對歷史研究可能有幫助的 patterns」,當然更不是一件容易事。

許多時候,無法確定某種技術的應用效果,自己得構思可能的應用、寫程式去跑跑看、甚至「用手動的方式把結果畫出來」。

例如,下圖就是一個「淡新檔案中,常出現的文官,與其在戴炎輝分類的關係圖」。我的想法是,或許可以用這樣的圖表,來表示出「那些人可能關心什麼」。


例如,從這張圖裡,可以看到「劉銘傳」(當時臺灣最高行政首長)可能比較關心「鹽務、驛站、軍政、隘務」;而地方官員像是「方祖蔭」,則似乎關心相當多事情,從「吏務、鄉保」一直管到「抗租、霸佔」(以現在的觀點來看,若不是在任的時間長,方祖蔭操心這麼多不同事務,應該很容易過勞死,哈)。

光是這張圖,就花了我數天的力氣才弄出來。必須先構思可能有趣的關聯(想到「文官」與「分類」或許有關),想到如何呈現(例如,在此用 circle graph),寫程式分析這些文官出現在每個分類的案數(上圖中,每一條線表示該文官出現在該分類至少有四個案件),最後還得用 Visio 一個圈一條線地、慢慢繪出這張圖。

雖然仍不確定這樣的圖表「是不是真有什麼用途」(從前的歷史學家應該不怎麼關心這類問題;就算有興趣,缺乏電腦這樣的資訊工具,要畫出這樣的圖恐怕更要困難許多),但 circle graph 看起來頗有些美感,總還是能給自己一些安慰與成就感。

只是,即使已經竭盡所能,但已大致明瞭:預計要代的五堂課中,自己應只來得及準備好「三堂到三堂半」的內容。其他的部分怎麼辦?看來只好隨便抄些書本內容,「紙上畫畫、牆上掛掛」了。

總而言之,要準備 text mining 的代課內容,對我還是... 太難。

4 則留言:

被掛掉的阿尼 提到...

我不曉得你的一堂課(一小時?一個三小時的session)是估計要講幾頁的ppt, 依我的經驗不能準備太多, 否則聽的人也消化不良.

匿名 提到...

一堂課算是三個小時吧。

我預計一堂課大概要 25-35 張投影片吧。這樣算是太多嗎?

像這張圖,如果包含說明,大概也不會超過三張投影片吧?

mph 提到...

個人感覺,如果投影片不是分解動作型的,一頁花三分鐘能講到八成人懂並不太容易。

tu 提到...

嗯... MPH 的意思是,一頁花 3 分鐘時間,算是太少(還是太多)?

如果一頁花 5-10 分鐘,那表示「寫在投影片上的東西不夠」(MPH 曾提到的「高橋流簡報」應該算是極致吧),必須講很多「額外補充的話語」...

哎,所以啊,還是該早些學習「如何講故事」的。聽眾應該喜歡故事吧。