星期三, 12月 06, 2006

資料處理的取捨

生活中時常需要選擇,選擇就免不了得做取捨。

就拿「淡新檔案」的資料處理來說吧。明知道人工處理的步驟很容易出差錯、也的確在許多地方發現資料整合的問題,但面臨的選擇是:自己究竟該投入多少時間精力,又該將它們投注在什麼地方?

貓說的是有道理:「有錯就改,怎麼可以矇上眼睛假裝看不到」、「有辦法寫程式去修改,沒辦法就花錢找人去修改」、「不然你自己一筆一筆慢慢改」。問題是,自己不想假裝看不到、有寫程式去偵測一些錯誤、卻沒有足夠的資源請專家常常修改。此外,許多地方自己雖然知道有錯誤,卻不知道正確的結果應該是什麼啊!

於是,必須先做些取捨、對現實妥協。我採用的做法是,暫時把有錯誤的部分擱在一旁,並取出正確的部分來構成出初期的系統內容。這樣的「有缺陷的系統」當然不夠實用,但把目標設定在 prototype,拿這個雛形作為系統發展中的溝通工具,卻應該有相當好處的。

事實上,當我整合全文檢索、文字內容、詮釋資料與照片圖檔後,自己真還覺得「似乎完成」一個重要的階段任務呢。(至少,自己認為這樣的系統應該比目前「淡新檔案網路資料庫」的檢索系統實用得多。)

只是,整合的過程,充滿了「資料格式轉換」與「中文編碼」的問題,也時時得留意資料的完整性 (data integrity)問題。回想起來,資料處理還真的充滿瑣碎的步驟、真的需要有放下身段,保持耐心,一步一步地前行呢。

1 則留言:

lcat 提到...

應該是看資料的定位吧?

1. 如果資料只是拿來玩玩,隨便找兩筆資料能夠跑就好。
2. 如果是拿來測試理論,部分資料能跑就好。
3. 如果要當成正式資料使用,應該要儘量讓資料完整可用。