星期四, 11月 24, 2005

談古契書資料處理:之三

要做好資訊處理,必須對「欲處理的資訊內容」有些最起碼的認識。

很不幸(或很幸運 --- 因為問題難纏,所以很少人願意花力氣去做)地,一般的古籍,是沒有標點符號的。一篇沒有標注逗點、句點符號的文章,看起來可是有夠令人氣餒的。

不信?請看這一小段摘錄下來的「古地契」:

立杜賣斷根山埔田薗字人黃鼎愛斯先年承買有山埔地壹所坐落土名南港鹿廚溪尾四至界址載在總契詳明金因乏銀別立母特此地東片拆開壹角東至陳家小溪田崁直上龍崗倒水為界西至波塘下帶田壹大坵左君子田唇毗連直透橫崗倒水為界南至左君子会埔直透大凸為界北至伯公艮直透洽溪為界四至界址同中面踏分明...

要處理古契書,多多少少就得花些時間看看這些契書的內容、並看看它們有沒有一些可資利用的樣式(patterns)。不過,一般資訊人(嗯,或許是阿尼說的「資遜人」?)看到像這樣未經標注的古文,沒有昏倒、也很難著性子看完幾篇吧。

適當的標注,也會影響到文章的解讀。就像是著名的「下雨天留客天天留我不留」,加上不同的標注後,可以產生迥然不同的解釋:「下雨天、留客天,天留、我不留」、「下雨天留客,天天留我不?留」。

碰到這類棘手的問題,一種方式是花錢請「專家」來標注。好吧,就算我們請一些「歷史系的專家或學生們」來對一些古文加上標注,也假設他們的標注是可接受的;接下來也還是會遇到中文處理的許多困難,其中之一就是「斷詞」。

一般來說,中英文都沒有斷字的問題。英文嘛,一個「字」(word) 是由 a, b, c 等英文字母組成,字與字之間可由空白、逗點等來區隔。例如,"This is a book." 這個句子,其中 "this"、 "is"、"a"、"book" 都是個別的「字」。而中文由於是方塊字,每一個字有獨立的字碼,也沒有斷字的問題。

但是,在中文裡,個別看每一個字,通常對內文的了解沒有什麼幫助;數個字連接起來成為一個「詞」之後,這個詞才會具備特定的意義。例如,「新」、「竹」如果分開來看,與「新竹」的意義,經常是完全不同的。

所以,中文有斷詞的問題。在前頭舉的古地契例子裡,「山埔」、「田薗」、「南港」、「鹿廚溪」都可以算作獨立的「詞」;但看起來像是個人名的「黃鼎愛斯」呢?是該斷作「黃鼎愛」、還是「黃鼎愛斯」?

可以想見,適當的標注,有助於斷詞的正確性。至少,我們知道一個詞不應橫跨由標點符號隔開的兩個子句。但是,即使有加上標點,想要適當地斷詞 --- 甚至斷出「地理名詞」、「人名」等特殊意義的詞彙 --- 都還是一項艱難的挑戰。

6 則留言:

lcat 提到...

資遜人碰到這種問題真的沒輒了,能夠做的也許把可能的組合都組出來

「下雨天、留客天,天留、我不留」、「下雨天留客,天天留我不?留」

再由人介入做選擇吧?

htliao 提到...

真有趣
倒水為界,
到水為界?

但意思應該是到水為止是界線的意思吧......
總不會是倒水在那裡當界線吧......

連古文都在抓"錯"字,我真是瘋了

被掛掉的阿尼 提到...

名詞本來就是中文斷詞的罩門...所以自然輸入法在業界不受歡迎的原因也是如此(因為輸入時要抬頭選字就慢下來了, 現在一分鐘沒有30字就算殘障....)
還想到一個 "呆大豬工系...."

tu 提到...

嗯,廖可以把「抓錯別字」當作一種樂趣,那似乎也不錯哩~

這裡也牽涉到另一個古契書處理的問題:因為寫這些契書的人,不見得個個學問淵博,因此常會有錯字出現。

問題是,就算我們「認定」原作者寫錯字,又該如何處理呢?是把它「自動」更正、還是忠於原稿?

一般來說我們是必須忠於原稿。但這樣一來,後續雜事就會越來越多...

mph 提到...

廖抓錯字已經變成本能了。
不過這種情況是不是應該用注釋方式標示呢?令我想到Acrobat裡面那個煩人的黃三角標記。

被掛掉的阿尼 提到...

應該像mph講的, 但後續的雜事包括查詢時要查哪一個....