也是回顧: 雜記：2007/07

星期三, 7月 04, 2007

雜記：2007/07

上個月小寶寶生病，生活的重心通通轉移到病情的關注上，沒有晨間的咖啡與閱讀時間，也沒有可資記錄的工作進度。

那麼，回到家的這幾天又如何呢？或許是因為許多雜事已經累積多天沒有處理，感覺起來，時間依舊過得匆忙，日子依然過得蒼白、模糊不可辨。

自己這幾年來，很少花時間在搜尋引擎的發展上，因此對搜尋引擎的許多概念，都還停留在幾年前的模型或系統上。但昨天和朋友討論搜尋引擎，倒是發現了一些從前沒有注意到的小地方。

首先，是在查詢語法 (query syntax)上。我的印象，一直還停留在「英文大小寫不分」、「可以用 and/or 做 Boolean operations」上。但昨天測了測 Google 與 Yahoo! 的搜尋引擎，才知道它們都會「區分大小寫」，若是 query string 包含了小寫的「and」或「or」，它們可是會認為要搜尋「含有 and/or 文件」的。必須用大寫的 AND/OR，才能進行 Boolean search。

其次，是關於「空白」的處理方式。從搜尋的說明文件與測試中，可以知道現在查詢「a b」（a 和 b 之間用空白斷開），會被當成「a AND b」來處理。印象中，從前的搜尋引擎是把它當作「a OR b」來處理，但把符合「a AND b」條件的文件排在前頭。

第三點，是有關中文斷詞的部分。從測試中，可以發現查詢「太平洋溫水游泳池」和查詢「游泳池太平洋溫水」、「溫水太平洋游泳池」的結果「幾乎」是一樣的（說「幾乎」，是因為 Google 在回報的「符合項數」上，有著一點點小差異），因此可以推論搜尋引擎有做適當的斷詞處理（將「太平洋溫水游泳池」斷開成「太平洋」、「溫水」、「游泳池」）。

有趣的是，查詢「太平洋溫水游泳池」與「太平洋 AND 溫水 AND 游泳池」、「太平洋 OR 溫水 OR 游泳池」回傳結果都不一樣（尤其是「符合的項數」相差甚多），因此已經弄不清楚 Google 或 Yahoo! 是怎麼看待斷詞後的 query 了...

我和朋友們都覺得，搜尋引擎所回報的「符合項數」，其實已漸漸失去其參考價值。為了「搜尋效率」，Google 和 Yahoo! 都只提供「前 1000 個結果」，然後用比較粗略的計算方式回報「符合的項數」。問題是，我們該「多相信」回報的符合項數呢？有時，我們在螢幕上只能看到寥寥數筆回傳結果，但搜尋引擎回報有數百筆符合資料呢。

最後，關於 Google 的「搜尋建議」，由於很容易出現不雅的「色情相關」建議，有些人已經把它們當作「網路笑話」來看待了。（在查詢中鍵入「不可以」，或者去看看查詢「好自為之」的結果，得到的建議都會讓人相當訝異。）

4 則留言:

被掛掉的阿尼提到...: 這只能算PG級的, 不算18禁的
不可以那個笑話在網路上流傳已久, 如果真有其人, 那個學姊什麼都沒做就留名千古了, 也真的很可憐. 至於好自為之, 那個應該有人告訴GOOGLE繁體中文小組吧(可以做為GOOGLE有模糊斷詞); 星期三, 7月 04, 2007 12:26:00 下午
htliao 提到...: 早上剛好看到
http://blog.roodo.com/wcch2000/archives/3571633.html
跟搜尋有關的那段, 很好笑; 星期三, 7月 04, 2007 1:43:00 下午
tu 提到...: 哈哈哈，果然很好笑 :D; 星期三, 7月 04, 2007 1:50:00 下午
匿名提到...: 太好笑了，原來Google可以這樣玩！

學長有沒有考慮過，寫點科普的文章，找一個主題脈絡，然後集結成書？; 星期六, 7月 07, 2007 10:16:00 上午

訂閱：張貼留言 (Atom)