星期三, 7月 04, 2007

雜記:2007/07

上個月小寶寶生病,生活的重心通通轉移到病情的關注上,沒有晨間的咖啡與閱讀時間,也沒有可資記錄的工作進度。

那麼,回到家的這幾天又如何呢?或許是因為許多雜事已經累積多天沒有處理,感覺起來,時間依舊過得匆忙,日子依然過得蒼白、模糊不可辨。

自己這幾年來,很少花時間在搜尋引擎的發展上,因此對搜尋引擎的許多概念,都還停留在幾年前的模型或系統上。但昨天和朋友討論搜尋引擎,倒是發現了一些從前沒有注意到的小地方。
  • 首先,是在查詢語法 (query syntax)上。我的印象,一直還停留在「英文大小寫不分」、「可以用 and/or 做 Boolean operations」上。但昨天測了測 Google 與 Yahoo! 的搜尋引擎,才知道它們都會「區分大小寫」,若是 query string 包含了小寫的「and」或「or」,它們可是會認為要搜尋「含有 and/or 文件」的。必須用大寫的 AND/OR,才能進行 Boolean search。
  • 其次,是關於「空白」的處理方式。從搜尋的說明文件與測試中,可以知道現在查詢「a b」(a 和 b 之間用空白斷開),會被當成「a AND b」來處理。印象中,從前的搜尋引擎是把它當作「a OR b」來處理,但把符合「a AND b」條件的文件排在前頭。
  • 第三點,是有關中文斷詞的部分。從測試中,可以發現查詢「太平洋溫水游泳池」和查詢「游泳池太平洋溫水」、「溫水太平洋游泳池」的結果「幾乎」是一樣的(說「幾乎」,是因為 Google 在回報的「符合項數」上,有著一點點小差異),因此可以推論搜尋引擎有做適當的斷詞處理(將「太平洋溫水游泳池」斷開成「太平洋」、「溫水」、「游泳池」)。
  • 有趣的是,查詢「太平洋溫水游泳池」與「太平洋 AND 溫水 AND 游泳池」、「太平洋 OR 溫水 OR 游泳池」回傳結果都不一樣(尤其是「符合的項數」相差甚多),因此已經弄不清楚 Google 或 Yahoo! 是怎麼看待斷詞後的 query 了...
  • 我和朋友們都覺得,搜尋引擎所回報的「符合項數」,其實已漸漸失去其參考價值。為了「搜尋效率」,Google 和 Yahoo! 都只提供「前 1000 個結果」,然後用比較粗略的計算方式回報「符合的項數」。問題是,我們該「多相信」回報的符合項數呢?有時,我們在螢幕上只能看到寥寥數筆回傳結果,但搜尋引擎回報有數百筆符合資料呢。
  • 最後,關於 Google 的「搜尋建議」,由於很容易出現不雅的「色情相關」建議,有些人已經把它們當作「網路笑話」來看待了。(在查詢中鍵入「不可以」,或者去看看查詢「好自為之」的結果,得到的建議都會讓人相當訝異。)

4 則留言:

被掛掉的阿尼 提到...

這只能算PG級的, 不算18禁的
不可以那個笑話在網路上流傳已久, 如果真有其人, 那個學姊什麼都沒做就留名千古了, 也真的很可憐. 至於好自為之, 那個應該有人告訴GOOGLE繁體中文小組吧(可以做為GOOGLE有模糊斷詞)

htliao 提到...

早上剛好看到
http://blog.roodo.com/wcch2000/archives/3571633.html
跟搜尋有關的那段, 很好笑

tu 提到...

哈哈哈,果然很好笑 :D

匿名 提到...

太好笑了,原來Google可以這樣玩!

學長有沒有考慮過,寫點科普的文章,找一個主題脈絡,然後集結成書?