星期四, 5月 17, 2007

十分之一的網站很危險?

在中文 CNET 網站上看到一則新聞:「Google:十分之一的網站很危險」。

新聞的內容說,Google 對 450 萬個網站做了深入分析,發現其中每十個網站就有一個可能順便把木馬程式病毒成功下載 (drive-by-download) 到訪客的電腦裡。

我對這個比例感到好奇與不解。對於「網站」或「網頁」而言, 10% 都算是相當大的比例耶。因此多花了些時間,找到 CNET 的英文網頁,以及那篇 Google 的報告 The Ghost in the Browser: Analysis of Web-based Malware

翻譯的人並沒有錯,英文網頁上也是這麼寫:Google: 10 percent of sites are dangerous。網頁下的讀者意見,有的是建議使用者改用 Mac,有的是批評 Google 只說不做,任憑這些網頁為非作歹。

在好奇心的驅使下,今天早上「很難得」地看過 Google 的這篇論文,然後...

然後,發現新聞的報導是錯的。

不是「10% 的網站裡有『有害連結』(在此不用『惡意連結』這個詞,是因為網站可能非惡意,但卻含有這些連結)」,而是「數十億個 (several billions) 網頁 URLs 中,經 heuristically 篩選後的 450 萬個 URLs 中,約 10% 含有這類連結」。

只是,若只是看論文的某個段落,還真的頗容易被誤導:
... we have conducted in-depth analysis of about 4.5 million URLs and found 450,000 URLs that were engaging in drive-by-downloads. ... That means that about about(原文似乎是因為筆誤,多寫了一次 about) 10% of the URLs we analyzed were malicious ...

要算出「有多少比例的 URLs 內含有害連結」(論文中沒有提到有多少比例的「網站」內含有害連結),必須回溯到論文第二頁的一段文字:

We analyzed the content of several billion URLs and executed an in-depth analysis of approximately 4.5 million URLs. From that set, we found about 45,000 URLs that were successfully launching drive-by-downloads of malware binaries ...


看吧,45 萬(確認有害的 URLs)除以幾十億(Google 索引到的 URLs),其實比例還不到 0.05% 呢!(當然啦,沒被篩選出來的 URLs 也有可能內含有害連結,所以真實比例有可能會高上許多。)

所以啊,網路新聞還真的很容易誤導大眾呢。令我好奇的是,Google 怎麼沒有(在第一時間)出面澄清呢?這麼龐大的公司,還標榜不會「do evil」,卻任由大眾莫名其妙地散佈不實謠言(或甚至被資安業者加油添醋後造成心理上的恐慌),實在也說不過去吧?

3 則留言:

被掛掉的阿尼 提到...

哎呀, 新聞標題必須夠吸引人, 所以語不驚人死不休

tu 提到...

可是,這份新聞報導似乎也算是「引用部分論文的結果」?

總覺得,問題好像是出在「斷章取義」、還有「解釋錯誤」上...

被掛掉的阿尼 提到...

他們應該沒有去想過這兩個問題吧^^
新聞跟很多文章一樣, 事情是怎樣不重要, 寫的人想表達什麼比較重要. 有些時候, 新聞記者會有一些科技恐慌症(其實很多人都有啦), 而這篇, 我覺得比較像是哪一個資安公司的置入式行銷文.