2008-02-10, 14:56
|
#1
|
|
論壇管理員
註冊日期: 2003-04
住址: Taipei
文章: 16,396
感謝: 12
已有11篇文章得到16會員感謝
|
[轉貼]應用科學:Webmasters偏袒Googlebot?
引用:
[Nov 18, 2007]
應用科學:Webmasters偏袒Googlebot?
編輯 HCC 報導 研究發現使用robots.txt檔案來保護網站的網路管理員,對Google較為偏袒。由於待遇上的偏差,Google 能較其他搜尋引擎獲得更多資訊。
在搜尋引擎鍵入姓名,即約可拼湊出一個人的生活輪廓,包含就學紀錄(學校錄取名單),從事的行業,銀行汽車貸款紀錄,寫過的文獻、報告、專題或是網誌,參 加的民間社團活動,樂捐紀錄,子女就讀學校家長會紀錄,住宅電話甚至是否患有肺結核等等,比自己撰擬的簡歷還詳盡。大量資訊的電腦處理化與公開化,再基於 資訊處理的有意或無心,都會造成個人隱私權的嚴重侵犯,個人、企業與政府都處於被資訊情報監控與饋集的陰影下。
網路資訊的搜尋與集中,都是被Google、Yahoo、MSN等公開搜尋引擎或其他不為人知的搜尋引擎以Bots(Spiders或 Web crawlers)此類程式,定時地毯式的搜索網際網頁,毫不留情的扒取與儲存。搜尋引擎機器人除了大量的吞食資料外,因程式問題尚會不斷重複的向網站主 機抓取資料,造成主機負荷甚至網路雍塞。為了應付搜尋引擎機器人無盡的胃口,網路管理員都會在網站伺服器根目錄添加robots.txt 檔案,律定不希望被抓取、探索的部份以阻擋Bots。
理論上,看門人對造訪者應一視同仁,不過依據美國賓州資訊科技學院(Penn State's College of Information Sciences and Technology) C. Lee Gilesn教授研究團隊對超過七千五百個網址所做的研究顯示,網路管理員對Google情有獨鍾。C. Lee Gilesn的研究報告“Determining Bias to Search Engines from Robots.txt,”發表於2007年IEEE/WIC/ACM International Conference on Web Intelligence。Giles認為由網站管理者(Web policy makers and administrators)所撰寫的robots.txt 檔案有意讓Googlebot進入,而擋住其他搜索引擎。
robots.txt 檔案並非官方標準,只是非正式協定,依據“Standard for Robot Exclusion” 協議規範Web crawlers的行為。不過Giles發現並非所有的網站都有robots.txt檔案,在他所研究的7500個網站附有robots.txt檔案者僅 佔40%。Giles也未解釋為何網站管理者較偏向Google。
註:經過測試,此篇文章上傳2分鐘後,即可於Google搜尋到。
參考來源: 相關連結: 本文版權聲明與轉載授權資訊:若對本文內容有所建議與指正,請至本文專屬討論串。
|
http://www.sciscape.org/news_detail.php?news_id=2300
__________________
[新奇]TWFTP也能發 好人卡!
[鬼扯]把 IRC稱呼聊天室有點小看它的功用(  ̄ c ̄)y▂ξ
[中肯]穩定的主機應該要有的表現 
|
|
|