学习札记——网页搜索基础知识

改變字體大小: 默认 | 较大 | 特大 | 转播到腾讯微博 |

申明:本文转载自《博客园》网站。本文在本站作为转载文章,并不代表本站同意或支持本文作者之观点,由此产生的一切法律后果均与本站无任何关系,本文在此作为转载,仅作学习交流使用。

Audio clip: Adobe Flash Player (version 9 or above) is required to play this audio clip. Download the latest version here. You also need to have JavaScript enabled in your browser.

  今天认真地学习网页搜索盯着的基础知识,收获不少,摘来要点如下:
  提交搜索结果包含三个主要过程:
  1、抓取:goolebot (robot,spider,bot,爬虫)使用算法流程: 计算机程序会确定要抓取的网站、抓取频率以及从每个网站中获取的网页数量。  在抓取的过程中会生成一个网页网址列表,然后程序通过网址访问网站抓取信息,而在访问的过程中又会不断发现新的网址来丰富原有的网页网址列表。
  2、编制索引:将抓取过来的信息分类存好。
  3、提供:提供涉及排序问题,主要标准之一——重要性。重要性越大排在越前边。重要性是通过这个网页被其他网页链接的多少。

  动态网页:
  理论上spider会索引动态生成的网页,包括 .asp 页、.php 页以及网址上有问号的网页。 不过,这些网页可导致抓取工具出错,因此可能会被忽略。原因是那些问号可能产生大量的网页,傻傻的爬虫程序进去以后就出不来了,程序进入一个死循环,从而会消耗较多的带宽资源。所以变聪明的爬虫对这些有了防范之心,从而也导致抓取的质量不高。所以从这角度可以得到验证我之前学到的另外两个理论:A,伪静态技术,主要就是将动态页网址里边的问号隐藏,给动态网页套上一个html的网址。网址对爬虫友好。B,一个网站生成太多的网址会影响到收录的质量的。这是spider所以防范的。

  网页参数方面:
  1、不要使用&ID= 作为您网址的参数。
  2、动态网页有助于缩短参数长度并减少参数数目。 通过截掉不必要的参数尽量缩短网址
  3、建议网址中使用标点符号,网址中使用连字符 (-) 而尽量避免使用下划线 (_)
  4、尽可能避免在网址中使用会话 ID, 建议您使用 Cookie 代替

  链接方面:
  1、如果您永久重定向一个网页至另一个网页,请使用永久重定向 (301)
  2、尽可能使用绝对链接,而不是相对链接。(例如,当与您网站上的另一网页链接时,请链接到 www.example.com/mypage.html 而不要仅仅链接到 mypage.html)。
  3、使用 HTML 构建网站结构和导航是一个不错的方法
  4、使用ajax技术时,规范的ajax链接可以照顾到爬虫,还有那些不支持js的设备。举个例如下:

<a  href="ajax.htm?foo=32" onClick="navigate('ajax.html#foo=32');return  false">foo  32</a>

  其他:
  1、确保您的标题标记准确且具有描述性,而且每个网页均有一个描述性标题标记。将标题标记放到可以展现各网页最重要主题的位置。但太多的描述与关键字,可能会被认为是垃圾网站。
  2、通过iFrame 显示的内容可能不会被编入索引
  3、帮助收录的Sitemap:网站地图可以帮助你的网站更全更快速地为搜索引擎所收录。(不然有些页面隐藏了些可能就会被spider忽略掉)

  ps:绿色字体表示建议与推荐的处理方法,黄色底纹的表示危险,不建议用~~

Bookmark and Share

您可能對這些感興趣:

  1. 学习札记——伪静态技术
  2. BBPress論壇的安裝步驟和與WordPress的整合方式
  3. 关于wordpress博客的文章归档(按分类+按月份)
  4. 关于SSL加密和GFW防火墙原理的简单解释
  5. 百度“框”里卖的是什么药

Add a Comment 開放評論 毋須審核 歡迎留言





(溫馨提示:您可以使用Ctrl+Enter組合鍵快速留言)