spacer
龙腾网界
网络营销
搜索引擎优化

蜘蛛的设计分析

  1.url 的遍历和纪录

  2.多进程 VS 多线程

  3.时间更新控制

  4.爬的深度

  5.爬虫一般不直接爬对方的网页,一般是通过一个Proxy出去,这个proxy有缓解压力的功能,因为当对方的网页没有更新的时候,只要拿到 header 的 tag就可以了,没有必要全部传输一次了,可以大大节约网络带宽。

  6.请有空的时候照看一下robots.txt

  7.存储结构。


« SEO优化工作可以遵循的规律 SEO是个非常细致长期的工作 »

  • 相关文章: