最近比较繁忙,所以博客也没有什么新文章。
说一下爬虫吧。
自从互联网时代开始,爬虫就没停止活跃…恐怕今后很长一段时间爬虫都会长期存在。当人们谈到XSS、DDos、SQL injection、SSL attacks的时候,多数你在谈论计算机安全,当你谈到爬虫的时候,你更多的在关心内容安全。爬虫有时候会涉及内容安全,有些内容是别人的立站根本,譬如PGC、UGC的文章;有的内容是别人的商业机密,譬如酒店、商品的价格。

对于爬虫来说,有没有规范定义它不允许爬取的内容呢。有一个文件叫做robots.txt,它是是一种存放于网站根目录下的ASCII编码的文本文件,通常用来告诉搜索引擎的爬取器哪些内容是不应该被获取的。

曾经阿里巴巴有一个很火的网站一淘,这个网站的最大优势是可以在线比价。它可以将一件商品在各个平台上的价格放在一起,消费者可以在这里瞬间看到很多平台的价格,从而找到最便宜的。

而更杀手级的功能是,它提供历史价格的功能。譬如对于京东来说,它可以看到京东里面某件商品的价格历史。当前虽然在搞促销,但是也许并非历史最低价格,消费者可能就继续观望了。

这对京东这种商家的损害很大,一淘这样就侵犯京东的商业机密了。京东不希望别人知道一件商品的价格历史。所以,京东的robots.txt设置为了这样:robots.txt
其中有一条写作:

1
2
User-agent: EtaoSpider
Disallow: /

也就是说,对于Etao的爬虫来说,我不允许你爬取京东的任何内容。

一淘是阿里旗下的,所以这个竞争对手是不希望被允许的了。这个市场看起来被一个不太知名的网站“慢慢买”占了。