PHP中获取网页内容的Snoopy包
阿债
posted @ 2009年7月22日 00:38
in 未分类
, 2393 阅读
PHP中有个Snoopy,是模拟浏览器获取网页内容的代码包。
2005年在南京出差,买了一本书,关于PHP中各种函数的高级使用的,就有这个Snoopy。曾经有段时间大家热衷于网络爬虫,于是有些博客就提到这个包。今天找资料发现有博客提到了,就做个标记。
下载:[url=http://sourceforge.net/projects/snoopy/]Snoopy官方网站[/url]
参考阅读 [url=http://blog.passport86.com/?p=161]代码收藏-Snoopy类及简单的使用方法[/url] 内容简单了一点
[quote]下面是它的一些特征:
1、方便抓取网页的内容
2、方便抓取网页的文字(去掉HTML代码)
3、方便抓取网页的链接
4、支持代理主机
5、支持基本的用户/密码认证模式
6、支持自定义用户agent,referer,cookies和header内容
7、支持浏览器转向,并能控制转向深度
8、能把网页中的链接扩展成高质量的url(默认)
9、方便提交数据并且获取返回值
10、支持跟踪HTML框架(v0.92增加)
11、支持再转向的时候传递cookies[/quote]