curl抓取网页中文乱码的解决方法

2015年07月02日 03:34 by:佚名网友

curl获取结果乱码的解决方法,设置:CURLOPT_ENCODING

用curl 采集一个网站发现都是乱码,原因是页面用了gzip压缩。


参考代码:



  1. function ppost($url,$data,$ref){ // 模拟提交数据函数
  2. $curl = curl_init(); // 启动一个CURL会话
  3. curl_setopt($curl, CURLOPT_URL, $url); // 要访问的地址
  4. curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, 0); // 对认证证书来源的检查
  5. curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, 1); // 从证书中检查SSL加密算法是否存在
  6. curl_setopt($curl, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']); // 模拟用户使用的浏览器
  7. curl_setopt($curl, CURLOPT_FOLLOWLOCATION, 1); // 使用自动跳转
  8. curl_setopt($curl, CURLOPT_REFERER, $ref);
  9. curl_setopt($curl, CURLOPT_POST, 1); // 发送一个常规的Post请求
  10. curl_setopt($curl, CURLOPT_POSTFIELDS, $data); // Post提交的数据包
  11. curl_setopt($curl, CURLOPT_COOKIEFILE,$GLOBALS ['cookie_file']); // 读取上面所储存的Cookie信息
  12. curl_setopt($curl, CURLOPT_COOKIEJAR, $GLOBALS['cookie_file']); // 存放Cookie信息的文件名称

  13. curl_setopt($curl, CURLOPT_HTTPHEADER,array('Accept-Encoding: gzip, deflate'));
  14. curl_setopt($curl, CURLOPT_ENCODING, 'gzip,deflate');这个是解释gzip内容.................
  15. curl_setopt($curl, CURLOPT_TIMEOUT, 30); // 设置超时限制防止死循环
  16. curl_setopt($curl, CURLOPT_HEADER, 0); // 显示返回的Header区域内容
  17. curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); // 获取的信息以文件流的形式返回
  18. $tmpInfo = curl_exec($curl); // 执行操作
  19. if (curl_errno($curl)) {
  20. echo 'Errno'.curl_error($curl);
  21. }
  22. curl_close($curl); // 关键CURL会话
  23. return $tmpInfo; // 返回数据
  24. }