php抓取网站大量数据,php抓取网站大量数据的方法

PHP怎样抓取网页代码中动态显示的数据

你是想抓别人网页上ajax动态载入的数据吧？

二道网站建设公司成都创新互联公司,二道网站设计制作，有大型网站制作公司丰富经验。已为二道上千提供企业网站建设服务。企业网站搭建\成都外贸网站建设公司要多少钱，请找那个售后服务好的二道做网站的公司定做！

1、要找到它的ajax载入的URL地址

2、利用PHP的file_get_contents($url)函数读取那个url地址。

3、对抓取到的内容进行分析或正则过滤。

如何利用php抓取网站动态产生的数据

$url = "网站地址目录";

$queryServer = curl_init();

curl_setopt($queryServer, CURLOPT_URL, $url);

curl_setopt($queryServer, CURLOPT_HEADER, 0);

curl_setopt($queryServer, CURLOPT_RETURNTRANSFER, 1);

curl_setopt($queryServer, CURLOPT_RETURNTRANSFER, true);

curl_setopt($queryServer, CURLOPT_CONNECTTIMEOUT, 10);

curl_setopt($queryServer, CURLOPT_TIMEOUT, 30);

$html = curl_exec($queryServer);

$html = iconv('UTF-8','GBK//IGNORE',$html); //如果你需要是的数据是utf-8编码的,这一行可以注销，如果需要gbk编码的,请保留.如果出现乱码，就是一行的问题，你自己调着试吧

//echo $holder;exit; 此处可以输出来测试.

$html = str_replace(array("\n","\r","\t"),"",$html);

$preg = '/table\s+width=\"800\"[^]+(.*?)\/table/';

preg_match_all($preg,$html,$out);

//匹配每行

preg_match_all('/tr[^]+(.*?)\/tr/',$out[1][0],$tr);

//匹配每个td

$result = array();

$match = '/td.+([^]+)\/td/U';

foreach( $tr[0] as $key = $value ){

preg_match_all($match,$value,$arr);

$result[] = $arr[1];

}

//输出测试,$result就是你要的数据，至于你要怎么输出显示格式，那就随心调就好了。

foreach( $result as $key = $value ){

echo implode("\t",$value);

echo "br";

}

exit;

请问php怎样抓取其它网站的动态数据，显示在自己的网页内并同步更新。

刚吃完午饭吧，来帮你实现一下吧。记得加分哦。

$url = "";

$queryServer = curl_init();

curl_setopt($queryServer, CURLOPT_URL, $url);

curl_setopt($queryServer, CURLOPT_HEADER, 0);

curl_setopt($queryServer, CURLOPT_RETURNTRANSFER, 1);

curl_setopt($queryServer, CURLOPT_RETURNTRANSFER, true);

curl_setopt($queryServer, CURLOPT_CONNECTTIMEOUT, 10);

curl_setopt($queryServer, CURLOPT_TIMEOUT, 30);

$html = curl_exec($queryServer);

//echo $holder;exit; 此处可以输出来测试.

$html = str_replace(array("\n","\r","\t"),"",$html);

$preg = '/table\s+width=\"800\"[^]+(.*?)\/table/';

preg_match_all($preg,$html,$out);

//匹配每行

preg_match_all('/tr[^]+(.*?)\/tr/',$out[1][0],$tr);

//匹配每个td

$result = array();

$match = '/td.+([^]+)\/td/U';

foreach( $tr[0] as $key = $value ){

preg_match_all($match,$value,$arr);

$result[] = $arr[1];

}

//输出测试,$result就是你要的数据，至于你要怎么输出显示格式，那就随心调就好了。

foreach( $result as $key = $value ){

echo implode("\t",$value);

echo "br";

}

exit;

怎么用php采集网站数据

简单的分了几个步骤：

1、确定采集目标

2、获取目标远程页面内容（curl、file_get_contents）

3、分析页面html源码，正则匹配你需要的内容（preg_match、preg_match_all），这一步最为重要，不同页面正则匹配规则不一样

4、入库

php curl 大量数据采集

这个需要配合js，打开一个html页面，首先js用ajax请求页面，返回第一个页面信息确定处理完毕（ajax有强制同步功能），ajax再访问第二个页面。（或者根据服务器状况，你可以同时提交几个URL，跑几个相同的页面）

参数可以由js产生并传递url，php后台页面根据URL抓页面。然后ajax通过php，在数据库或者是哪里设一个标量，标明检测到哪里。由于前台的html页面执行多少时候都没问题，这样php的内存限制和执行时间限制就解决了。

因为不会浪费大量的资源用一个页面来跑一个瞬间500次的for循环了。（你的500次for循环死了原因可能是获取的数据太多，大过了php限制的内存）

不过印象中curl好像也有强制同步的选项，就是等待一个抓取后再执行下一步。但是这个500次都是用一个页面线程处理，也就是说肯定会远远大于30秒的默认执行时间。

php每天抓取数据并更新新

以前我用过querylist插件抓数据，服务器写和定时器，每天固定时间去运行脚本。朝这个方式试试

高并发下数据的更新，应该 update table xxx set num = num - 1 的方式，这种方式可以保证数据的正确性。

但是会出现 num 为负数的问题，如果库存为负数，显然是不合理的。

于是，需要将 num 字段设置为无符号整型，这样就不会出现负数了，因为，如果减到负数，就会更新失败。

但是这种依然会造成很多无用的更新语句的执行，是不合理的。

于是，update table xxx set num = num - 1 where num 0，

这样当 num 等于0之后就不会去更新数据库了，减少了很多无用的开销。

这种方式被称作“乐观锁”

此外，对于抢红包这种非整数的操作，我们应该转换为整数的操作。

关于抢购超卖的控制

一般抢购功能是一个相对于正常售卖系统来说独立的子系统，这样既可以防止抢购时的高并发影响到正常系统，

也可以做到针对于抢购业务的特殊处理。

在后台设计一些功能，可以就昂正常的商品加入到抢购活动中并编辑成为抢购商品，写入到抢购商品表，当然

也可以把抢购商品表写入redis而不是数据表。并且在原商品表写入一个同样的商品（id相同，用于订单查看，

此商品不可购买）

如果是数据表，为了控制超卖，需要对表进行行锁，更新的时候带上 where goods_amount 0。

如果是redis，使用 hincrby 一个负数来减库存，并且 hincrby 会返回改变后的值，再来判断返回值是否大于0，

因为redis每个命令都是原子性的，这样不用锁表就可控制超卖。

网页名称：php抓取网站大量数据,php抓取网站大量数据的方法
新闻来源：http://kswsj.cn/article/heipgc.html

关于创新互联