前言
创新互联专业为企业提供岚县网站建设、岚县做网站、岚县网站设计、岚县网站制作等企业网站建设、网页设计与制作、岚县企业网站模板建站服务,十多年岚县做网站经验,不只是建网站,更提供有价值的思路和整体网络服务。之前已经介绍了node.js的一些基本知识,下面这篇文章我们的目标是学习完本节课程后,能进行网页简单的分析与抓取,对抓取到的信息进行输出和文本保存。
爬虫的思路很简单:
在这节里做爬虫,我们使用到了两个重要的模块:
一、 hello world
说是hello world,其实首先开始的是最简单的抓取。我们就以cnode网站为例(https://cnodejs.org/),这个网站的特点是:
代码如下:
var request = require('request'), cheerio = require('cheerio'); request('https://cnodejs.org/', function(err, response, body){ if( !err && response.statusCode == 200 ){ // body为源码 // 使用 cheerio.load 将字符串转换为 cheerio(jQuery) 对象, // 按照jQuery方式操作即可 var $ = cheerio.load(body); // 输出导航的html代码 console.log( $('.nav').html() ); } });
另外有需要云服务器可以了解下创新互联建站www.cdcxhl.com,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。