Node.JS有一个request模块,可以很方便的抓取网页内容。最简单demo如下:
var request = require('request'); request('http://www.google.com', function (error, response, body) { if (!error && response.statusCode == 200) { console.log(body); } })
由上例可以看出用request发起一个http请求确实非常简单,不过唯一的问题就是,request模块的第三方依赖比较多,导致这个模块非常地大,要占用好几M的空间。
其实用node.js原生的http模块就可以很方便地写出一个类似的request的功能,只要几十行即可:
var http = require('http') var url = require('url') var request = function(reqUrl, data, cb, headers) { var dataType = typeof data if (dataType == 'function') { headers = cb cb = data rawData = null } else if (dataType == 'object') { rawData = JSON.stringify(data) } else { rawData = data } var urlObj = url.parse(reqUrl) var options = { hostname : urlObj.hostname , port : urlObj.port , path : urlObj.pathname , method : rawData ? 'post' : 'get' } headers && (options.headers = headers) var req = http.request(options, function(res) { var receives = [] if (res.statusCode !== 200) { cb && cb(new Error('Request Failed. Status Code: ' + res.statusCode + ' ' + reqUrl)) return } res.on('data', function(chunk) { receives.push(chunk) }) res.on('end', function() { var resData = Buffer.concat(receives).toString() try { resData = JSON.parse(resData) } catch (e) { } cb && cb(null, res, resData) }) }) req.on('error', function(e) { cb && cb(e) }) rawData && req.write(rawData) req.end() } module.exports = request
使用接口与request模块是一样的,比如我们抓取新浪新闻首页的内容
request('http://news.sina.com.cn', function(err, res, data) { console.log('geted', data) })
抓取时附加cookie等header认证信息
request('http://news.sina.com.cn', function(err, res, data) { console.log('get with cookie', data) }, { cookie: '_sessionid=1234567890' })
用POST的方式请求新浪网
request('http://news.sina.com.cn', { postdata: 'json' }, function(err, res, data) { console.log('get with cookie', data) }, { cookie: '_sessionid=1234567890' })