Python通过requests实现腾讯新闻抓取爬虫的方法-创新互联

最近也是学习了一些爬虫方面的知识。以我自己的理解，通常我们用浏览器查看网页时，是通过浏览器向服务器发送请求，然后服务器响应以后返回一些代码数据，再经过浏览器解析后呈现出来。而爬虫则是通过程序向服务器发送请求，并且将服务器返回的信息，通过一些处理后，就能得到我们想要的数据了。

为梁溪等地区用户提供了全套网页设计制作服务，及梁溪网站建设行业解决方案。主营业务为网站设计制作、网站制作、梁溪网站设计，以传统方式定制建设网站，并提供域名空间备案等一条龙服务，秉承以专业、用心的态度为用户提供真诚的服务。我们深信只要达到每一位用户的要求，就会得到认可，从而选择与我们长期合作。这样，我们也可以走得更远！

以下是前段时间我用python写的一个爬取TX新闻标题及其网址的一个简单爬虫：

首先需要用到python中requests（方便全面的http请求库）和 BeautifulSoup（html解析库）。

通过pip来安装这两个库，命令分别是：pip install requests 和 pip install bs4 (如下图)

先放上完整的代码

# coding:utf-8
import requests
from bs4 import BeautifulSoup
 
url = "http://news.qq.com/"
# 请求腾讯新闻的URL，获取其text文本
wbdata = requests.get(url).text
# 对获取到的文本进行解析
soup = BeautifulSoup(wbdata,'lxml')
# 从解析文件中通过select选择器定位指定的元素，返回一个列表
news_titles = soup.select("div.text > em.f14 > a.linkto")
 
# 对返回的列表进行遍历
for n in news_titles:
  title = n.get_text()
  link = n.get("href")
  data = {
    '标题':title,
    '链接':link
  }
  print(data)

当前名称：Python通过requests实现腾讯新闻抓取爬虫的方法-创新互联
当前网址：http://kswsj.cn/article/pjcjh.html

关于创新互联

Python通过requests实现腾讯新闻抓取爬虫的方法-创新互联

其他资讯