python里bs4的使用方法-创新互联

创新互联www.cdcxhl.cn八线动态BGP香港云服务器提供商，新人活动买多久送多久，划算不套路！

在成都做网站、成都网站建设中从网站色彩、结构布局、栏目设置、关键词群组等细微处着手，突出企业的产品/服务/品牌，帮助企业锁定精准用户，提高在线咨询和转化，使成都网站营销成为有效果、有回报的无锡营销推广。创新互联专业成都网站建设10余年了，客户满意度97.8%，欢迎成都创新互联客户联系。

python里bs4的使用方法？这个问题可能是我们日常学习或工作经常见到的。希望通过这个问题能让你收获颇深。下面是小编给大家带来的参考内容，让我们一起来看看吧！

bs4 全名 BeautifulSoup，是编写 python 爬虫常用库之一，主要用来解析 html 标签。

初始化

from bs4 import BeautifulSoup

soup = BeautifulSoup("A Html Text", "html.parser")

两个参数：第一个参数是要解析的html文本，第二个参数是使用那种解析器，对于HTML来讲就是html.parser，这个是bs4自带的解析器。如果一段HTML或XML文档格式不正确的话，那么在不同的解析器中返回的结果可能是不一样的。

python里bs4的使用方法

对象

Beautfiful Soup将复杂HTML文档转换成一个复杂的树形结构，每个节点都是Python对象，所有对象可以归纳为4种：tag，NavigableString，BeautifulSoup，Comment。

tag

Tag对象与 xml 或 html 原生文档中的 tag 相同。

soup = BeautifulSoup('Extremely bold')

tag = soup.b

type(tag)

#

如果不存在，则返回 None，如果存在多个，则返回第一个。

name

每个 tag 都有自己的名字

tag.name
# 'b'

attributes

tag 的属性是一个字典

tag['class']
# 'boldest'

tag.attrs
# {'class': 'boldest'}

type(tag.attrs)
#

两点注意事项

1、python3不再有urllib2，取而代之的是urllib.request，因此把在Python2中使用urllib2的地方全部替代为urllib.request即可
2、from BeautifulSoup import BeautifulSoup 总是会出错，替换为from bs4 import BeautifulSoup即可

当然，文档的节点不止这些，还有其他很多的节点。

感谢各位的阅读！看完上述内容，你们对python里bs4的使用方法大概了解了吗？希望文章内容对大家有所帮助。如果想了解更多相关文章内容，欢迎关注创新互联-成都网站建设公司行业资讯频道。

当前标题：python里bs4的使用方法-创新互联
本文来源：http://kswsj.cn/article/ieocd.html

关于创新互联

python里bs4的使用方法-创新互联

其他资讯