beautifulsoup库怎么在python中使用-创新互联

今天就跟大家聊聊有关beautifulsoup库怎么在python中使用，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

创新互联建站专注为客户提供全方位的互联网综合服务，包含不限于成都网站制作、成都网站建设、贵阳网络推广、成都微信小程序、贵阳网络营销、贵阳企业策划、贵阳品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等，从售前售中售后，我们都将竭诚为您服务，您的肯定，是我们大的嘉奖；创新互联建站为所有大学生创业者提供贵阳建站搭建服务，24小时服务热线：13518219792，官方网址：www.cdcxhl.com

1. BeautifulSoup库简介

BeautifulSoup库在python中被美其名为“靓汤”，它和和 lxml 一样也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，若在没用安装此库的情况下， Python 会使用 Python默认的解析器lxml，lxml 解析器更加强大，速度更快，而BeautifulSoup库中的lxml解析器则是集成了单独的lxml的特点，使得功能更加强大。

需要注意的是，Beautiful Soup已经自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。因此在使用它的时候不需要考虑编码方式，仅仅需要说明一下原始编码方式就可以了。

使用pip命令工具安装BeautifulSoup4库

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ BeautifulSoup # 使用清华大学镜像源安装

2. BeautifulSoup库的主要解析器

在代码中html.parser是一种针对于html网页页面的解析器，Beautiful Soup库还有其他的解析器，用于针对不同的网页

demo = 'https://www.baidu.com'
soup = BeautifulSoup(demo,'html.parser')

解析器	使用方法	条件
bs4的html解析器	BeautifulSoup(demo,‘html.parser')	安装bs4库
lxml的html解析器	BeautifulSoup(demo,‘lxml')	pip install lxml
lxml的xml解析器	BeautifulSoup(demo,‘xml')	pip install lxml
html5lib的解析器	BeautifulSoup(demo,‘html5lib')	pip install html5lib

3. BeautifulSoup的简单使用

假如有一个简单的网页，提取百度搜索页面的一部分源代码为例




 
 
 
 
 百度一下，你就知道 


 
 
 
  
  新闻

  hao123 
  地图 
  视频 
  贴吧

  更多产品

import requests from bs4 import BeautifulSoup # 使用Requests库加载页面代码 r = requests.get('https://www.baidu.com') r.raise_for_status() # 状态码返回 r.encoding = r.apparent_encoding demo = r.text # 使用BeautifulSoup库解析代码 soup = BeautifulSoup(demo,'html.parser') # 使用html的解析器 print(soup.prettify()) # prettify 方式输出页面

基本元素	说明
Tag	标签，最基本的信息组织单元，分别用<>和标明开头和结尾，格式：soup.a或者soup.p（获取a标签中或者p标签中的内容）
Name	标签的名字， … 的名字是‘p' 格式为：.name
Attributes	标签的属性，字典形式组织，格式：.attrs
NavigableString	标签内非属性字符串，<>…中的字符串，格式：.string
Comment	标签内的字符串的注释部分，一种特殊的Comment类型

基本元素

说明

Tag

标签，最基本的信息组织单元，分别用<>和标明开头和结尾，格式：soup.a或者soup.p（获取a标签中或者p标签中的内容）

Name

标签的名字，

…

的名字是‘p' 格式为：.name

Attributes

标签的属性，字典形式组织，格式：.attrs

NavigableString

标签内非属性字符串，<>…中的字符串，格式：.string

Comment

标签内的字符串的注释部分，一种特殊的Comment类型

from bs4 import BeautifulSoup html = 'https://www.baidu.com' bs = BeautifulSoup(html,"html.parser") print(bs.title) # 获取title标签的所有内容 print(bs.head) # 获取head标签的所有内容 print(bs.a) # 获取第一个a标签的所有内容 print(type(bs.a)) # 类型

print(bs.name) print(bs.head.name) # head 之外对于其他内部标签，输出的值便为标签本身的名称 print(bs.a.attrs) # 把 a 标签的所有属性打印输出了出来，得到的类型是一个字典。 print(bs.a['class']) # 等价 bs.a.get('class') 也可以使用get方法，传入属性的名称，二者是等价的 bs.a['class'] = "newClass" # 对这些属性和内容进行修改 print(bs.a) del bs.a['class'] # 对这个属性进行删除 print(bs.a)

from bs4 import BeautifulSoup html = 'https://www.baidu.com' bs = BeautifulSoup(html,"html.parser") print(bs.a) # 标签中的内容 print(bs.a.string) # 新闻 print(type(bs.a.string)) #

属性	说明
.contents	子节点的列表，将所有儿子节点存入列表
.children	子节点的迭代类型，用于循环遍历儿子节点
.descendants	子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

属性

说明

.contents

子节点的列表，将所有儿子节点存入列表

.children

子节点的迭代类型，用于循环遍历儿子节点

.descendants

子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

soup = BeautifulSoup(demo,'html.parser') # 循环遍历儿子节点 for child in soup.body.children: print(child) # 循环遍历子孙节点 for child in soup.body.descendants: print(child) # 输出子节点的列表形式 print(soup.head.contents) print(soup.head.contents[1]) # 用列表索引来获取它的某一个元素

属性	说明
.parent	节点的父亲标签
.parents	节点先辈标签的迭代类型，用于循环遍历先辈节点，返回一个生成器

属性

说明

.parent

节点的父亲标签

.parents

节点先辈标签的迭代类型，用于循环遍历先辈节点，返回一个生成器

属性	说明
.next_sibling	返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling	返回按照HTML文本顺序的上一个平行节点标签
.next_siblings	迭代类型，返回按照html文本顺序的后续所有平行节点标签
.previous_siblings	迭代类型，返回按照html文本顺序的前序所有平行节点标签

属性

说明

.next_sibling

返回按照HTML文本顺序的下一个平行节点标签

.previous_sibling

返回按照HTML文本顺序的上一个平行节点标签

.next_siblings

迭代类型，返回按照html文本顺序的后续所有平行节点标签

.previous_siblings

迭代类型，返回按照html文本顺序的前序所有平行节点标签

属性	说明
.strings	如果Tag包含多个字符串，即在子孙节点中有内容，可以用此获取，而后进行遍历
.stripped_strings	与strings用法一致，可以去除掉那些多余的空白内容
.has_attr	判断Tag是否包含属性

属性

说明

.strings

如果Tag包含多个字符串，即在子孙节点中有内容，可以用此获取，而后进行遍历

.stripped_strings

与strings用法一致，可以去除掉那些多余的空白内容

.has_attr

判断Tag是否包含属性

from bs4 import BeautifulSoup import re html = 'https://www.baidu.com' bs = BeautifulSoup(html,"html.parser") t_list = bs.find_all(re.compile("a")) for item in t_list: print(item) # 输出列表

from bs4 import BeautifulSoup html = 'https://www.baidu.com' bs = BeautifulSoup(html,"html.parser") def name_is_exists(tag): return tag.has_attr("name") t_list = bs.find_all(name_is_exists) for item in t_list: print(item)

from bs4 import BeautifulSoup import re html = 'https://www.baidu.com' bs = BeautifulSoup(html, "html.parser") t_list = bs.find_all(attrs={"data-foo": "value"}) for item in t_list: print(item) t_list = bs.find_all(text="hao123") for item in t_list: print(item) t_list = bs.find_all(text=["hao123", "地图", "贴吧"]) for item in t_list: print(item) t_list = bs.find_all(text=re.compile("\d")) for item in t_list: print(item)

soup.find_all(sring = re.compile('pyhton')) # 指定查找内容 # 或者指定使用正则表达式要搜索的内容 sring = re.compile('pyhton') # 字符为python soup.find_all(string) # 调用方法模板

新网创想网站建设，新征程启航

beautifulsoup库怎么在python中使用-创新互联

2. BeautifulSoup库的主要解析器

3. BeautifulSoup的简单使用

4. BeautifuSoup的类的基本元素

4.1 Tag

4.2 NavigableString

4.3 Comment

5. 基于bs4库的HTML内容的遍历方法

5.1 下行遍历

5.2 上行遍历

5.3 平行遍历

5.4 其他遍历

6. 文件树搜索

6.1 name参数

6.2 attrs参数

6.3 string参数

6.4 常用的fiid()方法如下

其他资讯