【Python笔记】read_html():获取table类型网页表格数据

最新推荐文章于 2025-06-03 17:21:29 发布

原创

最新推荐文章于 2025-06-03 17:21:29 发布 · 1.5w 阅读

78 ·

CC 4.0 BY-SA版权

文章标签：

#python

文章目录

0 基础知识
- table类型的表格网页结构
- read_html()函数
1 快速抓取法
- 1.1 思路
- 1.2 代码
2 完整爬虫抓取法
- 2.1 思路
- 2.2 代码
3 小结

常见的各种官网都有这样一种情况：

网站中很多表格，我们想对这些表格进行整理汇总、或者是筛选，或者是处理分析。

于是我们需要考虑：如何将网页表格数据使用python保存为Excel文件？

如果需要抓的表格很少或只需要抓一次，那么推荐快速抓取法 [引文1]。
如果页数比较多，推荐完整爬虫抓取法 [引文2]。解析函数用了BeautifulSoup和css选择器，这种方法定位提取表格所在的id为#myTable04的table代码段，更为准确。

0 基础知识

table类型的表格网页结构

一般情况下，网页的表格数据主要是在<table>标签中，<table>类型的表格网页结构大致如下：

<table class="..." id="...">
    <thead>
    <tr>
    <th>...</th>
    </tr>
    </thead>
    <tbody>
        <tr>
            <td>...</td>
        </tr>
        <tr>...</tr>
        <tr>...</tr>
        <tr>...</tr>
        <tr>...</tr>
        ...
        <tr>...</tr>
        <tr>...</tr>
        <tr>...</tr>
        <tr>...</tr>        
    </tbody>
</table>

简单解释上文出现的几种标签含义：

<table>	: 定义表格
<thead>	: 定义表格的页眉
<tbody>	: 定义表格的主体
<tr>	: 定义表格的行
<th>	: 定义表格的表头
<td>	: 定义表格单元

使用pandas的read_html()方法就可以读取标签中的内容。

read_html()函数

pandas.read_html(io,
				 match='.+', 
				 flavor=None, 
				 header=None,
				 index_col=None,
				 skiprows=None, 
				 attrs=None,
				 parse_dates=False,
				 tupleize_cols=None,
				 thousands=', ', 
				 encoding=None, 
				 decimal='.',
				 converters=None,
				 na_values=None,
				 keep_default_na=True,
				 displayed_only=True)