python数据处理_愿时间能学会宽恕的博客-CSDN博客

python数据处理

文章平均质量分 69

包含数理统计基本概念，网络爬虫，数据清洗，自然语言处理等内容

文章数：9 文章阅读量：49290 文章收藏量：309

作者: 愿时间能学会宽恕

江南大学物联网本科毕业当前硕士在读，啥也能搞点，啥也不精通

展开

专栏收录文章

Python爬虫初学——Python爬取的搜狗网页数据出现乱码，（User-Agent）UA伪装操作过程

1.错误再现——网页数据出现乱码进行搜狗结果网页的爬取代码如下import requestsif __name__ == '__main__': x = input("请输入查询") url = 'https://www.baidu.com/s' param = { 'wd': x } responce = requests.get(url=url,params=param) page_text = responce.text

原创 2020-10-30 15:24:49 · 871 阅读 · 0 评论
Python网络爬虫实例——实现高清壁纸的爬虫

针对网站：http://pic.netbian.com/等单个页面有多个照片的页面废话不多说直接上码下载的照片均在同一文件夹下的meinv文件夹里import requestsfrom lxml import etreeimport osprint("请输入您当前网页地址")# http://pic.netbian.com/url = input("")# 头文件header = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win6

原创 2020-11-11 18:43:00 · 258 阅读 · 0 评论
python爬虫数据解析xpath解析详细讲解——附有详细案例

1.什么是xpath菜鸟教程这么解释的XPath 使用路径表达式在 XML 文档中进行导航XPath 包含一个标准函数库XPath 是 XSLT 中的主要元素XPath 是一个 W3C 标准百度百科这么解释的是一种用来确定XML文档中某部分位置的语言是最常用的最广泛的数据解析方式2.xpath解析原理①实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中②调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获3.环境的安装pi

原创 2020-11-05 10:15:36 · 44633 阅读 · 20 评论
python精细讲解，从代码出发，适合新手宝宝食用的python入门教学【持续更新中】

说明：删除具体的list表内容，del比较特殊的地方是它能够直接把内存给空闲出来，也就是彻底从内存中删除该元素。说明：删除列表尾部的元素（其他编程语言中），在python中比较独特的是可以通过传递参数，通过下标删除具体的元素。说明：我想拥有和原来的列表一样的内容，但是我想要作为一个独立的个体，而不是作为提线玩偶。1、元组、集合、列表比较相近的，或者说他们本质是一样的，这样的才可以转换、1、元组、集合、列表比较相近的，或者说他们本质是一样的，这样的才可以转换、说明：可以在某个具体的位置插入元素。

原创 2023-12-05 21:22:48 · 170 阅读 · 0 评论
Python爬虫时设置代理服务器（进行IP伪装）

代理就是通过一个代理服务器，来进行你主机与目的服务器的交互。

原创 2024-04-10 14:10:55 · 974 阅读 · 1 评论
数据清洗简单入门

在大数据时代下，我们在针对某一问题的研究时，会有很多数据，但是这些数据一定是合理且能够使用的数据吗？答案当然是否定的。比如学生信息数据集中，可能有人恶意将年龄写成9999，将重量写成0.0001，如果我们直接使用这些可能出现的错误数据，那么在进行之后的数据分析或者是机器学习时，这些情况都会导致很大的误差。那么数据清洗这一名词就出现了，其原理就是，先知道数据中大致有哪些错误，然后将这些错误问题一一解决。

原创 2024-02-25 21:50:02 · 483 阅读 · 0 评论
数理统计的基本概念

其实可以理解为：X的方差就是COV(X,X)；Y的方差就是COV(Y,Y)：按照一定的规定（每个个体被抽中的概率相同），从总体中抽出一部分。与概率论的区别，他是基于实际数据的，但是概率是理论计算的结果。从总体中选取样本，分析样本的特征，从而获取大致的总体特征。：每一次样本都是的所研究问题的特例，能够代表这一问题。：每个样本相互独立，而不存在影响关系。：与所研究问题相关的对象的全体。

原创 2024-02-24 19:29:11 · 484 阅读 · 0 评论
spacy进行简单的自然语言处理的学习

翻译上面的句子，可以发现，invite其实是said的一个定语，因此是依赖于said的。作用：通过使用自然语言处理，机器可以理解人的语言，从而进行语义分析，例如：从一句话中判断喜怒哀乐；那么可以很明显的发现spacy的依赖关系分析是很强大并且有效的，可以帮助我们很快的分析出这段话中依赖关系，以便于之后机器理解语义。进行一个简单的语义分析，其实就是把主谓宾定状补，转换成主谓宾，提取其中的主要信息进行分析。是标注各个词语性质的过程，这对于整个文本的阅读是十分必要的，能够给各个词语分配他的词性。

原创 2024-03-16 22:29:59 · 1177 阅读 · 0 评论
windows和Linux下载源的更改

原创 2020-11-02 20:47:09 · 244 阅读 · 0 评论

python数据处理

作者: 愿时间能学会宽恕

Python爬虫初学——Python爬取的搜狗网页数据出现乱码，（User-Agent）UA伪装操作过程

Python网络爬虫实例——实现高清壁纸的爬虫

python爬虫数据解析xpath解析详细讲解——附有详细案例

python精细讲解，从代码出发，适合新手宝宝食用的python入门教学【持续更新中】

Python爬虫时设置代理服务器（进行IP伪装）

数据清洗简单入门

数理统计的基本概念

spacy进行简单的自然语言处理的学习

windows和Linux下载源的更改