0.本集概览
1.字符编码的基本概念和发展过程
2.Python的文本字符串和字节字符串
3.Python编、解码的本质内涵
4.Python编、解码的操作方法
5.文本文件读取场景下的应用举例
通过前面一集的内容,我们熟悉了字符串的常见用法。不过倒也让我想起一直以来让人困惑的一些概念:ASCII码、Unicode、字符编码什么的,很多朋友一直为此头大,这一集我们就来深入剖析这些内容。
先开始我们不讲编程,不堆概念,我们讲讲故事吧。
1.字符编码是如何变成今天这样的
关于字符编码的概念太多太杂,当ASCII、GB2312、Unicode、UTF-8、UTF-16、编码、解码等诸多名词一股脑堆上来时,确实容易让人迷糊。
为了把这些问题讲清楚,我们从历史维度,在时间轴上梳理计算机在不同语言国家不断发展的过程,以此来彻底搞清楚这些概念。
1.1.字符编码与解码是什么
计算机自己能理解的“语言”是二进制数,最小的信息标识是二进制位,8个二进制位表示一个字节;而我们人类所能理解的语言文字则是一套由英文字母、汉语汉字、标点符号字符、阿拉伯数字等等很多的字符构成的字符集。如果要让计算机来按照人类的意愿进行工作,则必须把人类所使用的这些字符集转换为计算机所能理解的二级制码,这个过程就是