mysql中utf8和utf8mb4区别

本文解析了MySQL中utf8与utf8mb4编码的区别,utf8仅支持三个字节的Unicode字符,无法存储所有Unicode字符,如Emoji表情及部分不常用汉字。而utf8mb4作为utf8的超集,支持四字节Unicode,能兼容更广泛的字符。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

MySQL在5.5.3之后增加了这个utf8mb4的编码,mb4就是most bytes 4的意思,专门用来兼容四字节的unicode。好在utf8mb4是utf8的超集,除了将编码改为utf8mb4外不需要做其他转换。当然,为了节省空间,一般情况下使用utf8也就够了。

   二、内容描述

   那上面说了既然utf8能够存下大部分中文汉字,那为什么还要使用utf8mb4呢? 原来mysql支持的 utf8 编码最大字符长度为 3 字节,如果遇到 4 字节的宽字符就会插入异常了。三个字节的 UTF-8 最大能编码的 Unicode 字符是 0xffff,也就是 Unicode 中的基本多文种平面(BMP)。也就是说,任何不在基本多文本平面的 Unicode字符,都无法使用 Mysql 的 utf8 字符集存储。包括 Emoji 表情(Emoji 是一种特殊的 Unicode 编码,常见于 ios 和 android 手机上),和很多不常用的汉字,以及任何新增的 Unicode 字符等等。

   三、问题根源

   最初的 UTF-8 格式使用一至六个字节,最大能编码 31 位字符。最新的 UTF-8 规范只使用一到四个字节,最大能编码21位,正好能够表示所有的 17个 Unicode 平面。

   utf8 是 Mysql 中的一种字符集,只支持最长三个字节的 UTF-8字符,也就是 Unicode 中的基本多文本平面。

   Mysql 中的 utf8 为什么只支持持最长三个字节的 UTF-8字符呢?我想了一下,可能是因为 Mysql 刚开始开发那会,Unicode 还没有辅助平面这一说呢。那时候,Unicode 委员会还做着 “65535 个字符足够全世界用了”的美梦。Mysql 中的字符串长度算的是字符数而非字节数,对于 CHAR 数据类型来说,需要为字符串保留足够的长。当使用 utf8 字符集时,需要保留的长度就是 utf8 最长字符长度乘以字符串长度,所以这里理所当然的限制了 utf8 最大长度为 3,比如 CHAR(100)  Mysql 会保留 300字节长度。至于后续的版本为什么不对 4 字节长度的 UTF-8 字符提供支持,我想一个是为了向后兼容性的考虑,还有就是基本多文种平面之外的字符确实很少用到。

   要在 Mysql 中保存 4 字节长度的 UTF-8 字符,需要使用 utf8mb4 字符集,但只有 5.5.3 版本以后的才支持(查看版本: select version();)。我觉得,为了获取更好的兼容性,应该总是使用 utf8mb4 而非 utf8.  对于 CHAR 类型数据,utf8mb4 会多消耗一些空间,根据 Mysql 官方建议,使用 VARCHAR  替代 CHAR。

MySQL中`utf8mb3``utf8mb4`字符集的主要区别在于它们所支持的字符范围以及编码方式。以下是对这两者的详细对比分析: ### 字符集定义支持的字符范围 - `utf8mb3`是MySQL早期版本中对UTF-8编码的支持,它仅使用最多3个字节来存储字符,这意味着它只能覆盖Unicode的基本多语言平面(Basic Multilingual Plane, BMP),即U+0000到U+FFFF之间的字符。因此,像表情符号(emojis)这类位于辅助平面(Supplemental Planes)上的字符无法通过`utf8mb3`正确表示[^4]。 - 相比之下,`utf8mb4`则完全兼容标准的UTF-8编码规范,能够利用至多4个字节来编码一个字符,从而可以完整地支持整个Unicode字符集,包括但不限于表情符号其他特殊字符。 ### 存储效率性能考量 - 由于`utf8mb4`需要额外的空间来保存那些超出BMP范围的字符,对于只包含常见文字的应用场景来说,采用`utf8mb3`可能会稍微节省一些存储空间。然而,在实际应用中这种差异往往微乎其微,特别是在现代数据库系统里通常会采取各种优化措施以减少不必要的开销。 - 在处理速度方面两者之间并没有显著差异;不过需要注意的是,如果启用了某些特定的语言排序规则(如`utf8mb4_unicode_ci`),那么这可能会影响到查询操作的速度,因为这些规则要求更复杂的比较逻辑[^5]。 ### 排序规则(Collation) - 对于`utf8mb3`,常见的排序规则有`utf8_general_ci`、`utf8_unicode_ci`等;而针对`utf8mb4`则提供了更多选项,例如`utf8mb4_unicode_ci`、`utf8mb4_0900_ci`以及二进制形式的`utf8mb4_bin`等。不同的排序规则决定了如何根据特定语言环境进行大小写不敏感或区分重音符号的操作[^1]。 - 特别指出的是,随着MySQL版本更新,推荐使用基于最新Unicode版本的新排序规则,比如`utf8mb4_0900_ci`就基于Unicode 9.0标准,提供了更好的国际化支持。 ### 兼容性及未来趋势 - 鉴于`utf8mb3`已经不再被官方积极维护,并且计划在未来版本中移除,建议新项目直接采用`utf8mb4`作为默认字符集,以便获得更广泛的语言支持长期的技术保障[^3]。 - 此外,考虑到互联网上越来越多的内容开始依赖于非传统文本元素(如社交媒体中的表情包),升级至`utf8mb4`显得尤为必要。 综上所述,尽管在某些情况下`utf8mb3`仍可满足基本需求,但从长远角度来看选择`utf8mb4`将是更加明智之举,尤其是在构建面向全球用户群体的应用程序时。 ```sql -- 示例:创建使用utf8mb4字符集的数据库 CREATE DATABASE example_db CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci; ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值