Java 中的编码 & 解码

核心原则：一切乱码的根源都是“解码”时用错了“编码”规则

</aside>

想象一下，你和朋友约定了一个密码本：1代表A，2代表B，3代表C...

编码（Encoding）：你想发送信息 "CAB"，于是你查密码本，把它转换成数字 "312"。
解码（Decoding）：你的朋友收到 "312"，拿出同一个密码本，查表翻译回来，得到 "CAB"，通讯成功。

乱码是怎么发生的呢？

假设你的朋友用错了密码本。他的密码本是：1代表X，2代表Y，3代表Z。

他收到你发来的 "312"。
他拿出错误的密码本来解码，得到 "ZYX"。
"ZYX" 就是所谓的乱码。信息本身（"312"）在传输过程中没有错，错在接收方用错误的规则去解读它。

计算机世界里的乱码就是这个原理。一份文本文件在保存时，计算机会根据一种编码规则（如 UTF-8 或 GBK）将字符（如“你好”）转换成二进制字节序列（如 E4BDA0 E5A5BD）。当你要打开这个文件时，你的软件（如记事本、浏览器）会尝试用一种它认为正确的编码规则去解码这些字节。如果它猜错了编码规则，乱码就诞生了。

几种经典的乱码场景与实例分析

我们以汉字“你好”为例，来看看它在不同编码下的样子：

Unicode 码点：你(U+4F60) 好(U+597D)
UTF-8 编码 (字节)：E4 BD A0 E5 A5 BD
GBK 编码 (字节)：C4 E3 BA C3

现在我们来模拟一下用错误的“密码本”（解码方式）会发生什么。

场景一：把 UTF-8 编码的文本，当作 GBK 来显示

这是最常见的一种乱码。

保存：你有一个文件，里面写着“你好”。你用 UTF-8 格式保存。文件里实际存储的字节是 E4 BD A0 E5 A5 BD。