1. 概述
UTF-8是一种字符编码系统。它允许您将字符表示为ASCII文本,同时仍允许使用国际字符,例如中文字符。截至2020年代中期,UTF-8是最受欢迎的编码系统之一。

要开始使用UTF-8,您需要首先熟悉基本的ASCII字符集。
什么是ASCII字符集?
ASCII使用7位码位来表示128个不同的字符。这些码位分为95个可打印字符,其中包括英文字母表的26个字母(A到Z,大写和小写)、10位数字(0到9)以及各种标点符号和其他符号。还有33个不可打印的字符,其中包括回车符和换行符等控制字符,以及用于格式化文本等操作的各种其他字符。
UTF-8VSASCII–有什么区别?
UTF-8扩展了ASCII字符集以使用8位码位,最多允许256个不同的字符。这意味着UTF-8可以表示所有可打印的ASCII字符,也可以表示不可打印的字符。
UTF-8还包括各种附加国际字符,例如中文字符和阿拉伯字符。
2. 如何在网页中使用UTF-8–HTMLUTF-8示例
现在是简单的部分。你实际上不需要知道它是如何工作的(尽管我稍后会告诉你。您可以在HTML代码中配置UTF-8字符编码,代码部分中的单行HTML将:<head>
<!DOCTYPEhtml><html><head><metacharset="utf-8"></head></html>
说完这些,让我解释一下UTF-8的工作原理,以及为什么它是一个如此出色的编码方案。3. UTF-8编码的工作原理以及每个字符使用的存储空间
以UTF-8表示字符时,每个码位由一个或多个字节的序列表示。使用的字节数取决于字符表示的代码点。以下是使用范围的细分:- ASCII范围(0-127)中的码位由单个字节表示
- (128-2047)范围内的代码点由两个字节表示
- 范围(2048-65535)中的代码点由三个字节表示
- 范围(65536-1114111)中的代码点由四个字节表示。(这似乎有很多可能的字符,但请记住,仅在中文中,就有100,000个字符。
单字节序列的前导字节始终在(0-127)范围内。双字节序列的前导字节在(194-223)范围内。三字节序列的前导字节在(224-239)范围内。四字节序列的前导字节在(240-247)范围内。
序列中的其余字节称为“尾随字节”。双字节序列的尾随字节在(128-191)范围内。三字节序列的尾随字节在(128-191)范围内。四字节序列的尾随字节在(128-191)范围内。
您可以通过查看前导字节和尾随字节来计算字符的代码点值。对于单字节序列,码位值等于前导字节的值。
对于双字节序列,码位值等于((前导字节-194)*64)+(尾随字节-128)。
对于三字节序列,码位值等于((前导字节-224)*4096)+((尾随字节1-128)*64)+(尾随字节2-128)。
对于四字节序列,码位值等于((前导字节-240)*262144)+((尾随字节1-128)*4096)+((尾随字节2-128)*64)+(尾随字节3-128)。