关于回帖乱码的问题 - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Joke - 肚皮舞运动

关于回帖乱码的问题

关于回帖乱码的问题# Joke - 肚皮舞运动

H*g2017-07-25 07:07

1 楼

我今天刚研究了一下unicode 原来由于历史原因windows里常用的是utf16 或者gbk

要分辨少量2字节的utf16汉字和同样2字节的gb汉字可能比较困难所以造成目前这种
回复里有两种编码的情况
现在看起来所有的东西都在往unicode转变所以gbk迟早是要被淘汰的毕竟它只是
一种地方编码只有写简体汉字才方便
unicode里 utf16和ascii不是兼容的但utf8和ascii是完全兼容的因此用utf8
的网页文件可以只包含单一编码处理起来比含有gb或者utf16的网页可能简单一些
utf8里一个汉字3字节而不是两个 gb和大部分常用utf16汉字是2字节但这个代
价其实很小尤其考虑到网页本身的代码（数量可能比汉字内容多许多）都是ascii 在
utf8里只有一个字节用utf8的网页跟用gbk的比只是汉字部分大了一半
所以结论是如果彻底转成utf8 可以完全解决乱码问题

o*p2017-07-25 07:07

2 楼

武皇真钻研啊

gbk
utf8

【在 H********g 的大作中提到】

: 我今天刚研究了一下unicode 原来由于历史原因windows里常用的是utf16 或者gbk
:
: 要分辨少量2字节的utf16汉字和同样2字节的gb汉字可能比较困难所以造成目前这种
: 回复里有两种编码的情况
: 现在看起来所有的东西都在往unicode转变所以gbk迟早是要被淘汰的毕竟它只是
: 一种地方编码只有写简体汉字才方便
: unicode里 utf16和ascii不是兼容的但utf8和ascii是完全兼容的因此用utf8
: 的网页文件可以只包含单一编码处理起来比含有gb或者utf16的网页可能简单一些
: utf8里一个汉字3字节而不是两个 gb和大部分常用utf16汉字是2字节但这个代
: 价其实很小尤其考虑到网页本身的代码（数量可能比汉字内容多许多）都是ascii 在