关于回帖乱码的问题# Joke - 肚皮舞运动
H*g
1 楼
我今天刚研究了一下unicode 原来由于历史原因windows里常用的是utf16 或者gbk
要分辨少量2字节的utf16汉字和同样2字节的gb汉字可能比较困难 所以造成目前这种
回复里有两种编码的情况
现在看起来所有的东西都在往unicode转变 所以gbk迟早是要被淘汰的 毕竟它只是
一种地方编码 只有写简体汉字才方便
unicode里 utf16和ascii不是兼容的 但utf8和ascii是完全兼容的 因此用utf8
的网页文件可以只包含单一编码 处理起来比含有gb或者utf16的网页可能简单一些
utf8里一个汉字3字节而不是两个 gb和大部分常用utf16汉字是2字节 但这个代
价其实很小 尤其考虑到网页本身的代码(数量可能比汉字内容多许多)都是ascii 在
utf8里只有一个字节 用utf8的网页跟用gbk的比 只是汉字部分大了一半
所以结论是 如果彻底转成utf8 可以完全解决乱码问题
要分辨少量2字节的utf16汉字和同样2字节的gb汉字可能比较困难 所以造成目前这种
回复里有两种编码的情况
现在看起来所有的东西都在往unicode转变 所以gbk迟早是要被淘汰的 毕竟它只是
一种地方编码 只有写简体汉字才方便
unicode里 utf16和ascii不是兼容的 但utf8和ascii是完全兼容的 因此用utf8
的网页文件可以只包含单一编码 处理起来比含有gb或者utf16的网页可能简单一些
utf8里一个汉字3字节而不是两个 gb和大部分常用utf16汉字是2字节 但这个代
价其实很小 尤其考虑到网页本身的代码(数量可能比汉字内容多许多)都是ascii 在
utf8里只有一个字节 用utf8的网页跟用gbk的比 只是汉字部分大了一半
所以结论是 如果彻底转成utf8 可以完全解决乱码问题