avatar
关于回帖乱码的问题# Joke - 肚皮舞运动
H*g
1
我今天刚研究了一下unicode 原来由于历史原因windows里常用的是utf16 或者gbk

要分辨少量2字节的utf16汉字和同样2字节的gb汉字可能比较困难 所以造成目前这种
回复里有两种编码的情况
现在看起来所有的东西都在往unicode转变 所以gbk迟早是要被淘汰的 毕竟它只是
一种地方编码 只有写简体汉字才方便
unicode里 utf16和ascii不是兼容的 但utf8和ascii是完全兼容的 因此用utf8
的网页文件可以只包含单一编码 处理起来比含有gb或者utf16的网页可能简单一些
utf8里一个汉字3字节而不是两个 gb和大部分常用utf16汉字是2字节 但这个代
价其实很小 尤其考虑到网页本身的代码(数量可能比汉字内容多许多)都是ascii 在
utf8里只有一个字节 用utf8的网页跟用gbk的比 只是汉字部分大了一半
所以结论是 如果彻底转成utf8 可以完全解决乱码问题
avatar
o*p
2
武皇真钻研啊

gbk
utf8

【在 H********g 的大作中提到】
: 我今天刚研究了一下unicode 原来由于历史原因windows里常用的是utf16 或者gbk
:
: 要分辨少量2字节的utf16汉字和同样2字节的gb汉字可能比较困难 所以造成目前这种
: 回复里有两种编码的情况
: 现在看起来所有的东西都在往unicode转变 所以gbk迟早是要被淘汰的 毕竟它只是
: 一种地方编码 只有写简体汉字才方便
: unicode里 utf16和ascii不是兼容的 但utf8和ascii是完全兼容的 因此用utf8
: 的网页文件可以只包含单一编码 处理起来比含有gb或者utf16的网页可能简单一些
: utf8里一个汉字3字节而不是两个 gb和大部分常用utf16汉字是2字节 但这个代
: 价其实很小 尤其考虑到网页本身的代码(数量可能比汉字内容多许多)都是ascii 在

avatar
p*e
3
avatar
m*n
4
how to turn 16 into 8?
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。