过渡到 UTF-8 时的问题
看了一篇《[url=http://www.uuzone.com/blog/mao/98921.htm]转UTF-8编码的启发[/url]
1.批量转码,写个PHP 脚本用 iconv 库转,20 行就可以了(有 10 行是为了打扮输出界面
2.几乎所有语言都对文件 BOM 头的处理有问题,昨天我还在跟一个新来的实习生解释为什么他的 PHP 脚本任务在命令行下会有两个奇怪字符。但问题是,完全可以控制一个 UTF-8 文件不要产生 BOM,起码我所知道的 ue、edit+ 都如此
3.参阅车东《[url=http://chedong.com/tech/unicode_java.html]从汉化到国际化——UniCode inside, Localization outsite[/url]》一文中的粗体字“输入和存储阶段就用UniCode方式进行处理和存储,以方便应用以后的国际化”
4.“不幸的是,遇到了太多的项目,太多的人,他们宁可 copy paste 大量代码,花很多时间去 debug,费九牛二虎之力,把boss在心中诅咒100遍,用不正确的方法去做事,最终的结果可想而知
[hr]
5.目前做的公司的一个网站运行了快一年了,我曾经说,如果让我重新选,我会选 charset=GB2312(实际是 GBK
l18n?有几个网站需要国际化?理性的说,把一个 GBK 的网站一次性转换成 UTF-8 所需要成本远小于在没有必要用 UTF-8 前提下运行几年所产生的额外成本。
我现在总结的规则是随大流,如果所有网站全是 unicode、所有程序员刚开始写程序的时候用的就是 unicode,如果所有操作系统和编辑器也都用 unicode,那这个世界就好多了,但这是未来的事情。
如果你是个观众,还是个有品位的观众,你可能会喜欢一些实验电影,可如果你是华纳的老板,你肯定喜欢卖一部老少咸宜的商业片。