日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

ASCII/GB2312/GBK/unicode常用字符集編碼詳解( 二 )


GBK和GB2312都是雙字節(jié)等寬編碼 , 如果算上和ASCII兼容所支持的單字節(jié) , 也可以理解為是單字節(jié)和雙字節(jié)混合的變長編碼 。GB18030編碼是變長編碼 , 有單字節(jié)、雙字節(jié)和四字節(jié)三種方式 。
GB18030的單字節(jié)編碼范圍是0x00-0x7F , 完全等同與ASCII;雙字節(jié)編碼的范圍和GBK相同 , 高字節(jié)是0x81-0xFE , 低字節(jié)的編碼范圍是0x40-0x7E和0x80-FE;四字節(jié)編碼中第一、三字節(jié)的編碼范圍是0x81-0xFE , 二、四字節(jié)是0x30-0x39 。
Windows中CP936代碼頁使用0x80來表示歐元符號 , 而在GB18030編碼中沒有使用0x80編碼位 , 用其他位置來表示歐元符號 。這可以理解為是GB18030向下兼容性上的一點小問題;也可以理解為0x80是CP936對GBK的擴展 , 而GB18030只是和GBK兼容良好 。
【ASCII/GB2312/GBK/unicode常用字符集編碼詳解】unicode
每一種語言的不同的編碼頁 , 增加了那些需要支持不同語言的軟件的復雜度 。因而人們制定了一個世界標準 , 叫做unicode 。unicode為每個字符提供了唯一的特定數(shù)值 , 不論在什么平臺上、不論在什么軟件中 , 也不論什么語言 。也就是說 , 它世界上使用的所有字符都列出來 , 并給每一個字符一個唯一特定數(shù)值 。
Unicode的最初目標 , 是用1個16位的編碼來為超過65000字符提供映射 。但這還不夠 , 它不能覆蓋全部歷史上的文字 , 也不能解決傳輸?shù)膯栴} (implantation head-ache's) , 尤其在那些基于網(wǎng)絡的應用中 。已有的軟件必須做大量的工作來程序16位的數(shù)據(jù) 。
因此 , Unicode用一些基本的保留字符制定了三套編碼方式 。它們分別是UTF-8,UTF-16和UTF-32 。正如名字所示 , 在UTF-8中 , 字符是以8位序列來編碼的 , 用一個或幾個字節(jié)來表示一個字符 。這種方式的比較大好處 , 是UTF-8保留了ASCII字符的編碼做為它的一部分 , 例如 , 在UTF-8和ASCII中 , “A”的編碼都是0x41.
UTF-16和UTF-32分別是Unicode的16位和32位編碼方式 。考慮到最初的目的 , 通常說的Unicode就是指UTF-16 。在討論Unicode時 , 搞清楚哪種編碼方式非常重要 。
UTF-8
Unicode Transformation Format-8bit , 允許含BOM , 但通常不含BOM 。是用以解決國際上字符的一種多字節(jié)編碼 , 它對英文使用8位(即一個字節(jié)) , 中文使用24為(三個字節(jié))來編碼 。UTF-8包含全世界所有國家需要用到的字符 , 是國際編碼 , 通用性強 。UTF-8編碼的文字可以在各國支持UTF8字符集的瀏覽器上顯示 。如 , 如果是UTF8編碼 , 則在外國人的英文IE上也能顯示中文 , 他們無需下載IE的中文語言支持包 。
GBK的文字編碼是用雙字節(jié)來表示的 , 即不論中、英文字符均使用雙字節(jié)來表示 , 為了區(qū)分中文 , 將其高到位都設定成1 。GBK包含全部中文字符 , 是國家編碼 , 通用性比UTF8差 , 不過UTF8占用的數(shù)據(jù)庫比GBK大 。
GBK、GB2312等與UTF8之間都必須通過Unicode編碼才能相互轉換:
GBK、GB2312--Unicode--UTF8
UTF8--Unicode--GBK、GB2312
對于一個網(wǎng)站、論壇來說 , 如果英文字符較多 , 則建議使用UTF-8節(jié)省空間 。不過現(xiàn)在很多論壇的插件一般只支持GBK 。

推薦閱讀