日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

UTF-8,ISO 10646的一種轉(zhuǎn)換格式

【UTF-8,ISO 10646的一種轉(zhuǎn)換格式】本備忘錄的狀態(tài)
本文檔講述了一種Internet社區(qū)的Internet標(biāo)準(zhǔn)跟蹤協(xié)議 , 它需要進(jìn)一步進(jìn)行討論和建
議以得到改進(jìn) 。請參考最新版的“Internet正式協(xié)議標(biāo)準(zhǔn)”(STD1)來獲得本協(xié)議的標(biāo)準(zhǔn)化程
度和狀態(tài) 。本備忘錄的發(fā)布不受任何限制 。
版權(quán)聲明
版權(quán)所屬Internet社區(qū)(1998) , 保留全部權(quán)力 。
摘要
ISO/IEC10646-1定義了一種多8比特字節(jié)字符集 , 稱作通用字符集(UCS) , 它包含了世
界上大多數(shù)可書寫的字符系統(tǒng) 。然而 , 多8比特字節(jié)字符與許多當(dāng)前的應(yīng)用和協(xié)議不一致 ,
從而導(dǎo)致了一些被稱為UCS轉(zhuǎn)換格式(UTF)的發(fā)展 。每一種UTF有不同的特征 。本備忘錄中
的UTF-8保留了全部US-ASCII范圍字符 , 提供了對文件系統(tǒng)、依靠于US-ASCII值的分析器
和其他軟件的兼容性 , 并且對其他字符值透明 。本備忘錄用來更新和替換RFC2044 , 非凡對
相關(guān)標(biāo)準(zhǔn)的版本問題進(jìn)行了說明 。
目錄
1、介紹 2
2、UTF-8定義 3
3、標(biāo)準(zhǔn)版本 4
4、例子 4
5、MIME注冊 4
6、安全考慮 5
鳴謝 5
參考 5
作者地址 6
版權(quán)說明 7
1、介紹
ISO/IEC10646-1[ISO-10646]定義了一種多8比特字節(jié)字符集 , 稱作通用字符集(UCS) ,
它包含了世界上大多數(shù)可書寫的字符系統(tǒng) 。已定義了兩種多8比特字節(jié)編碼 , 對每一個字符
采用四個8比特字節(jié)編碼的稱為UCS-4 , 對每一個字符采用兩個8比特字節(jié)編碼的稱為
UCS-2 。它們僅能夠?qū)CS的前64K字符進(jìn)行編址 , 超出此范圍的其它部分當(dāng)前還沒有分配
編址 。
值得注重的是統(tǒng)一的字符編碼標(biāo)準(zhǔn)[UNICODE]定義了同樣的字符集 , 而且它進(jìn)一步定義
了對實(shí)現(xiàn)器非常重要的額外字符屬性和其他應(yīng)用細(xì)節(jié) , 但是沒有定義UCS-4編碼 。直到現(xiàn)在 ,
Unicode的變化和ISO/IEC10646修正彼此穿插 , 因此他們的字符指令和編碼分配保持同步 。
相關(guān)的標(biāo)準(zhǔn)委員會同意維持這種非常有用的同步 。
然而 , UCS-2和UCS-4編碼很難在許多當(dāng)前的應(yīng)用和協(xié)議中使用 , 這些應(yīng)用和協(xié)議假定
字符為一個8或7比特的字節(jié) 。即使新的可以處理16比特字符的系統(tǒng) , 卻不能處理UCS-4
數(shù)據(jù) 。這種情況導(dǎo)致一種稱為UCS轉(zhuǎn)換格式(UTF)的發(fā)展 , 它每一種有不同的特征 。
UTF-1僅僅是歷史上的重要 , 它已經(jīng)從ISO/IEC1064中刪除 。UCS-7擁有僅采用8比特
字節(jié)就可對全部BMP指令進(jìn)行編碼的性質(zhì) , 它的最高比特位為零(其他7比特位為US-ASCII
值,[US-ASCII]) , 被認(rèn)為是郵件安全的編碼([RFC2152]) 。本備忘錄中的UTF-8對象 , 使用了
8比特字節(jié)的所有位 , 保持全部US-ASCII取值范圍的性質(zhì):US-ASCII字符用一個8比特字
節(jié)編碼 , 采用通常的US-ASCII值 , 因此 , 在此值下的任何一個8比特位字節(jié)僅僅代表一個
US-ASCII字符 , 而不會為其他字符 。
UTF-16計劃用于從保留的范圍中 , 轉(zhuǎn)換UCS-4指令的一個子集為UCS-2值對 。UTF-16
影響UTF-8 , 因為保留范圍的UCS-2值必須當(dāng)作UTF-8變換進(jìn)行非凡處理 。
UTF-8采用變化的8比特字節(jié)數(shù)對UCS-2或UCS-4字符編碼 。8比特字節(jié)數(shù)量 , 以及每
一字節(jié)的值依靠于ISO/IEC10646中對此字符指定的整型值 。這種轉(zhuǎn)換格式有下列特性(所
有的值為16進(jìn)制):
-從00000000到0000007F(US-ASCII指令)字符值對應(yīng)于8比特字節(jié)的00到7F(7
比特US-ASCII值) 。由此的結(jié)論就是普通的ASCII字符串轉(zhuǎn)換后仍然是有效的UTF-8
字符串 。
-US-ASCII值不會出現(xiàn)在其他的UTF-8編碼字符流中 。這提供了與文件系統(tǒng)或其他軟件

推薦閱讀