大戰小說

登陸 註冊
字:
關燈 護眼
大戰小說 > 穿進修仙界我截胡了男主女人 > 第105章 聯絡點

第105章 聯絡點

-

漢字亂碼是一個古老的問題了。自從漢字走進計算機,關於漢字亂碼的問題一天也冇有消失過。有關漢字和

HTML

的問題,將在本文係列的稍後的文章中單獨談到。本文不準備重複

GB_2312-80(國標)、BIG5、GBK、HZ

的最基本的互相轉換的問題,相關的內容可以在本

BBS

Chinese

板詢問。這裡以其他角度做一些補充。

由於編碼位置上的巧合和漢字平均出現概率上的統計,用

GB

環境看

BIG5

編碼的文字,將有漢字顯示成為日語的假名,這個是在

GB

環境下看到

BIG5

漢字的主要特征。上網時間長一些,就會積累一些經驗,使得你能夠一眼區分亂碼的類型。比如下麵的例子就是

BIG5:¨睹絏

bluesea

れ睲地BBSΘ舧

BBSい鑼更臘

璸衡訣

廄稈∕ㄏノ硜ン筁祘い笿龜悔拜肈

セゅ更

れ睲地

BBS

Internet癚階跋

telnet://

WWW砐拜

諷兵ン場骸ì鑼更セゅ

ぃ竒筁

す砛

(1)

鑼更

れ睲地

BBS

獺繷

(2)ぃэ

(3)

鑼更度

BBS

㎝獶壩穨┦借呼翴

腨窽賀Αй膿腨窽獶盢

セゅ┪Ы場ノ

タΑ

セ礛琿琌

ゅ場だ

常見的漢字亂碼還有

HZ

編碼,這是一種遮蔽最高位的漢字表示方法,它是在

GB

BIG5

的基礎上,用

~{

~}

括起漢字編碼的部分。比如:很多海外中文雜誌,如著名的《**》(

)等都仍然采用

HZ

編碼方法。HZ

編碼用額外的控製序列來控製字形的顯示,字母和數字是不被編碼的,它們在

~{

~}

標記對的外麵。這種編碼不符合漢字與文字字元的固定對映規律,處理起來相對麻煩。著名的漢字平台──南極星

(

NJWIN

1.6,

)

HZ

提供了靈活和強大的支援。海峽兩岸的語言經過長期的發展,實際上已經不能形成一一對應的關係,GB

BIG5

的轉換也是如此。因此這種轉換往往具有不可逆性,倒不是說一段文字不能在

GB

BIG5

之間互相轉換,而是說一旦你轉換錯了,資訊就不能複原。比如你拿一段本來的是

GB

的文字當作

BIG5,然後再實施

BIG5

->

GB

的轉換,就會損失資訊,這時逆變換將不能完全得到原來的文字。比如

**TH

WWW

發文時,本是

GB

的,錯選了

BIG5

按鈕就會如此,反之也類似。漢字的另一個問題是所謂的“半個漢字”亂碼,由於很多英文編輯軟件以字元為單位來處理文字,漢字被刪除一半後,剩餘的部分會和相鄰的漢字重新組合,使得文字麵目全非。因此,除了注意在輸入、刪除的時候注意這種問題外,還要注意不要在英文字處理軟件中輕易使用“字元替換”功能,這往往會把一個漢字的後一個字元和相鄰漢字的前一個字元當成一個漢字被替換掉。這種亂碼最後往往令人莫名其妙、找不到原因。

需要說明的是,簡體和繁體這兩個概念和

GB、BIG5

並冇有邏輯上的聯絡,GB

的定義是簡體字,BIG5

采用的是繁體字,但是為了閱讀的方便,在各自的編碼中再做一個內部字形或字體的對映,就形成了所謂

GB

繁體或

BIG5

簡體之類的概念,他們僅僅是一些漢字軟件提供的方便功能,如南極星等。我們常見的

WWW

瀏覽器

Microsoft

Internet

Explorer

4.x

Netscape

Navigator

4.x

都已經內置了比較完善的漢字轉換功能。加裝了語言包的

IE

4.0

還使得我們脫離漢字平台也可以進行中文處理,並且可以處理大字元集

GBK

詳見

Win95_win3.x

討論區中

“讓Pwin95更順手”係列之(11)。

在中文平台上,很多人有不同的見解。本文的主旨與此無關,僅僅是綜合各個方麵的因素,我個人向計算機的初學者建議選擇中文

PWindows

95

OSR2

或更高的版本作為最基本的操作環境。中文之星

(

/

)

四通利方Richwin(

/

)

等由於技術和企業行為的不穩定性,不適合作為具有依附性的中文平台。但是這些軟件中的區域性,如新拚音輸入法、支援剪輯板的碼轉換器等還是具有一定特色的。如果有對這個問題感興趣的討論,請到

Chinese

板搜尋以前的標題繼續討論。

漢字亂碼是一個古老的問題了。自從漢字走進計算機,關於漢字亂碼的問題一天也冇有消失過。有關漢字和

HTML

的問題,將在本文係列的稍後的文章中單獨談到。本文不準備重複

GB_2312-80(國標)、BIG5、GBK、HZ

的最基本的互相轉換的問題,相關的內容可以在本

BBS

Chinese

板詢問。這裡以其他角度做一些補充。

由於編碼位置上的巧合和漢字平均出現概率上的統計,用

GB

環境看

BIG5

編碼的文字,將有漢字顯示成為日語的假名,這個是在

GB

環境下看到

BIG5

漢字的主要特征。上網時間長一些,就會積累一些經驗,使得你能夠一眼區分亂碼的類型。比如下麵的例子就是

BIG5:¨睹絏

bluesea

れ睲地BBSΘ舧

BBSい鑼更臘

璸衡訣

廄稈∕ㄏノ硜ン筁祘い笿龜悔拜肈

セゅ更

れ睲地

BBS

Internet癚階跋

telnet://

WWW砐拜

諷兵ン場骸ì鑼更セゅ

ぃ竒筁

す砛

(1)

鑼更

れ睲地

BBS

獺繷

(2)ぃэ

(3)

鑼更度

BBS

㎝獶壩穨┦借呼翴

腨窽賀Αй膿腨窽獶盢

セゅ┪Ы場ノ

タΑ

セ礛琿琌

ゅ場だ

常見的漢字亂碼還有

HZ

編碼,這是一種遮蔽最高位的漢字表示方法,它是在

GB

BIG5

的基礎上,用

~{

~}

括起漢字編碼的部分。比如:很多海外中文雜誌,如著名的《**》(

)等都仍然采用

HZ

編碼方法。HZ

編碼用額外的控製序列來控製字形的顯示,字母和數字是不被編碼的,它們在

~{

~}

標記對的外麵。這種編碼不符合漢字與文字字元的固定對映規律,處理起來相對麻煩。著名的漢字平台──南極星

(

NJWIN

1.6,

)

HZ

提供了靈活和強大的支援。海峽兩岸的語言經過長期的發展,實際上已經不能形成一一對應的關係,GB

BIG5

的轉換也是如此。因此這種轉換往往具有不可逆性,倒不是說一段文字不能在

GB

BIG5

之間互相轉換,而是說一旦你轉換錯了,資訊就不能複原。比如你拿一段本來的是

GB

的文字當作

BIG5,然後再實施

BIG5

->

GB

的轉換,就會損失資訊,這時逆變換將不能完全得到原來的文字。比如

**TH

WWW

發文時,本是

GB

的,錯選了

BIG5

按鈕就會如此,反之也類似。漢字的另一個問題是所謂的“半個漢字”亂碼,由於很多英文編輯軟件以字元為單位來處理文字,漢字被刪除一半後,剩餘的部分會和相鄰的漢字重新組合,使得文字麵目全非。因此,除了注意在輸入、刪除的時候注意這種問題外,還要注意不要在英文字處理軟件中輕易使用“字元替換”功能,這往往會把一個漢字的後一個字元和相鄰漢字的前一個字元當成一個漢字被替換掉。這種亂碼最後往往令人莫名其妙、找不到原因。

需要說明的是,簡體和繁體這兩個概念和

GB、BIG5

並冇有邏輯上的聯絡,GB

的定義是簡體字,BIG5

采用的是繁體字,但是為了閱讀的方便,在各自的編碼中再做一個內部字形或字體的對映,就形成了所謂

GB

繁體或

BIG5

簡體之類的概念,他們僅僅是一些漢字軟件提供的方便功能,如南極星等。我們常見的

WWW

瀏覽器

Microsoft

Internet

Explorer

4.x

Netscape

Navigator

4.x

都已經內置了比較完善的漢字轉換功能。加裝了語言包的

IE

4.0

還使得我們脫離漢字平台也可以進行中文處理,並且可以處理大字元集

GBK

詳見

Win95_win3.x

討論區中

“讓Pwin95更順手”係列之(11)。

在中文平台上,很多人有不同的見解。本文的主旨與此無關,僅僅是綜合各個方麵的因素,我個人向計算機的初學者建議選擇中文

PWindows

95

OSR2

或更高的版本作為最基本的操作環境。中文之星

(

/

)

四通利方Richwin(

/

)

等由於技術和企業行為的不穩定性,不適合作為具有依附性的中文平台。但是這些軟件中的區域性,如新拚音輸入法、支援剪輯板的碼轉換器等還是具有一定特色的。如果有對這個問題感興趣的討論,請到

Chinese

板搜尋以前的標題繼續討論。

漢字亂碼是一個古老的問題了。自從漢字走進計算機,關於漢字亂碼的問題一天也冇有消失過。有關漢字和

HTML

的問題,將在本文係列的稍後的文章中單獨談到。本文不準備重複

GB_2312-80(國標)、BIG5、GBK、HZ

的最基本的互相轉換的問題,相關的內容可以在本

BBS

Chinese

板詢問。這裡以其他角度做一些補充。

由於編碼位置上的巧合和漢字平均出現概率上的統計,用

GB

環境看

BIG5

編碼的文字,將有漢字顯示成為日語的假名,這個是在

GB

環境下看到

BIG5

漢字的主要特征。上網時間長一些,就會積累一些經驗,使得你能夠一眼區分亂碼的類型。比如下麵的例子就是

BIG5:¨睹絏

bluesea

れ睲地BBSΘ舧

BBSい鑼更臘

璸衡訣

廄稈∕ㄏノ硜ン筁祘い笿龜悔拜肈

セゅ更

れ睲地

BBS

Internet癚階跋

telnet://

WWW砐拜

諷兵ン場骸ì鑼更セゅ

ぃ竒筁

す砛

(1)

鑼更

れ睲地

BBS

獺繷

(2)ぃэ

(3)

鑼更度

BBS

㎝獶壩穨┦借呼翴

腨窽賀Αй膿腨窽獶盢

セゅ┪Ы場ノ

タΑ

セ礛琿琌

ゅ場だ

常見的漢字亂碼還有

HZ

編碼,這是一種遮蔽最高位的漢字表示方法,它是在

GB

BIG5

的基礎上,用

~{

~}

括起漢字編碼的部分。比如:很多海外中文雜誌,如著名的《**》(

)等都仍然采用

HZ

編碼方法。HZ

編碼用額外的控製序列來控製字形的顯示,字母和數字是不被編碼的,它們在

~{

~}

標記對的外麵。這種編碼不符合漢字與文字字元的固定對映規律,處理起來相對麻煩。著名的漢字平台──南極星

(

NJWIN

1.6,

)

HZ

提供了靈活和強大的支援。海峽兩岸的語言經過長期的發展,實際上已經不能形成一一對應的關係,GB

BIG5

的轉換也是如此。因此這種轉換往往具有不可逆性,倒不是說一段文字不能在

GB

BIG5

之間互相轉換,而是說一旦你轉換錯了,資訊就不能複原。比如你拿一段本來的是

GB

的文字當作

BIG5,然後再實施

BIG5

->

GB

的轉換,就會損失資訊,這時逆變換將不能完全得到原來的文字。比如

**TH

WWW

發文時,本是

GB

的,錯選了

BIG5

按鈕就會如此,反之也類似。漢字的另一個問題是所謂的“半個漢字”亂碼,由於很多英文編輯軟件以字元為單位來處理文字,漢字被刪除一半後,剩餘的部分會和相鄰的漢字重新組合,使得文字麵目全非。因此,除了注意在輸入、刪除的時候注意這種問題外,還要注意不要在英文字處理軟件中輕易使用“字元替換”功能,這往往會把一個漢字的後一個字元和相鄰漢字的前一個字元當成一個漢字被替換掉。這種亂碼最後往往令人莫名其妙、找不到原因。

需要說明的是,簡體和繁體這兩個概念和

GB、BIG5

並冇有邏輯上的聯絡,GB

的定義是簡體字,BIG5

采用的是繁體字,但是為了閱讀的方便,在各自的編碼中再做一個內部字形或字體的對映,就形成了所謂

GB

繁體或

BIG5

簡體之類的概念,他們僅僅是一些漢字軟件提供的方便功能,如南極星等。我們常見的

WWW

瀏覽器

Microsoft

Internet

Explorer

4.x

Netscape

Navigator

4.x

都已經內置了比較完善的漢字轉換功能。加裝了語言包的

IE

4.0

還使得我們脫離漢字平台也可以進行中文處理,並且可以處理大字元集

GBK

詳見

Win95_win3.x

討論區中

“讓Pwin95更順手”係列之(11)。

在中文平台上,很多人有不同的見解。本文的主旨與此無關,僅僅是綜合各個方麵的因素,我個人向計算機的初學者建議選擇中文

PWindows

95

OSR2

或更高的版本作為最基本的操作環境。中文之星

(

/

)

四通利方Richwin(

/

)

等由於技術和企業行為的不穩定性,不適合作為具有依附性的中文平台。但是這些軟件中的區域性,如新拚音輸入法、支援剪輯板的碼轉換器等還是具有一定特色的。如果有對這個問題感興趣的討論,請到

Chinese

板搜尋以前的標題繼續討論。

漢字亂碼是一個古老的問題了。自從漢字走進計算機,關於漢字亂碼的問題一天也冇有消失過。有關漢字和

HTML

的問題,將在本文係列的稍後的文章中單獨談到。本文不準備重複

GB_2312-80(國標)、BIG5、GBK、HZ

的最基本的互相轉換的問題,相關的內容可以在本

BBS

Chinese

板詢問。這裡以其他角度做一些補充。

由於編碼位置上的巧合和漢字平均出現概率上的統計,用

GB

環境看

BIG5

編碼的文字,將有漢字顯示成為日語的假名,這個是在

GB

環境下看到

BIG5

漢字的主要特征。上網時間長一些,就會積累一些經驗,使得你能夠一眼區分亂碼的類型。比如下麵的例子就是

BIG5:¨睹絏

bluesea

れ睲地BBSΘ舧

BBSい鑼更臘

璸衡訣

廄稈∕ㄏノ硜ン筁祘い笿龜悔拜肈

セゅ更

れ睲地

BBS

Internet癚階跋

telnet://

WWW砐拜

諷兵ン場骸ì鑼更セゅ

ぃ竒筁

す砛

(1)

鑼更

れ睲地

BBS

獺繷

(2)ぃэ

(3)

鑼更度

BBS

㎝獶壩穨┦借呼翴

腨窽賀Αй膿腨窽獶盢

セゅ┪Ы場ノ

タΑ

セ礛琿琌

ゅ場だ

常見的漢字亂碼還有

HZ

編碼,這是一種遮蔽最高位的漢字表示方法,它是在

GB

BIG5

的基礎上,用

~{

~}

括起漢字編碼的部分。比如:很多海外中文雜誌,如著名的《**》(

)等都仍然采用

HZ

編碼方法。HZ

編碼用額外的控製序列來控製字形的顯示,字母和數字是不被編碼的,它們在

~{

~}

標記對的外麵。這種編碼不符合漢字與文字字元的固定對映規律,處理起來相對麻煩。著名的漢字平台──南極星

(

NJWIN

1.6,

)

HZ

提供了靈活和強大的支援。海峽兩岸的語言經過長期的發展,實際上已經不能形成一一對應的關係,GB

BIG5

的轉換也是如此。因此這種轉換往往具有不可逆性,倒不是說一段文字不能在

GB

BIG5

之間互相轉換,而是說一旦你轉換錯了,資訊就不能複原。比如你拿一段本來的是

GB

的文字當作

BIG5,然後再實施

BIG5

->

GB

的轉換,就會損失資訊,這時逆變換將不能完全得到原來的文字。比如

**TH

WWW

發文時,本是

GB

的,錯選了

BIG5

按鈕就會如此,反之也類似。漢字的另一個問題是所謂的“半個漢字”亂碼,由於很多英文編輯軟件以字元為單位來處理文字,漢字被刪除一半後,剩餘的部分會和相鄰的漢字重新組合,使得文字麵目全非。因此,除了注意在輸入、刪除的時候注意這種問題外,還要注意不要在英文字處理軟件中輕易使用“字元替換”功能,這往往會把一個漢字的後一個字元和相鄰漢字的前一個字元當成一個漢字被替換掉。這種亂碼最後往往令人莫名其妙、找不到原因。

需要說明的是,簡體和繁體這兩個概念和

GB、BIG5

並冇有邏輯上的聯絡,GB

的定義是簡體字,BIG5

采用的是繁體字,但是為了閱讀的方便,在各自的編碼中再做一個內部字形或字體的對映,就形成了所謂

GB

繁體或

BIG5

簡體之類的概念,他們僅僅是一些漢字軟件提供的方便功能,如南極星等。我們常見的

WWW

瀏覽器

Microsoft

Internet

Explorer

4.x

Netscape

Navigator

4.x

都已經內置了比較完善的漢字轉換功能。加裝了語言包的

IE

4.0

還使得我們脫離漢字平台也可以進行中文處理,並且可以處理大字元集

GBK

詳見

Win95_win3.x

討論區中

“讓Pwin95更順手”係列之(11)。

在中文平台上,很多人有不同的見解。本文的主旨與此無關,僅僅是綜合各個方麵的因素,我個人向計算機的初學者建議選擇中文

PWindows

95

OSR2

或更高的版本作為最基本的操作環境。中文之星

(

/

)

四通利方Richwin(

/

)

等由於技術和企業行為的不穩定性,不適合作為具有依附性的中文平台。但是這些軟件中的區域性,如新拚音輸入法、支援剪輯板的碼轉換器等還是具有一定特色的。如果有對這個問題感興趣的討論,請到

Chinese

板搜尋以前的標題繼續討論。

漢字亂碼是一個古老的問題了。自從漢字走進計算機,關於漢字亂碼的問題一天也冇有消失過。有關漢字和

HTML

的問題,將在本文係列的稍後的文章中單獨談到。本文不準備重複

GB_2312-80(國標)、BIG5、GBK、HZ

的最基本的互相轉換的問題,相關的內容可以在本

BBS

Chinese

板詢問。這裡以其他角度做一些補充。

由於編碼位置上的巧合和漢字平均出現概率上的統計,用

GB

環境看

BIG5

編碼的文字,將有漢字顯示成為日語的假名,這個是在

GB

環境下看到

BIG5

漢字的主要特征。上網時間長一些,就會積累一些經驗,使得你能夠一眼區分亂碼的類型。比如下麵的例子就是

BIG5:¨睹絏

bluesea

れ睲地BBSΘ舧

BBSい鑼更臘

璸衡訣

廄稈∕ㄏノ硜ン筁祘い笿龜悔拜肈

セゅ更

れ睲地

BBS

Internet癚階跋

telnet://

WWW砐拜

諷兵ン場骸ì鑼更セゅ

ぃ竒筁

す砛

(1)

鑼更

れ睲地

BBS

獺繷

(2)ぃэ

(3)

鑼更度

BBS

㎝獶壩穨┦借呼翴

腨窽賀Αй膿腨窽獶盢

セゅ┪Ы場ノ

タΑ

セ礛琿琌

ゅ場だ

常見的漢字亂碼還有

HZ

編碼,這是一種遮蔽最高位的漢字表示方法,它是在

GB

BIG5

的基礎上,用

~{

~}

括起漢字編碼的部分。比如:很多海外中文雜誌,如著名的《**》(

)等都仍然采用

HZ

編碼方法。HZ

編碼用額外的控製序列來控製字形的顯示,字母和數字是不被編碼的,它們在

~{

~}

標記對的外麵。這種編碼不符合漢字與文字字元的固定對映規律,處理起來相對麻煩。著名的漢字平台──南極星

(

NJWIN

1.6,

)

HZ

提供了靈活和強大的支援。海峽兩岸的語言經過長期的發展,實際上已經不能形成一一對應的關係,GB

BIG5

的轉換也是如此。因此這種轉換往往具有不可逆性,倒不是說一段文字不能在

GB

BIG5

之間互相轉換,而是說一旦你轉換錯了,資訊就不能複原。比如你拿一段本來的是

GB

的文字當作

BIG5,然後再實施

BIG5

->

GB

的轉換,就會損失資訊,這時逆變換將不能完全得到原來的文字。比如

**TH

WWW

發文時,本是

GB

的,錯選了

BIG5

按鈕就會如此,反之也類似。漢字的另一個問題是所謂的“半個漢字”亂碼,由於很多英文編輯軟件以字元為單位來處理文字,漢字被刪除一半後,剩餘的部分會和相鄰的漢字重新組合,使得文字麵目全非。因此,除了注意在輸入、刪除的時候注意這種問題外,還要注意不要在英文字處理軟件中輕易使用“字元替換”功能,這往往會把一個漢字的後一個字元和相鄰漢字的前一個字元當成一個漢字被替換掉。這種亂碼最後往往令人莫名其妙、找不到原因。

需要說明的是,簡體和繁體這兩個概念和

GB、BIG5

並冇有邏輯上的聯絡,GB

的定義是簡體字,BIG5

采用的是繁體字,但是為了閱讀的方便,在各自的編碼中再做一個內部字形或字體的對映,就形成了所謂

GB

繁體或

BIG5

簡體之類的概念,他們僅僅是一些漢字軟件提供的方便功能,如南極星等。我們常見的

WWW

瀏覽器

Microsoft

Internet

Explorer

4.x

Netscape

Navigator

4.x

都已經內置了比較完善的漢字轉換功能。加裝了語言包的

IE

4.0

還使得我們脫離漢字平台也可以進行中文處理,並且可以處理大字元集

GBK

詳見

Win95_win3.x

討論區中

“讓Pwin95更順手”係列之(11)。

在中文平台上,很多人有不同的見解。本文的主旨與此無關,僅僅是綜合各個方麵的因素,我個人向計算機的初學者建議選擇中文

PWindows

95

OSR2

或更高的版本作為最基本的操作環境。中文之星

(

/

)

四通利方Richwin(

/

)

等由於技術和企業行為的不穩定性,不適合作為具有依附性的中文平台。但是這些軟件中的區域性,如新拚音輸入法、支援剪輯板的碼轉換器等還是具有一定特色的。如果有對這個問題感興趣的討論,請到

Chinese

板搜尋以前的標題繼續討論。

漢字亂碼是一個古老的問題了。自從漢字走進計算機,關於漢字亂碼的問題一天也冇有消失過。有關漢字和

HTML

的問題,將在本文係列的稍後的文章中單獨談到。本文不準備重複

GB_2312-80(國標)、BIG5、GBK、HZ

的最基本的互相轉換的問題,相關的內容可以在本

BBS

Chinese

板詢問。這裡以其他角度做一些補充。

由於編碼位置上的巧合和漢字平均出現概率上的統計,用

GB

環境看

BIG5

編碼的文字,將有漢字顯示成為日語的假名,這個是在

GB

環境下看到

BIG5

漢字的主要特征。上網時間長一些,就會積累一些經驗,使得你能夠一眼區分亂碼的類型。比如下麵的例子就是

BIG5:¨睹絏

bluesea

れ睲地BBSΘ舧

BBSい鑼更臘

璸衡訣

廄稈∕ㄏノ硜ン筁祘い笿龜悔拜肈

セゅ更

れ睲地

BBS

Internet癚階跋

telnet://

WWW砐拜

諷兵ン場骸ì鑼更セゅ

ぃ竒筁

す砛

(1)

鑼更

れ睲地

BBS

獺繷

(2)ぃэ

(3)

鑼更度

BBS

㎝獶壩穨┦借呼翴

腨窽賀Αй膿腨窽獶盢

セゅ┪Ы場ノ

タΑ

セ礛琿琌

ゅ場だ

常見的漢字亂碼還有

HZ

編碼,這是一種遮蔽最高位的漢字表示方法,它是在

GB

BIG5

的基礎上,用

~{

~}

括起漢字編碼的部分。比如:很多海外中文雜誌,如著名的《**》(

)等都仍然采用

HZ

編碼方法。HZ

編碼用額外的控製序列來控製字形的顯示,字母和數字是不被編碼的,它們在

~{

~}

標記對的外麵。這種編碼不符合漢字與文字字元的固定對映規律,處理起來相對麻煩。著名的漢字平台──南極星

(

NJWIN

1.6,

)

HZ

提供了靈活和強大的支援。海峽兩岸的語言經過長期的發展,實際上已經不能形成一一對應的關係,GB

BIG5

的轉換也是如此。因此這種轉換往往具有不可逆性,倒不是說一段文字不能在

GB

BIG5

之間互相轉換,而是說一旦你轉換錯了,資訊就不能複原。比如你拿一段本來的是

GB

的文字當作

BIG5,然後再實施

BIG5

->

GB

的轉換,就會損失資訊,這時逆變換將不能完全得到原來的文字。比如

**TH

WWW

發文時,本是

GB

的,錯選了

BIG5

按鈕就會如此,反之也類似。漢字的另一個問題是所謂的“半個漢字”亂碼,由於很多英文編輯軟件以字元為單位來處理文字,漢字被刪除一半後,剩餘的部分會和相鄰的漢字重新組合,使得文字麵目全非。因此,除了注意在輸入、刪除的時候注意這種問題外,還要注意不要在英文字處理軟件中輕易使用“字元替換”功能,這往往會把一個漢字的後一個字元和相鄰漢字的前一個字元當成一個漢字被替換掉。這種亂碼最後往往令人莫名其妙、找不到原因。

需要說明的是,簡體和繁體這兩個概念和

GB、BIG5

並冇有邏輯上的聯絡,GB

的定義是簡體字,BIG5

采用的是繁體字,但是為了閱讀的方便,在各自的編碼中再做一個內部字形或字體的對映,就形成了所謂

GB

繁體或

BIG5

簡體之類的概念,他們僅僅是一些漢字軟件提供的方便功能,如南極星等。我們常見的

WWW

瀏覽器

Microsoft

Internet

Explorer

4.x

Netscape

Navigator

4.x

都已經內置了比較完善的漢字轉換功能。加裝了語言包的

IE

4.0

還使得我們脫離漢字平台也可以進行中文處理,並且可以處理大字元集

GBK

詳見

Win95_win3.x

討論區中

“讓Pwin95更順手”係列之(11)。

在中文平台上,很多人有不同的見解。本文的主旨與此無關,僅僅是綜合各個方麵的因素,我個人向計算機的初學者建議選擇中文

PWindows

95

OSR2

或更高的版本作為最基本的操作環境。中文之星

(

/

)

四通利方Richwin(

/

)

等由於技術和企業行為的不穩定性,不適合作為具有依附性的中文平台。但是這些軟件中的區域性,如新拚音輸入法、支援剪輯板的碼轉換器等還是具有一定特色的。如果有對這個問題感興趣的討論,請到

Chinese

板搜尋以前的標題繼續討論。

漢字亂碼是一個古老的問題了。自從漢字走進計算機,關於漢字亂碼的問題一天也冇有消失過。有關漢字和

HTML

的問題,將在本文係列的稍後的文章中單獨談到。本文不準備重複

GB_2312-80(國標)、BIG5、GBK、HZ

的最基本的互相轉換的問題,相關的內容可以在本

BBS

Chinese

板詢問。這裡以其他角度做一些補充。

由於編碼位置上的巧合和漢字平均出現概率上的統計,用

GB

環境看

BIG5

編碼的文字,將有漢字顯示成為日語的假名,這個是在

GB

環境下看到

BIG5

漢字的主要特征。上網時間長一些,就會積累一些經驗,使得你能夠一眼區分亂碼的類型。比如下麵的例子就是

BIG5:¨睹絏

bluesea

れ睲地BBSΘ舧

BBSい鑼更臘

璸衡訣

廄稈∕ㄏノ硜ン筁祘い笿龜悔拜肈

セゅ更

れ睲地

BBS

Internet癚階跋

telnet://

WWW砐拜

諷兵ン場骸ì鑼更セゅ

ぃ竒筁

す砛

(1)

鑼更

れ睲地

BBS

獺繷

(2)ぃэ

(3)

鑼更度

BBS

㎝獶壩穨┦借呼翴

腨窽賀Αй膿腨窽獶盢

セゅ┪Ы場ノ

タΑ

セ礛琿琌

ゅ場だ

常見的漢字亂碼還有

HZ

編碼,這是一種遮蔽最高位的漢字表示方法,它是在

GB

BIG5

的基礎上,用

~{

~}

括起漢字編碼的部分。比如:很多海外中文雜誌,如著名的《**》(

)等都仍然采用

HZ

編碼方法。HZ

編碼用額外的控製序列來控製字形的顯示,字母和數字是不被編碼的,它們在

~{

~}

標記對的外麵。這種編碼不符合漢字與文字字元的固定對映規律,處理起來相對麻煩。著名的漢字平台──南極星

(

NJWIN

1.6,

)

HZ

提供了靈活和強大的支援。海峽兩岸的語言經過長期的發展,實際上已經不能形成一一對應的關係,GB

BIG5

的轉換也是如此。因此這種轉換往往具有不可逆性,倒不是說一段文字不能在

GB

BIG5

之間互相轉換,而是說一旦你轉換錯了,資訊就不能複原。比如你拿一段本來的是

GB

的文字當作

BIG5,然後再實施

BIG5

->

GB

的轉換,就會損失資訊,這時逆變換將不能完全得到原來的文字。比如

**TH

WWW

發文時,本是

GB

的,錯選了

BIG5

按鈕就會如此,反之也類似。漢字的另一個問題是所謂的“半個漢字”亂碼,由於很多英文編輯軟件以字元為單位來處理文字,漢字被刪除一半後,剩餘的部分會和相鄰的漢字重新組合,使得文字麵目全非。因此,除了注意在輸入、刪除的時候注意這種問題外,還要注意不要在英文字處理軟件中輕易使用“字元替換”功能,這往往會把一個漢字的後一個字元和相鄰漢字的前一個字元當成一個漢字被替換掉。這種亂碼最後往往令人莫名其妙、找不到原因。

需要說明的是,簡體和繁體這兩個概念和

GB、BIG5

並冇有邏輯上的聯絡,GB

的定義是簡體字,BIG5

采用的是繁體字,但是為了閱讀的方便,在各自的編碼中再做一個內部字形或字體的對映,就形成了所謂

GB

繁體或

BIG5

簡體之類的概念,他們僅僅是一些漢字軟件提供的方便功能,如南極星等。我們常見的

WWW

瀏覽器

Microsoft

Internet

Explorer

4.x

Netscape

Navigator

4.x

都已經內置了比較完善的漢字轉換功能。加裝了語言包的

IE

4.0

還使得我們脫離漢字平台也可以進行中文處理,並且可以處理大字元集

GBK

詳見

Win95_win3.x

討論區中

“讓Pwin95更順手”係列之(11)。

在中文平台上,很多人有不同的見解。本文的主旨與此無關,僅僅是綜合各個方麵的因素,我個人向計算機的初學者建議選擇中文

PWindows

95

OSR2

或更高的版本作為最基本的操作環境。中文之星

(

/

)

四通利方Richwin(

/

)

等由於技術和企業行為的不穩定性,不適合作為具有依附性的中文平台。但是這些軟件中的區域性,如新拚音輸入法、支援剪輯板的碼轉換器等還是具有一定特色的。如果有對這個問題感興趣的討論,請到

Chinese

板搜尋以前的標題繼續討論。

-

『加入書籤,方便閱讀』

熱門推薦