HTML ʹ Óà µÄ ÎÄ µµ ×Ö ·û ¼¯ ÊÇ ¸ù ¾Ý [ISO10646] µÄ ÊÀ ½ç ×Ö ·û ¼¯ (Universal Character Set, UCS) . Õâ ¸ö ×Ö ·û ¼¯ Öð ×Ö µÈ ͬ ÓÚ Unicode 2.0 ([UNICODE]). Á½ ¸ö ±ê ×¼ ¶¼ ʱ ³£ ¸ü РР×Ö ·û ²¢ ÇÒ ¸Ä ½ø ·½ °¸ ¶¼ ½« ÔÚ Web ½Ú µã ´è ÉÌ.
¾Í µ± Ç° µÄ ˵ Ã÷ Êé ¶ø ÑÔ, ²Î ¿¼ ×Ö ·û ¼¯ Ϊ ISO/IEC-10646 »ò Unicode Òâ ζ ×Å ÊÇ Í¬ Ò» ÖÖ ×Ö ·û ¼¯. ÎÞ ÂÛ Èç ºÎ, µ± Ç° µÄ ÎÄ ±¾ ²Î ¿¼ Unicode µÄ Ãè Êö ÎÄ ±¾ µÄ ÔË Ëã ·¨ Ôò.
Ò» Ö ÐÔ µÄ HTML Óà »§ ´ú Àí Æ÷ ¿É ÄÜ Ê¹ Óà ÈÎ ºÎ µÄ ×Ö ·û ½â Âë ·½ ʽ (character encoding) ½Ó ÊÜ »ò ·¢ ËÍ Ò» ¸ö ÎÄ ±¾, »ò Õß ÔÚ ÄÚ ²¿ Ãè Êö Ò» ¸ö ÎÄ ±¾. Ò» ¸ö ½â Âë ·½ ·¨ ˵ Ã÷ ÁË Ò» Щ ÎÄ ±¾ ×Ö ·û ¼¯ µÄ ×Ó ¼¯. Èç ISO-8859-1 (³£ ¹æ µÄ "Latin-1" ×Ö ·û ¼¯ ²Î ¿¼ ²¢ ×÷ Ϊ Î÷ ·½ ºÍ Å· ÖÞ Óï ϵ µÄ ½â Âë) ½â Âë ·½ ʽ, ISO-8859-5 (Ìá ¹© ˹ À ·ò Óï ϵ) ½â Âë ·½ ʽ, SHIFT_JIS (ÈÕ ÎÄ ½â Âë) ½â Âë ·½ ʽ ºÍ euc-jp (Áí Ò» ÖÖ ÈÕ Óï ½â Âë) ½â Âë ·½ ʽ ±£ ´æ ÁË ¸÷ ×Ô µÄ ×Ö ·û ¼¯.
Òò ´Ë, ×Ö ·û ½â Âë ÔÊ Ðí ×÷ Õß ÔÚ ·½ ±ã µÄ ºÏ ÊÊ µÄ ÎÄ µµ ×Ö ·û ×Ó ¼¯ Ï ¹¤ ×÷. ×÷ Õß ÎÞ Ðè Öª µÀ ÈÎ ºÎ µÄ Ï ²ã µÄ ÎÄ µµ ½â Âë ¹¤ ×÷ ÒÔ ¼° ¹¤ ¾ß ÊÇ Ôõ Ñù ʹ Óà ½â Âë µÄ --- ÔÚ UTF-8 Ï ±à ¼ ÈÕ Óï ±à ¼ Õß ¾Í Ïó ÔÚ JIS »ò SHIFT_JIS Ï ±à ¼ ÈÕ Óï Ò» Ñù ÈÝ Ò×.
×Ö ·û ½â Âë Ò² Òâ ζ ×Å ×÷ Õß ÎÞ Ðè ½ø Èë Ò» ¸ö ÌØ ¶¨ ×Ö ·û ¼¯ µÄ Ò³ Ãæ À´ Êä Èë ÎÄ ±¾. Èç ¹û Ðè Òª ×÷ Õß ×Ô ÐÐ ¶Ô ´ó ÐÍ ×Ö ·û ¼¯ ½â Âë ÊÇ Ê¹ ÈË Ñá ·³ ºÍ ÀË ·Ñ µÄ (¼´ ʹ Èç UTF-8 °ü À¨ ÁË Ëù ÓÐ µÄ Unicode ).
Ϊ ÁË ÔÊ Ðí Õâ ¸ö ±ã Àû, Ò» Ö ÐÔ µÄ Óà »§ ´ú Àí ±Ø Ðë Õý È· µØ ¶Ô Ó¦ ÓÚ [UNICODE] µÄ Ëù ÓÐ ×Ö ·û µÄ ²¢ ÇÒ Ê¶ ±ð (¾Í Ïó Ä¿ Ç° ×ö µ½ µÄ Ò» Ñù) ÈÎ ºÎ ½â Âë ·½ ʽ ("charsets"). Ò» ¸ö ½¨ Òé µÄ ¶Ô ´ó Á¿ µÄ ½Å ±¾ ºÍ Óï ÑÔ ¶ø ÑÔ µÄ ×Ö ·û ½â Âë ·½ ʽ ½« ÔÚ ·Ö ÁÐ µÄ ÎÄ µµ ÖÐ ÁРʾ.
Ò» ¸ö Óà »§ ´ú Àí Æ÷ ÊÇ Èç ºÎ Öª µÀ ij ¸ö ¸ø ¶¨ ÎÄ ±¾ ¸Ã Ôõ Ñù ½â Âë µÄ?
ÔÚ Ðí ¶à Çé ¿ö ÏÂ, Ò» ¸ö Web ·þ Îñ Æ÷ ÔÚ Web ÉÏ ·¢ ËÍ Ò» ·Ý HTML ÎÄ µµ, Ëü ³¢ ÊÔ Ö¸ ³ö ÎÄ µµ µÄ ½â Âë ·½ ʽ (ͨ ¹ý ¸÷ ÖÖ ¼¼ Êõ, Èç ÔÚ ÎÄ ¼þ ·¢ ËÍ ×î Æð ÏÈ µÄ ¼¸ ¸ö ×Ö ½Ú ʱ, ¶Ô ±È Êý ¾Ý ¿â ÖÐ ÒÑ Öª ÎÄ ¼þ ºÍ ½â Âë ·½ ʽ, µÈ µÈ). ·þ Îñ Æ÷ ͨ ¹ý HTTP µÄ "Content-Type" ×Ö ¶Î ²Î Êý Ïò Óà »§ ´ú Àí Æ÷ ´« ËÍ ÎÄ µµ ºÍ ×Ö ·û ½â Âë ·½ ʽ µÄ Ãû ³Æ. Àý Èç, Ï Ãæ µÄ HTTP Í· Éù Ã÷ ÁË ×Ö ·û ½â Âë ·½ ʽ Ϊ "euc-jp".
Content-Type: text/html; charset=euc-jpÔÚ "charset" ²Î Êý ÖÐ µÄ Öµ ±Ø Ðë ÊÇ ÔÚ [RFC2045] ÖÐ ¶¨ Òå µÄ "charset" µÄ Ãû ³Æ.
²» ÐÒ µÄ ÊÇ, ²¢ ·Ç Ëù ÓÐ µÄ ·þ Îñ Æ÷ ·¢ ËÍ ¹Ø ÓÚ ×Ö ·û ½â Âë µÄ ÐŠϢ (Éõ ÖÁ µ± ×Ö ·û ½â Âë ·½ ʽ ²» ÊÇ ¹ã ·º ÔË Óà µÄ ISO-8859-1 ½â Âë ·½ ʽ). HTML Òò ´Ë ÔÊ Ðí ×÷ Õß Ê¹ Óà һ ÖÖ ÔÚ ÎÄ µµ Í· ʹ Óà META Ôª ËØ À´ Çå Îú µØ ¸æ Ëß Óà »§ ´ú Àí Æ÷ ÔË Óà ºÎ ÖÖ ½â Âë ·½ ʽ µÄ ; ¾¶. Àý Èç, Ϊ ÁË Ê¹ ¶¨ µ± Ç° ÎÄ µµ ʹ Óà "euc-jp" ½â Âë ·½ ʽ, ¿É ÒÔ °ü º¬ Ï Ãæ µÄ META Éù Ã÷:
<META http-equiv="Content-Type" Content="text/html; charset=euc-jp">´Ë ½á ¹¹ ÓÐ ¸ö Òª ×¢ Òâ µÄ ÏÞ ÖÆ: Ò» ¸ö Óà »§ ´ú Àí Æ÷ ÎÞ ·¨ ¶Ô δ Öª ¸ñ ʽ µÄ ÎÄ µµ ×Ö ·û ¼¯ ͨ ¹ý ½â Òë META Ôª ËØ À´ ÅÐ ¶Ï ×Ö ·û ½â Âë ·½ ʽ. META Éù Ã÷ ±Ø Ðë µ± ½â Âë ·½ ʽ ÔÚ ÅÐ ¶Ï META ʱ ×Ô Éí ¿É ÒÔ ±» µ± ×÷ ASCII ×Ö ·û ±ê ×¼ ±» ʶ ±ð ʱ ²Å ÄÜ Ê¹ ÓÃ. ÔÚ Õâ Щ Çé ¿ö ÏÂ, Ò» Ö ÐÔ Óà »§ ´ú Àí Æ÷ ±Ø Ðë Õý È· µØ ½â Òë META Ôª ËØ.
¸Å À¨ À´ ˵, Ò» Ö ÐÔ Óà »§ ´ú Àí Æ÷ ±Ø Ðë ÔÚ ÅÐ ¶Ï Ò» ¸ö ÎÄ ±¾ µÄ ½â Âë ·½ ʽ ʱ ×¢ Òâ µ½ Ï Ãæ µÄ Êô ÐÔ (´Ó ÉÏ ÖÁ ÏÂ):
¶Ô ÓÚ Ä³ Щ Ö¸ ¶¨ µÄ ÔË ÓÃ, Èç ¹û ÓÐ ±Ø Òª Ö¸ ¶¨ ³¬ Ô½ ×¢ Òâ: Á÷ ÐÐ µÄ web ·þ Îñ Æ÷ ÄÜ ¹» Éè Öà ¹Ø ÓÚ ÎÄ
µµ ʹ Óà ºÎ ÖÖ ½â Âë ·½ ʽ µÄ ЊϢ. Webmasters Ó¦ µ± ʹ Óà Õâ Щ Áé ÇÉ
ÐÔ µ« Ó¦ µ± »¨ ·Ñ ÐÄ ·Ñ À´ ÊÊ µ± µÄ Åä Öà ·þ Îñ Æ÷.
Õâ Àï ÊÇ Ò» Щ Àý ³Ì:
×Ö·ûÌõÄ¿
Äã µÄ Ó² ¼þ ºÍ Èí ¼þ Éè Öà ¿É ÄÜ ²» ÔÊ Ðí Äã ͨ ¹ý ¼ò µ¥ µÄ Êä Èë Éè »ú
ÖÆ À´ Ö¸ ¶¨ Ëù ÓÐ µÄ Unicode ×Ö ·û, Ëù ÒÔ SGML Ö¸ ¶¨ ÁË ×Ö ·û - ¶À Á¢ (encoding-independent)
½á ¹¹ À´ Ö¸ ¶¨ ÎÄ µµ ×Ö ·û ¼¯ ÖÐ µÄ ÈÎ ºÎ ×Ö ·û.
Êý ×Ö ×Ö ·û ²Î ÕÕ Ö¸ ¶¨ ÁË Unicode µÄ Õû Êý ²Î ¿¼. Ò» ¸ö ʹ Óà Óï ·¨ ·û
ºÅ &#D µÄ Êý ×Ö ×Ö ·û ²Î ÕÕ; Ïà µ± ÓÚ Unicode 10 ½ø ÖÆ ×Ö ·û Êý D.
Ò» ¸ö ʹ Óà Óï ·¨ ·û ºÅ &#xH µÄ Êý ×Ö ×Ö ·û ²Î ÕÕ ; Ïà µ± ÓÚ Unicode
µÄ 16 ½ø ÖÆ ×Ö ·û H. 16 ½ø ÖÆ ±í ʾ ·¨ ÊÇ Ò» ÖÖ Ð µÄ SGML Ð ¶¨ ²¢ ÇÒ
ÊÇ ×Ö ·û ±ê ×¼ ʹ Óà 16 ½ø ÖÆ ºó µÄ Ò» ¸ö ÏÔ Öø ʹ ÓÃ.
ÓÐ ËÄ ÖÖ Ãü Ãû ×Ö ·û Ìõ Ä¿ Òò Ϊ ¾ ³£ ±» Óà À´ "±Ü Ãâ" ÌØ Êâ ×Ö ·û ¶ø Öµ µÃ Ìá ¼°: µ± ÎÄ ×Ö ×÷ Ϊ Ôª ËØ ÄÚ ÈÝ ³ö ÏÖ Ê±, Äã Ó¦ µ± Óà ±Ü Ãâ ʹ Óà < ¶ø Óà < À´ ±Ü Ãâ ¿É ÄÜ Óë ±ê ×¢ Æð ʼ ·û Ö® ¼ä µÄ ³å Í». ¶ø & ·û ºÅ Ó¦ ±Ü Ãâ Ϊ & À´ ±Ü Ãâ Óë ×Ö ·û Ìõ Ä¿ ²Î ÕÕ Æð ʼ ·û µÄ ³å Í».
Äã Ó¦ µ± ÔÚ cdata Êô ÐÔ ÔÊ Ðí µÄ Ìõ Ä¿ ²Î ÕÕ Öµ ÖÐ ±Ü Ãâ &. Áí Íâ, Äã Ò² Ó¦ µ± Óà > À´ ´ú Ìæ > ºÅ, Òò ´Ë ¿É ±Ü Ãâ ÀÏ Ê½ µÄ Óà »§ ´ú Àí Æ÷ ´í µ± ºó Ãæ µÄ Óï ¾ä Õâ ¸ö ×Ö ·û ×÷ Ϊ Òý Óà ֵ ʱ ´í Îó µØ ƾ ¸Ð ¾õ ÈÏ Îª Õâ ÊÇ Ò» ¸ö ±ê ×¢ ½á Êø ·û.
Óë Æä µ£ ÐÄ Òý ºÅ µÄ ʹ Óà ·¨ Ôò, ²» Èç °Ñ ÈÎ ºÎ µÄ ʵ Àý " Óà " ´ú Ìæ À´ µÃ ÈÝ Ò×; ²¢ ÇÒ ÈÎ ºÎ Õæ Õý Òý Óà ²Î Êý Öµ µÄ ³¡ ºÏ ʹ Óà ". Ðí ¶à ÈË ÃÇ ·¢ ÏÖ ÔÚ Ôª ËØ ÄÚ ÈÝ ºÍ Êô ÐÔ Öµ ÖÐ ¾ ³£ ±Ü Ãâ 4 ¸ö ×Ö ·û Òª À´ µÃ ¼ò µ¥.
ÒÑ Ãü Ãû ×Ö ·û Ìõ Ä¿ µÄ Ãû ³Æ ÊÇ ´ó С д ÓÐ ¹Ø µÄ. Òò ´Ë Å (´ó д A ¼Ó »·) ²» ͬ ÓÚ å (С д a ¼Ó »·) Ö¸ ʾ µÄ ×Ö ·û..