WikiDer > Кодировка JIS

JIS encoding

В вычислениях Кодировка JIS относится к нескольким Японские промышленные стандарты за кодирование то японский язык.[1] Строго говоря, этот термин означает либо:

  • Набор стандартных кодированных наборов символов для японского языка, а именно:
    • JIS X 0201, японская версия ISO 646 (ASCII), содержащий базовые 7-битные символы ASCII (с некоторыми изменениями) и 64 символа катаканы половинной ширины.
    • JIS X 0208, самый распространенный кандзи набор символов, содержащий 6879 символов, включая 6355 иероглифов и 524 других символа (одна плоскость 94 на 94)
    • JIS X 0212, дополнение к JIS X 0208, которое добавляет 5801 кандзи, всего 12156 кандзи (вторая плоскость 94 на 94)
    • JIS X 0213, который расширяет JIS X 0208 (две плоскости)
  • JIS X 0202 (также известный как ISO-2022-JP), набор механизмов кодирования для отправки символьных данных JIS по средам передачи, которые поддерживают только 7-битные данные.

На практике «кодировка JIS» обычно относится к символьным данным JIS X 0208, закодированным с помощью JIS X 0202. Например, IANA использует JIS_Encoding этикетка для ссылки на JIS X 0202, а ISO-2022-JP ярлык для обозначения его профиля, определенного RFC 1468.[2]

Другие механизмы кодирования для символов JIS включают Shift JIS кодирование и EUC-JP. Shift JIS добавляет кандзи, хирагану во всю ширину и катакану во всю ширину из JIS X 0208 в JIS X 0201 с обратной совместимостью.[3] Shift JIS - это, пожалуй, наиболее широко используемая кодировка в Японии, поскольку совместимость с однобайтовым набором символов JIS X 0201 позволила производителям электронного оборудования (например, производителям кассовых аппаратов) предлагать модернизацию более старого более дешевого оборудования, которое не было способен отображать иероглифы на новом оборудовании с сохранением совместимости набора символов.

EUC-JP используется на UNIX системы, в которых кодировки JIS несовместимы с POSIX стандарты.

Более свежая альтернатива кодированным символам JIS - Unicode (UCS закодированные символы), особенно в UTF-8 механизм кодирования.

Сравнение кодировок

В следующей таблице сравниваются функции трех основных схем кодирования для JIS X 0208.

КодированиеАльтернативное имя7-битный?[а]ISO 2022?Без гражданства?[b]Принимает ASCII?0x00–7F всегда ASCII?Надмножество 8-битного JIS X 0201?Поддерживает JIS X 0212?Самостоятельная синхронизация?
ISO-2022-JP"JIS"(JIS X 0202)дадаНет[c]даПоследовательности не могут быть ASCII[c]Нет (кодировка возможна)[d]Возможный[e]Нет
Shift_JIS"СДЖИС"НетНетдаПочти[f]Изолированные байты могут быть не в формате ASCII[грамм]даНетНет
EUC-JP"UJIS" (Unixized JIS)Нетда[час]да[час]да[я]Всегда ASCIIНет (закодировано)[j]Имеется в наличии[k]Нет
Unicode форматы для сравнения[l]
UTF-8 НетНетдададаНет (закодировано)Имеется в наличиида
UTF-16 НетНетдаНетНетНет (закодировано)Имеется в наличииТолько более 16-битных слов.
ГБ 18030 НетНет[м]дадаИзолированные байты могут быть не в формате ASCIIНет (закодировано)Имеется в наличииНет
  1. ^ т.е. не требует 8-битный чистый коробка передач.
  2. ^ то есть последовательность, используемая для кодирования данного символа, всегда одна и та же, независимо от того, какими были предыдущие символы. Видеть государство (информатика).
  3. ^ а б ISO-2022-JP - это сохранный кодировка: все кодировки закодированы с помощью 0x21–7E и переключаются между ними с помощью escape-символов ANSI. Следовательно, хотя в исходном состоянии это ASCII, целые последовательности символов, отличных от ASCII, могут быть закодированы байтами ASCII.
  4. ^ Катакана JIS X 0201 доступны в JIS X 0202 и ISO 2022, но не включены в базовый профиль ISO-2022-JP, хотя они являются обычным расширением.
  5. ^ JIS X 0212 доступен в JIS X 0202 и ISO 2022 и включен в профили ISO-2022-JP-1 и ISO-2022-JP-2, но не в базовый профиль ISO-2022-JP.
  6. ^ Однобайтовые символы 0x21–7E в Shift_JIS правильно ISO-646-JP, чтобы быть надмножеством 8-битного JIS X 0201, но часто декодируются (не обязательно отображаются) как ASCII, который отличается только в двух местах.
  7. ^ Некоторые (не все) байты ASCII могут отображаться как вторые байты, но не как первые байты двухбайтовых символов в Shift_JIS. Следовательно, в последовательности из двух или более байтов ASCII второй байт обязательно должен быть символами ASCII (или ISO-646-JP).
  8. ^ а б Упакованный формат EUC основан на механизмах ISO 2022 с заранее заданными кодировками. Избегают экранирования обозначений кодировки и блокирующих сдвигов, тогда как использование одиночных сдвигов может быть реализовано без сохранения состояния. Тем не менее, ограничения ISO 2022 соблюдаются.
  9. ^ Однобайтовые символы 0x21–7E в EUC-JP обычно считаются ASCII, но иногда обрабатываются как ISO-646-JP.
  10. ^ В отличие от Shift_JIS, EUC-JP не будет обрабатывать простой 8-битный ввод JIS X 0201 без предварительного преобразования из-за разного представления катаканы JIS X 0201 (с односменной).
  11. ^ JIS X 0212 в EUC-JP не всегда реализуется.
  12. ^ Помимо свойств самих кодировок, форматы Unicode имеют дополнительные преимущества, вытекающие из базового набора символов: они не ограничиваются кодированными символами JIS, но могут представлять всю UCS (включая полный репертуар кодированных символов JIS) и, следовательно, подходят для международного использования. На них также меньше влияют конфликтующие проприетарные расширения из-за их большего базового репертуара и обозначенных областей частного использования.
  13. ^ Хотя GB 18030 и GBK являются расширениями формы EUC-CN для GB / T 2312, они не соответствуют ограничениям EUC или ISO 2022, в отличие от EUC-JP (или исходного EUC-CN).

Смотрите также

Рекомендации

  1. ^ Хараламбус, Яннис (2007). Шрифты и кодировки. O'Reilly Media. С. 42–44. ISBN 9780596102425.
  2. ^ «Наборы символов». IANA.
  3. ^ Лунде, Кен (2009). CJKV Обработка информации. O'Reilly Media. С. 262–268. ISBN 9780596514471.