Комбинируемый объединитель графем ͏
Значение символа
Несмотря на своё название (joiner), этот символ не объединяет, а скорее разъединяет соседние символы.
Он заставляет алгоритмы, обрабатывающие текст, рассматривать два символа отдельно, тогда как в некоторых случаях они могут быть различным образом объединены. Один из примеров — сортировка. Вот несколько английских слов, упорядоченных по алфавиту:
address
bomb
cat
cheese
digit
Однако, если мы будем рассматривать эти слова с точки зрения чешского языка, то сортировка по алфавиту будет следующей:
address
bomb
cat
digit
cheese
С первого взгляда неожиданно.
Одно слово, начинающееся на c
, выше слова на d
, а другое (также начинающееся на c
), ниже.
На самом деле буквы c
и h
образуют диграф, который рассматривается в чешском языке как одна буква, которая имеет порядок, отличный от c
.
Если же между c и h вставить CGJ, то слово будет выглядеть по прежнему (сам объединитель не имеет графического представления), но сортировка будет работать более привычно:
address
bomb
cat
cheese
digit
Символ «Комбинируемый объединитель графем» входит в подраздел «Соединение графем» раздела «Комбинируемые диакритические знаки» и был утвержден как часть Юникода версии 3.2 в 2002 г.
Название в Юникоде | Combining Grapheme Joiner |
Номер в Юникоде | |
HTML-код | |
CSS-код | |
Плоскости | 0: Основная многоязычная плоскость |
Блок Юникода | Комбинируемые диакритические знаки |
Подраздел Юникода | Соединение графем |
Версия Юникода | 3.2 (2002) |
Тип парной зеркальной скобки (bidi) | Нет |
Композиционное исключение | Нет |
Изменение регистра | 034F |
Простое изменение регистра | 034F |
Case_Ignorable | + |
ID_Continue | + |
XID_Continue | + |
Default_Ignorable_Code_Point | + |
Grapheme_Extend | + |
scripts | Inherited |
Other_Default_Ignorable_Code_Point | + |
InCB | + |
Кодировка | hex | dec (bytes) | dec | binary |
---|---|---|---|---|
UTF-8 | CD 8F | 205 143 | 52623 | 11001101 10001111 |
UTF-16BE | 03 4F | 3 79 | 847 | 00000011 01001111 |
UTF-16LE | 4F 03 | 79 3 | 20227 | 01001111 00000011 |
UTF-32BE | 00 00 03 4F | 0 0 3 79 | 847 | 00000000 00000000 00000011 01001111 |
UTF-32LE | 4F 03 00 00 | 79 3 0 0 | 1325596672 | 01001111 00000011 00000000 00000000 |