Комбинируемый объединитель графем ͏
Значение символа
Несмотря на своё название (joiner), этот символ не объединяет, а скорее разъединяет соседние символы.
Он заставляет алгоритмы, обрабатывающие текст, рассматривать два символа отдельно, тогда как в некоторых случаях они могут быть различным образом объединены. Один из примеров — сортировка. Вот несколько английских слов, упорядоченных по алфавиту:
address
bomb
cat
cheese
digit
Однако, если мы будем рассматривать эти слова с точки зрения чешского языка, то сортировка по алфавиту будет следующей:
address
bomb
cat
digit
cheese
С первого взгляда неожиданно.
Одно слово, начинающееся на c, выше слова на d, а другое (также начинающееся на c), ниже.
На самом деле буквы c и h образуют диграф, который рассматривается в чешском языке как одна буква, которая имеет порядок, отличный от c.
Если же между c и h вставить CGJ, то слово будет выглядеть по прежнему (сам объединитель не имеет графического представления), но сортировка будет работать более привычно:
address
bomb
cat
cheese
digit
Символ «Комбинируемый объединитель графем» входит в подраздел «Соединение графем» раздела «Комбинируемые диакритические знаки» и был утвержден как часть Юникода версии 3.2 в 2002 г.
| Название в Юникоде | Combining Grapheme Joiner |
| Номер в Юникоде | |
| Плоскости | 0: Основная многоязычная плоскость |
| Блок Юникода | Комбинируемые диакритические знаки |
| Подраздел Юникода | Соединение графем |
| Версия Юникода | 3.2 (2002) |
| Тип парной зеркальной скобки (bidi) | Нет |
| Композиционное исключение | Нет |
| Изменение регистра | 034F |
| Простое изменение регистра | 034F |
| Case_Ignorable | + |
| ID_Continue | + |
| XID_Continue | + |
| Default_Ignorable_Code_Point | + |
| Grapheme_Extend | + |
| scripts | Inherited |
| Other_Default_Ignorable_Code_Point | + |
| InCB | + |
| Кодировка | hex | dec (bytes) | dec | binary |
|---|---|---|---|---|
| UTF-8 | CD 8F | 205 143 | 52623 | 11001101 10001111 |
| UTF-16BE | 03 4F | 3 79 | 847 | 00000011 01001111 |
| UTF-16LE | 4F 03 | 79 3 | 20227 | 01001111 00000011 |
| UTF-32BE | 00 00 03 4F | 0 0 3 79 | 847 | 00000000 00000000 00000011 01001111 |
| UTF-32LE | 4F 03 00 00 | 79 3 0 0 | 1325596672 | 01001111 00000011 00000000 00000000 |
Скопируйте и вставьте эти коды, чтобы использовать символ Комбинируемый объединитель графем в тексте на сайтах, в социальных сетях, мессенджерах или блогах.
| HTML | |
| CSS | |
| JavaScript, JSON | |
| Unix, C, PHP, JAVA | |
| Ruby, PHP | |
| Perl | |
| URL-encode |