Поддержка 32-битных кодовых точек для символов Unicode
В версию Java 2 5.0 внесены значительные дополнения в типы character и String для поддержки 32-битных символов Unicode. В прошлом все символы Unicode могли храниться в шестнадцати битах, которые равны размеру значения типа char (и размеру значения, содержащегося в объекте типа character), поскольку эти значения лежали в диапазоне от 0 до FFFF. Но недавно набор символов Unicode был расширен и теперь требует больше 16 бит для хранения символа. Новая версия набора символов Unicode включает в себя символы, лежащие в диапазоне от 0 до 10FFFF.
Приведу три важных термина: кодовая точка или позиция (code point), кодовая единица или кодовое значение (code unit) и дополнительный символ (supplemental character), Применительно к языку Java кодовая точка — это код символа из диапазона от 0 до 10FFFF. В языке Java термин "кодовая единица" используется для ссылки на 16-битные символы. Символы, имеющие значения, большие, чем FFFF, называются дополнительными.
Расширение набора символов Unicode создало фундаментальные проблемы для языка Java, Поскольку у дополнительного символа значение больше, чем может вместить тип char, потребовались некоторые средства для хранения и обработки дополнительных символов. В версии Java 2 5.0 эта проблема решена двумя способами. Во-первых, язык Java использует два значения типа char для представления дополнительного символа. Первое из них называется верхним суррогатом (high surrogate), а второе — нижним суррогатом (low surrogate). Разработаны новые методы, такие как codePointAt(), для преобразований кодовых точек в дополнительные символы и обратно.
Во-вторых, в языке Java перегружены некоторые из существовавших ранее методов в классах Character и String. В перегруженных вариантах методов используются данные типа int вместо char. Поскольку размер переменной или константы типа int достаточно велик для размещения любого символа как единичного значения, этот тип может использоваться для хранения любого символа. Например, у метода isDigit() теперь два варианта, приведенные далее: