Кодировка файла
Можно использовать этот калькулятор для изменения кодировки текста.
В предыдущей статье я уже затрагивал тему кодировок текста, более подробно описал Юникод и представление его в виде последовательности символов переменной длины UTF-8. Данный калькулятор позволяет преобразовать текст в другие исторические кодировки. Я называю их историческими, потому, что в современных решениях везде, где это можно следует использовать Юникод и его самое удобное представление UTF-8.
Однако старые кодировки также могут быть полезны, когда требуется компактно закодировать текст, например для последующего сжатия и передачи, в том случае, когда принимающая сторона гарантированно знает в какой кодировке передается текст. Например русский текст в в кодировке Windows-1251 будет занимать вдвое меньше места, чем текст в UTF-8.
Итак калькулятор ниже позволяет скачать файл в выбранной кодировке или просмотреть шестнадцатеричный дамп закодированного текста.
Просмотреть созданный файл можно при помощи калькулятора Прочитать файл в старой кодировке.
Калькулятор вернет ошибку, в том случае, если выбрана неверная кодировка. В случае с Юникодом, это невозможно - в нем представлены символы всех современных языков. А вот устаревшие 8-битные кодировки содержат ограниченный набор символов и для текста на нескольких языках может вполне не найтись нужной кодировки.
За годы до появления Юникода было придумано множество кодировок для разных языков и наборов символов, поэтому сама задача выбора правильной кодировки для вашего текста может быть непростой. Следующий калькулятор позволяет подобрать кодировки для введенного текста. В результирующей таблице будут выданы, только те кодировки, при помощи которых можно гарантированно закодировать заданный текст.
В калькуляторах поддерживаются 70 различных кодировок:
Кодировки IBM EBCDIC
EBCDIC - стандартный 8-битный код, разработанный корпорацией IBM для использования на мэйнфреймах IBM и совместимых с ними.
| Кодировка | Языки / Страны использования |
|---|---|
| EBCDIC 424 Hebrew | Иврит |
| EBCDIC 037 USA/Canada | США, Канада, Португалия, Бразилия, Австралия, Новой Зеландия и Южной Африка |
| EBCDIC 1026 Turkish | Турция |
| EBCDIC 500 International | Интернациональный |
| EBCDIC 875 Greek | Греческий |
Кодировки в стандарте ISO 8859
Семейство ASCII совместимых кодировок, разработанных международными организациями ISO и IEC
| Кодировка | Языки/Страны |
|---|---|
| ISO 8859-2 (Latin-2) | Восточноевропейские языки, использующие латиницу |
| ISO 8859-5 | Кириллица |
| ISO 8859-6 | Арабский |
| ISO 8859-7 | Современный греческий |
| ISO/IEC 8859-1 (Latin-1) | Западноевропейские языки |
| ISO/IEC 8859-10 (Latin-6) | Североевропейские языки |
| ISO/IEC 8859-11 | Тайский |
| ISO/IEC 8859-13 (Latin-7) | Эстонский, латышский, литовский |
| ISO/IEC 8859-14 | Кельтские языки |
| ISO/IEC 8859-15 (Latin-9) | Западноевропейские языки |
| ISO/IEC 8859-16 (Latin-10) | Восточноевропейские языки, использующие латиницу |
| ISO/IEC 8859-3 | Турецкий, мальтийский, эсперанто |
| ISO/IEC 8859-4 (Latin-4) | Эстонский, латышский, литовский, гренландский, саамский |
| ISO/IEC 8859-8 | Иврит |
| ISO/IEC 8859-9 | Турецкий |
Кодировки KOI8
KOI8 - 8-битовая кодировка совместимая с ASCII для представления букв кириллических алфавитов
| Кодировка | Языки |
|---|---|
| KOI8-R | Русский |
| KOI8-U | Украинский |
Кодировки Mac OS
| Кодировка | Языки/Страны |
|---|---|
| Mac OS Celtic | Кельтские языки |
| Mac OS Gaelic | Гэльский |
| Mac OS Central European | Языки Центральной Европы |
| Mac OS Croatian | Сербско/Хорватский |
| Mac OS Cyrillic | Кириллица |
| Mac OS Greek | Греческй |
| Mac OS Icelandic | Исландский |
| Mac OS Inuit | Инуктитут |
| Mac OS Roman | Западноевропейские языки |
| Mac OS Romanian | Румынский |
| Mac OS Turkish | Турецкий |
Кодировки DOS
Кодировки для MS-DOS и подобных ей операционных систем.
| Кодировка | Языки/Страны |
|---|---|
| DOS Latin US (CP437) | Восточноевропейские языки, использующие латиницу |
| DOS Greek (CP737) | Греческий |
| DOS Baltic Rim (CP775) | Эстонский, латышский, литовский |
| DOS Latin 1 (CP850) | Западноевропейские языки |
| DOS Latin 2 (CP852) | Восточноевропейские языки, использующие латиницу |
| DOS Cyrillic (CP855) | Кириллица |
| CP 856 Hebrew | Иврит |
| DOS Turkish (CP857) | Турецкий |
| DOS Portuguese (CP860) | Португальский |
| DOS Icelandic (CP861) | Исландский |
| DOS Hebrew (CP862) | Иврит |
| DOS French Canada (CP863) | Французский |
| DOS Arabic (CP864) | Арабский |
| DOS Nordic (CP865) | Норвежский |
| DOS Cyrillic Russian (CP866) | Русский |
| DOS Greek 2 (CP869) | Греческий |
Кодировки Windows
| Кодировка | Языки/Страны |
|---|---|
| Windows-1250 | Языки Центральной и Восточной Европы |
| Windows-1251 | Русский, украинский белорусский, сербский, македонский, болгарский |
| Windows-1252 | Западноевропейские языки |
| Windows-1253 | Современный греческий |
| Windows-1254 | Турецкий |
| Windows-1255 | Иврит |
| Windows-1256 | Арабский |
| Windows-1257 | Эстонский, латышский, литовский |
| Windows-1258 | Вьетнамский |
| Windows-874 | Тайский |
| Windows-932 | Японский |
| Windows-936 | Упрощенный китайский |
| Windows-949 | Корейский |
| Windows-950 | Традиционный китайский |
| KZ-1048 | Казахский |
Прочие кодировки
| Кодировка | Описание |
|---|---|
| Atari ST | Кодировка, использовалась в домашних персональных компьютерах фирмы Atari |
| GSM 03.38 | Кодировка использовалась в сетях GSM для SMS (коротких сообщений), CB (широковещательная передача коротких сообщений) and USSD (Сервис для организации интерактивных взаимодействий) |
| KPS 9566 | Кодировка, разработанная в Северной Корее для поддержки символов корейского языка Хангыль |
| ISO 8-bit Urdu (IBM CP1006) | Использовалась компанией IBM в операционной системе AIX в Пакистане для языка Урду |
| ISO-IR-68 | Кодировка для представления символов в языке программирования APL |
Правила преобразования исторических кодировок в Юникод были получены с сайта unicode.org1
-
Отображение кодировок в Юникоде http://www.unicode.org/Public/MAPPINGS/ ↩
Комментарии