Кодировка файла

Можно использовать этот калькулятор для изменения кодировки текста.

В предыдущей статье я уже затрагивал тему кодировок текста, более подробно описал Юникод и представление его в виде последовательности символов переменной длины UTF-8. Данный калькулятор позволяет преобразовать текст в другие исторические кодировки. Я называю их историческими, потому, что в современных решениях везде, где это можно следует использовать Юникод и его самое удобное представление UTF-8.
Однако старые кодировки также могут быть полезны, когда требуется компактно закодировать текст, например для последующего сжатия и передачи, в том случае, когда принимающая сторона гарантированно знает в какой кодировке передается текст. Например русский текст в в кодировке Windows-1251 будет занимать вдвое меньше места, чем текст в UTF-8.
Итак калькулятор ниже позволяет скачать файл в выбранной кодировке или просмотреть шестнадцатеричный дамп закодированного текста.

PLANETCALC, Скачать текст как файл с выбором кодировки

Скачать текст как файл с выбором кодировки

Файл
 
Шестнадцатеричный дамп
 

Просмотреть созданный файл можно при помощи калькулятора Прочитать файл в старой кодировке.

Калькулятор вернет ошибку, в том случае, если выбрана неверная кодировка. В случае с Юникодом, это невозможно - в нем представлены символы всех современных языков. А вот устаревшие 8-битные кодировки содержат ограниченный набор символов и для текста на нескольких языках может вполне не найтись нужной кодировки.
За годы до появления Юникода было придумано множество кодировок для разных языков и наборов символов, поэтому сама задача выбора правильной кодировки для вашего текста может быть непростой. Следующий калькулятор позволяет подобрать кодировки для введенного текста. В результирующей таблице будут выданы, только те кодировки, при помощи которых можно гарантированно закодировать заданный текст.

PLANETCALC, В какой кодировке можно представить текст?

В какой кодировке можно представить текст?

Файл очень большой, при загрузке и создании может наблюдаться торможение браузера.

В калькуляторах поддерживаются 70 различных кодировок:

Кодировки IBM EBCDIC

EBCDIC - стандартный 8-битный код, разработанный корпорацией IBM для использования на мэйнфреймах IBM и совместимых с ними.

Кодировка Языки / Страны использования
EBCDIC 424 Hebrew Иврит
EBCDIC 037 USA/Canada США, Канада, Португалия, Бразилия, Австралия, Новой Зеландия и Южной Африка
EBCDIC 1026 Turkish Турция
EBCDIC 500 International Интернациональный
EBCDIC 875 Greek Греческий

Кодировки в стандарте ISO 8859

Семейство ASCII совместимых кодировок, разработанных международными организациями ISO и IEC

Кодировка Языки/Страны
ISO 8859-2 (Latin-2) Восточноевропейские языки, использующие латиницу
ISO 8859-5 Кириллица
ISO 8859-6 Арабский
ISO 8859-7 Современный греческий
ISO/IEC 8859-1 (Latin-1) Западноевропейские языки
ISO/IEC 8859-10 (Latin-6) Североевропейские языки
ISO/IEC 8859-11 Тайский
ISO/IEC 8859-13 (Latin-7) Эстонский, латышский, литовский
ISO/IEC 8859-14 Кельтские языки
ISO/IEC 8859-15 (Latin-9) Западноевропейские языки
ISO/IEC 8859-16 (Latin-10) Восточноевропейские языки, использующие латиницу
ISO/IEC 8859-3 Турецкий, мальтийский, эсперанто
ISO/IEC 8859-4 (Latin-4) Эстонский, латышский, литовский, гренландский, саамский
ISO/IEC 8859-8 Иврит
ISO/IEC 8859-9 Турецкий

Кодировки KOI8

KOI8 - 8-битовая кодировка совместимая с ASCII для представления букв кириллических алфавитов

Кодировка Языки
KOI8-R Русский
KOI8-U Украинский

Кодировки Mac OS

Кодировка Языки/Страны
Mac OS Celtic Кельтские языки
Mac OS Gaelic Гэльский
Mac OS Central European Языки Центральной Европы
Mac OS Croatian Сербско/Хорватский
Mac OS Cyrillic Кириллица
Mac OS Greek Греческй
Mac OS Icelandic Исландский
Mac OS Inuit Инуктитут
Mac OS Roman Западноевропейские языки
Mac OS Romanian Румынский
Mac OS Turkish Турецкий

Кодировки DOS

Кодировки для MS-DOS и подобных ей операционных систем.

Кодировка Языки/Страны
DOS Latin US (CP437) Восточноевропейские языки, использующие латиницу
DOS Greek (CP737) Греческий
DOS Baltic Rim (CP775) Эстонский, латышский, литовский
DOS Latin 1 (CP850) Западноевропейские языки
DOS Latin 2 (CP852) Восточноевропейские языки, использующие латиницу
DOS Cyrillic (CP855) Кириллица
CP 856 Hebrew Иврит
DOS Turkish (CP857) Турецкий
DOS Portuguese (CP860) Португальский
DOS Icelandic (CP861) Исландский
DOS Hebrew (CP862) Иврит
DOS French Canada (CP863) Французский
DOS Arabic (CP864) Арабский
DOS Nordic (CP865) Норвежский
DOS Cyrillic Russian (CP866) Русский
DOS Greek 2 (CP869) Греческий

Кодировки Windows

Кодировка Языки/Страны
Windows-1250 Языки Центральной и Восточной Европы
Windows-1251 Русский, украинский белорусский, сербский, македонский, болгарский
Windows-1252 Западноевропейские языки
Windows-1253 Современный греческий
Windows-1254 Турецкий
Windows-1255 Иврит
Windows-1256 Арабский
Windows-1257 Эстонский, латышский, литовский
Windows-1258 Вьетнамский
Windows-874 Тайский
Windows-932 Японский
Windows-936 Упрощенный китайский
Windows-949 Корейский
Windows-950 Традиционный китайский
KZ-1048 Казахский

Прочие кодировки

Кодировка Описание
Atari ST Кодировка, использовалась в домашних персональных компьютерах фирмы Atari
GSM 03.38 Кодировка использовалась в сетях GSM для SMS (коротких сообщений), CB (широковещательная передача коротких сообщений) and USSD (Сервис для организации интерактивных взаимодействий)
KPS 9566 Кодировка, разработанная в Северной Корее для поддержки символов корейского языка Хангыль
ISO 8-bit Urdu (IBM CP1006) Использовалась компанией IBM в операционной системе AIX в Пакистане для языка Урду
ISO-IR-68 Кодировка для представления символов в языке программирования APL

Правила преобразования исторических кодировок в Юникод были получены с сайта unicode.org1


  1. Отображение кодировок в Юникоде http://www.unicode.org/Public/MAPPINGS/ 

Ссылка скопирована в буфер обмена
PLANETCALC, Кодировка файла

Комментарии