Html кодировка русская: Кодировка HTML-страницы — Структура HTML-документа — HTML Academy — Вебджем.рф

Содержание

Виды кодировок символов [АйТи бубен]

Unicode: UTF-8, UTF-16,UTF-32.
i18n Интернационализация — Интернационализация
L10n Локализация программного обеспечения — Локализация

В общем случае кодировка или кодовая таблица — это однозначное соответствие между подмножеством целых чисел (как правило, идущих подряд) и некоторым набором символов. Ключевым здесь является понятие символа. Символ может быть буквой (а может и не быть), может соответствовать звуку речи (а может и не соответствовать) и может быть представлен графическим знаком (но может обходиться и без какого бы то ни было видимого образа). Символ — это атом смысла, мельчайшая неделимая частица информации.

Так, латинское «А» и кириллическое «А» — это разные символы, потому что они употребляются в разных контекстах и несут в себе разную информацию.

Определяющим для любой кодировки является количество охватываемых ею кодов и, соответственно, символов.

Поскольку тексты в компьютере хранятся в виде последовательности байтов, большинство кодировок естественным образом распадаются на однобайтовые, или восьмибитные, способные закодировать не больше 256 символов, и двухбайтовые, или шестнадцатибитные, чья емкость может достигать 65636 знакомест.

ASCII — прежде чем переходить к восьмибитным кодировкам, нужно сказать несколько слов о кодировке под названием ASCII (American Standard Code for Information Interchange) — кодировке также восьмибитной, но охватывающей только 128 символов и потому довольствующейся семью значимыми битами (старший, восьмой бит при этом всегда равен нулю). Важность этой кодировки, включающей латинский алфавит, цифры и основные знаки пунктуации, необычайно велика: почти все остальные (большие по размеру) кодировки совместимы с ней, т. е. размещают на своих первых 128 знакоместах те же самые символы в том же порядке.
КОИ8. Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 («Код обмена информацией, 8-битный»). Эта кодировка применялась еще в доисторические советские времена на компьютерах ЕС ЭВМ, и когда в середине 80-х появились первые русифицированные версии операционной системы UNIX, они унаследовали эту кодировку у своих «предков». В результате КОИ8 является сейчас одной из кодировок, которые обязательно должна поддерживать любая русская web-страница.
Windows-1251. Вторая по значению в русском Интернете (и, безусловно, первая по употребимости на персональных компьютерах) кодировка — это стандартная кириллическая кодировка Microsoft Windows, обозначаемая аббревиатурой СР1251 («СР» расшифровывается как «Code Page», «кодовая страница»). Все Windows- приложения, работающие с русским языком, обязаны понимать эту кодировку без перевода. Благодаря распространенности Windows кодировка СР1251, вместе с КОИ8, входит в абсолютный минимум кодировок, которые приходится поддерживать русскоязычным сайтам.
Семейство 8859. Latin-1. Похожая ситуация с конкурирующими платформами и операционными системами и, как следствие, с конкурирующими несовместимыми кодировками наблюдается и в других языках, пользующихся своим собственным алфавитом или даже латинским алфавитом с расширениями. Международная организация по стандартизации (International Standards Organization, Стандарты ISO) попыталась навести порядок в восьмибитных кодировках, создав серию кодировок ISO 8859, расширяющих таблицу ASCII для латинских букв с диакритикой и лигатур (кодировка ISO 8859-1), кириллицы (ISO 8859-5), арабского (ISO 8859-6), греческого (ISO 8859-7), и других алфавитов.

Если кодировка ISO 8859-5 для кириллицы так и не прижилась, первая из этой серии — кодировка ISO 8859-1, известная также под именем Latin-1, — сумела стать общепринятым стандартом для кодирования «расширенной» латиницы. В эту кодировку включены почти все символы, употребляющиеся в письменностях западноевропейских языков — французского, немецкого, испанского и т. д.

Внедрение Юникода привело к изменению подхода к традиционным 8-битным кодировкам. Если раньше кодировка задавалась шрифтом, то теперь она задаётся таблицей соответствия между данной кодировкой и Юникодом. Фактически 8-битные кодировки превратились в форму представления некоторого подмножества Юникода. Это намного упростило создание программ, которые должны работать с множеством разных кодировок: теперь, чтобы добавить поддержку ещё одной кодировки, надо всего лишь добавить ещё одну таблицу перекодировки в Юникод.

Unicode

В 1991 году была предпринята попытка создать единую универсальную двухбайтовую кодировку, охватывающую все алфавиты и иероглифические системы мира. Результатом стал стандарт под названием Unicode, покрывающий не только системы письменности всех живых и большинства мертвых языков мира, но и множество музыкальных, математических, химических и прочих символов. Массовое применение Unicode в документах и программах остается делом будущего, для web- дизайнера эта кодировка имеет особое значение, так как именно она объявлена «стандартной кодировкой документа» в HTML начиная с версии 4.

В ближайшее время все более важную роль будет играть особый формат Unicode (и ISO 10646) под названием

UTF-8. Эта «производная» кодировка пользуется для записи символов цепочками байтов различной длины (от одного до шести), которые с помощью несложного алгоритма преобразуются в Unicode- коды, причем более употребительным символам соответствуют более короткие цепочки. Главное достоинство этого формата — совместимость с ASCII не только по значениям кодов, но и по количеству бит на символ, так как для кодирования любого из первых 128 символов в UTF-8 достаточно одного байта (хотя, например, для букв кириллицы нужно уже по два байта).

Для указания кодировки символов web-страницы используются следующие обозначения кодовых таблиц:

windows-1251 — кириллица Windows
KOI8-R — Виды кодировок символов КОИ8 для русского языка
KOI8-U — кодировка КОИ8 для украинского языка
ISO 8859-1 — кодировка Latin-1
ISO 8859-5 — кодировка семейства ISO 8859 для символов кирилицы
UTF-8 — Unicode — стандарт для HTML

На web- странице указать кодировку документа можно двумя cпособами:

XML декларация: <?xml version=»1. 0″ encoding=»windows-1251″?>
Элемент meta: <meta http-equiv=»content-type» content=»text/html; charset=windows-1251″ />

Элемент meta является дочерним по отношению к разделу заголовка документа (head) и служит для указания типа и кодировки содержимого страницы. Типом содержимого является структурированный текст в формате html (text/html), используемая кодировка кириллица windows (charset=windows-1251).

Обычно используют оба способа одновременно. Например, для указания кодировки КОИ8 для украинского языка на web-странице, используют следующую структуру документа:

<?xml version="1.0" encoding="KOI8-U"?>
<!DOCTYPE html PUBLIC ... >
<html xmlns="http://www.w3.org/1999/xhtml">
    <head>
        <title>Моя перша сторiнка</title>
        <meta http-equiv="Content-Type"
              content="text/html; charset=KOI8-U" />
    </head>
    ...
</html>

При сохранении текста выбирайте ту же кодировку, что указали на web-странице.

Поэкспериментируйте с различными кодировками, и вы убедитесь, что символы латинского алфавита, цифры и знаки пунктуации передаются без изменений в подавляющем большинстве из них.

Проблемы с кодировкой UTF-8 в HTML файле | АйТиФай

Сортировка по дате

Сен 30, 2021

#! C:/Python/python
print ('Content-type: text/html\n\n')
print ('''<!DOCTYPE html>
<html lang="ru">
<head>
<meta charset="utf-8">
<title>Титул</title>
</head>
<body>Текст</body>
</html>''')

Сен 30, 2021

Valeri J
0
Сен 30, 2021

то тест из файла news.tx превращается в кракозябру:
Если удалить предложенные вами строки из конфига Апача, то текст из файла news.tx становится нормальным, а текст, встроенный в файл Python превращается в ��
Получается: все время один какой-то текст нормальный, а второй выводится в непонятном виде. Или или. Чтобы все тексты отображались правильно — не выходит.
Valeri J
0
Сен 30, 2021

stud_55 — я наверное неудачно описал ситуацию.
Текст из внешнего текстового файла у меня загружается и выводится правильно. А вот текст, прописанный в самом файле Python, выводится в виде ромбов.
Ниже полный код программы с комментариями, где и что получается.
#! C:/Python/python print ('Content-type: text/html\n\n') # Титул и слово Текст в теле документа выводятся ромбами print ('''<!DOCTYPE html> <html lang="ru"> <head> <meta charset="utf-8"> <title>Титул</title> </head> <body>Текст<br>''') fa = open('set/news.txt') ws = fa.read() fa.close() # Текст из файла set/news.txt выводится в правильном виде print (ws) print ('</body></html>')
Изменить ситуацию можно только записав в Апаче строку SetEnv PYTHONIOENCODING utf8
Тогда текст, встроенный в файл Python отображается правильно. Но теперь неправильно отображается текст из файла set/news. txt
Никаких вариантов, чтобы и текст, встроенный в файл Python, и текст из файла set/news.txt отображались одинаково правильно мне найти не удалось.
Valeri J
0
Сен 30, 2021

Несовпадение кодировок сервера и страницы будет причиной появления ошибок. Если они не совпадают, информация декодируется некорректно, так что контент на сайте будет отображаться в виде набора бессвязных букв, иероглифов и символов, в народе называемых «кракозябрами». Такой текст прочитать невозможно, так что пользователь просто уйдет с сайта и найдет другой ресурс. Или останется, если ему не очень важно содержание:
Студентка списывала реферат с формулами, а на сайте слетела кодировка. Реальная история
Google рекомендует всегда указывать сведения о кодировке, чтобы текст точно корректно отображался в браузере пользователя.
Кодировка влияет на SEO?
Разберемся, как кодировка на сайте влияет на индексацию в Яндекс и Google.
Яндекс четко заявляет:
«Тип используемой на сайте кодировки не влияет на индексирование сайта. Если ваш сервер не передает в заголовке кодировку, робот Яндекса также определит ее самостоятельно».
Позиция Google такая же. Поисковики не рассматривают Charset как фактор ранжирования или сигнал для индексирования, тем не менее, она косвенно влияет на трафик и позиции.
Если кодировка сервера не совпадает с той, что указана на сайте, пользователи увидят нечитабельные символы вместо контента. На таком сайте сложно что-либо понять, так что скорее всего пользователи сбегут, а на сайте будут расти отказы.
Пример страницы со слетевшей кодировкой
Поэтому она важна для SEO, хоть и влияет на него косвенно через поведенческие. Пользователи должны видеть читабельный текст на человеческом языке, чтобы работать с сайтом.
Виды кодировок
Существует довольно много видов, но сейчас распространены два:
UTF-8
Unicode Transformation Format — универсальный стандарт кодирования, который работает с символами почти всех языков мира. Символы могут занимать от 1 до 4 байт, такое кодирование позволяет создавать мультиязычные сайты.
Есть несколько вариантов — UTF-8, 16, 32, но чаще используют восьмибитное.
Windows-1251
Этот вид занимает второе место по популярности после UTF-8. Windows-1251 — кодирование для кириллицы, созданное на базе кодировок, использовавшихся в русификаторах операционной системы Windows. В ней есть все символы, которые используются в русской типографике, кроме значка ударения. Символы занимают 1 байт.
Выбор кодировки остается на усмотрение веб-мастера, но UTF-8 используют намного чаще — ее поддерживают все популярные браузеры и распознают поисковики, а еще ее удобнее использовать для сайтов на разных языках.
Как определить кодировку на сайте
Определить кодировку страницы своего или чужого сайта можно через исходный код страницы. Откройте страницу сайта, выберите «Просмотр кода страницы» (сочетание горячих клавиш Ctrl+U» в Google Chrome) и найдите упоминание «charset» внутри тега head.
На странице сайта используется кодировка UTF-8:
Указание кодировки в коде страницы
Узнать вид кодирования можно с помощью «Анализа сайта». Сервис проверяет в том числе и техническую сторону ресурса: анализирует серверную информацию, определяет кодировку, проверяет редиректы и другие пункты.
Фрагмент анализа серверной информации сайта
С помощью этого же сервиса можно проверить корректность указанного кодирования. Аудит внутренних страниц «Анализа сайта» проверяет кодировку сервера и сравнивает ее с той, которая указана на внутренней странице. Найденные ошибки Анализ покажет в результатах проверки, и вы сразу узнаете, где нужно исправить.
Отчет о технических данныхКодировка сервера и страницы
Проверить кодировку еще можно через сервис Validator. w3, о котором писали в статье о проверке валидации кода. Нужная надпись находится внизу страницы.
Кодировка сайта в валидаторе
Если валидатор не обнаружит Charset, он покажет ошибку:
Ошибка указания кодировки
Но валидатор работает не точно: он проверяет только синтаксис разметки, поэтому может не показать ошибку, даже если кодирование указано неправильно.
Если кодировка не отображается
Если вы зашли на чужой сайт с абракадаброй, а вам все равно очень интересно почитать контент, то в Справке Google объясняют, как исправить кодирование текста через браузер.
О проблеме возникновения абракадабры на вашем сайте будут сигнализировать метрики поведения: вырастут отказы, уменьшится глубина просмотров. Но скорее всего вы и раньше заметите, что что-то пошло не так.
Главное правило — для всех файлов, скриптов, баз данных сайта и сервера должна быть указана одна кодировка. Ошибка может возникнуть, если вы случайно указали на сайте разные виды кодировки.
Яндекс советует использовать одинаковую кодировку для страниц и кириллических адресов структуры. К примеру, если робот встретит ссылку href=»/корзина» на странице с кодировкой UTF-8, он сохранит ее в этом же UTF-8, так что страница должна быть доступна по адресу «/%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0».
Где указать кодировку сайта
Если проблема возникла на вашем сайте, способ исправления зависит от вида сайта. Для одностраничника достаточно указать кодировку в мета-теге страницы, а для большого сайта есть разные варианты:
кодировка в мета-теге;
кодировка в .htaccess;
кодировка документа;
кодировка в базе данных MySQL.
Кодировка в мета-теге
Добавьте указание кодировки в head файла шаблона сайта.
При создании документа HTML укажите тег meta в начале в блоке head. Некоторые браузеры могут не распознать указание кодировки, если оно будет ниже.
Мета-тег может выглядеть так:
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
или так:
<meta charset="utf-8">
В HTML5 они эквивалентны.
Тег кодировки в HTML
В темах WordPress обычно тег «charset» с кодировкой указан по умолчанию, но лучше проверить.
Кодировка в файле httpd.conf
Инструкции для сервера находятся в файле httpd.conf, обычно его можно найти на пути «/usr/local/apache/conf/».
Если вам нужно сменить кодировку Windows-1251 на UTF-8, замените строчку «AddDefaultCharset windows-1251» на «AddDefaultCharset utf-8».
Осторожнее: если вы измените в файле кодировку по умолчанию, то она изменится для всех проектов на этом сервере.
Убедитесь, что сервер не передает HTTP-заголовки с конфликтующими кодировками.
Кодировка в .htaccess
Добавьте кодировку в файл .htaccess:
Откройте панель управления хостингом.
Перейдите в корневую папку сайта.
В файле .htaccess добавьте в самое начало код:
для указания кодировки UTF-8 — AddDefaultCharset UTF-8;
для указания кодировки Windows-1251 — AddDefaultCharset WINDOWS-1251.
Перейдите на сайт и очистите кэш браузера.
Кодировка документа
Готовые файлы HTML важно сохранять в нужной кодировке сайта. Узнать текущую кодировку файла можно через Notepad++: откройте файл и зайдите в «Encoding». Меняется она там же: чтобы сменить кодировку на UTF-8, выберите «Convert to UTF-8 without BOOM». Нужно выбрать «без BOOM», чтобы не было пустых символов.
Кодировка Базы данных
Выбирайте нужную кодировку сразу при создании базы данных. Распространенный вариант — «UTF-8 general ci».
Где менять кодировку у БД:
Кликните по названию нужной базы в утилите управления БД phpMyAdmin и откройте ее.
Кликните на раздел «Операции»:
Введите нужную кодировку для базы данных MySQL:
Перейдите на сайт и очистите кэш.
С новой БД проще, но если вы меняете кодировку у существующей базы, то у созданных таблиц и колонок заданы свои кодировки, которые тоже нужно поменять.
Для всех таблиц, колонок, файлов, сервера и вообще всего, что связано с сайтом, должна быть одна кодировка.
Проблема может не решиться, если все дело в кодировке подключения к базе данных. Что делать:
Подключитесь к серверу с правами mysql root пользователя:
mysql -u root -p
Выберите нужную базу:
USE имя_базы;
Выполните запрос:
SET NAMES ‘utf8’;
Если вы хотите указать Windows-1251, то пишите не «utf-8», а «cp1251» — обозначение для кодировки Windows-1251 у MySQL.
Чтобы установить UTF-8 по умолчанию, откройте на сервере my.cnf и добавьте следующее:
В области [client]: default-character-set=utf8 В области [mysql]: default-character-set=utf8 В области [mysqld]: collation-server = utf8_unicode_ci init-connect='SET NAMES utf8' character-set-server = utf8
Вы когда-нибудь сталкивались с проблемами кодировки на сайте?
Как задать кодировку utf 8 в html
При создании сайта у начинающих веб-мастеров часто появляются вопросы: в какой кодировке делать сайт, чем отличается UTF-8 от windows-1251 и как ее прописывать в META Charset HTML-страницы сайта. Ответы на все эти вопросы в данной статье.
Что такое кодировка сайта и как она работает
Кодировку можно представить в виде таблицы, состоящей из разных букв, цифр и других символов понятных человеку, которые закодированы определенным образом. Когда вы открываете текстовый файл, к которым относятся в том числе HTML-страницы, то компьютер считывает из заголовка файла в какой кодировке он был сохранен и выводит текст в соответствующей кодировке преобразовывая компьютерные данные в вид понятный человеку сопоставляя эти данные с таблицей кодировки. Если информация о кодировке из заголовка файла совпадает с кодировкой в которой сохранены данные в HTML-странице, то пользователь видит привычные ему буквы, цифры и другие символы. Если же есть несовпадение, то в результате пользователю выводится непонятный набор символов, особенно часто это происходит в старых почтовых программах. Если пользователь получил письмо с непонятными крякозябрами, то просто перебирая разные кодировки, обычно получается угадать и выбрать ту, в которой написано письмо, и в результате непонятный набор символов превращается в понятный человеку текст.
То же самое происходит и с HTML-страницами сайта. Если документ был сохранен, например, в кодировке UTF-8, а в самом документе прописан META-тег указывающий что это кодировка windows-1251, то браузер опять же будет сопоставлять сохраненные в файле данные с таблицей указанной ему кодировки и так как символы закодированы по-разному, то браузер выведет вместо привычного текста непонятный набор символов или же часть букв может быть в нормальном виде, а другие буквы или символы могут выводиться, например, в виде знаков вопроса. Все выше сказанное относится в том числе и к отображению имен файлов.
Создавая новый документ в текстовом редакторе лучше сразу убедиться что выбрана нужная кодировка. Современные редакторы позволяют преобразовать текст открытого документа из одной кодировки в другую, а стандартный Блокнот позволяет выбрать кодировку только при сохранении файла.
Самые распространенные кодировки
Из предыдущего пункта вы уже знаете что такое кодировка и почему настолько важно правильно прописать ее в коде страниц сайта. Давайте теперь выясним какую из множества кодировок лучше выбрать для будущего сайта. Поскольку самой распространенной и наиболее понятной в освоении всегда была операционная система Windows, то большинство веб-разработчиков создавали HTML-страницы в кодировке windows-1251 (ANSI), которая использовалась по-умолчанию. Но windows-1251 поддерживает не очень большое количество букв и символов, а разработчики хотят использовать в своих текстах различные стрелочки, сердечки, квадратики и другие символы, в том числе есть необходимость совмещать слова из разных языков в одном документе, поэтому на смену ей уже давно пришла более расширенная UTF-8 и большинство разработчиков используют именно эту кодировку.
Проблемы с кодировкой не только в HTML-странице
Сайт, независимо от того является ли он просто набором статических HTML-документов или сложных динамических скриптов генерирующих страницы на лету, размещается на веб-сервере, который также работает с определенной кодировкой. И если сервер выдает информацию в одной кодировке, а ваши страницы или скрипты сохранены в другой кодировке, то опять же могут быть проблемы с отображением страниц в браузере пользователя. Многие хостинги позволяют менять настройки и выбрать кодировку в соответствии с той, которая используется в файлах сайта, через панель управления или же прописать ее в файле .htaccess, если на хостинге используется популярный веб-сервер Apache.
Практически ни один современный сайт не обходится без использования базы данных MySQL и она также может стать источником проблем с кодировкой. Если файлы сайта сохранены в одной кодировке, а информация в базе данных в другой, то на странице та часть информации, которая выводится из базы данных может отображаться в виде все тех же знаков вопросов или других непонятных символов. Чтобы избежать проблем с кодировкой она должна быть одинаковой для веб-сервера, базы данных MySQL, в скриптах, в HTML-страницах сайта и в META-теге, который прописывается в HTML-коде. Если есть проблемы с отображением текста, то проверяйте на наличие проблемы все выше перечисленное.
META Charset HTML-документа
Чтобы сообщить браузеру и поисковым системам в какой кодировке сохранены страницы сайта в их коде прописывается META Charset.
Для кодировки windows-1251:
Для кодировки UTF-8:
Теперь вы знаете что такое кодировка сайта и где искать проблемы если в какой-либо части сайта неправильно отображается текст.
Другие записи по теме в разделе статьи по HTML и CSS
Это задание архивной главы. Перейдите по ссылке, чтобы пройти задание в актуальной главе.
Кодировку HTML-страницы нужно указывать для того, чтобы веб-браузер мог правильно отображать текст на странице. Если браузер неправильно угадает кодировку, то вместо текста будут отображаться иероглифы.
Чтобы сообщить браузеру кодировку HTML-страницы, необходимо внутри тега использовать тег:
Самая распространённая современная кодировка — utf-8 . Используйте её во всех своих проектах.
Для кириллицы в Windows charset часто задавали как windows-1251 . Но сейчас это считается плохой практикой.
Хотите досконально разбираться в разметке, знать о доступности, строить сетки на флексбоксах? Записывайтесь на профессиональный курс по вёрстке первого уровня, проходящий c 20 января по 22 марта 2020. До 26 ноября цена 13 900 14 900
index.html Сплит-режим
style.css Сплит-режим
Когда кодировка документа задана неверно, некоторые символы отображаются как «иероглифы», а некоторые нет.
Метатеги используются для хранения информации предназначенной для браузеров и поисковых систем. Например, механизмы поисковых систем обращаются к метатегам для получения описания сайта, ключевых слов и других данных.
Метатеги для поисковых механизмов
Среди разработчиков сайтов существует мнение, что правильно написанные метатеги позволяют подняться к верхним строчкам поисковых серверов. На самом деле это не так, на одних метатегах высоко не поднимешься, но и неудачно выполненное содержимое метатегов может ухудшить рейтинг сайта.
Два метатега предназначены специально для поисковых серверов: description (описание) и keywords (ключевые слова). Некоторые вебмастера добавляли в раздел keywords ключевые слова, которые не имеют никакого отношения к теме сайта, но зато пользовались определенным успехом среди посетителей поисковиков. Однако, через некоторое время, поисковые системы научились бороться с таким явлением и проверяют содержимое веб-страницы на соответствие заявленным ключевым словам.
Некоторые принципы, относящиеся к метатегам:
не включайте ключевые слова, которые не содержатся на ваших страницах;
не повторяйте ключевые слова;
используйте метатеги по их прямому назначению;
делайте описание и список ключевых слов различными для каждой страницы сайта с учетом содержимого.
description
Большинство поисковых серверов отображают содержимое поля description (пример 1) при выводе результатов поиска. Если этого тега нет на странице, то поисковый движок просто перечислит первые встречающиеся слова на странице, которые, как правило, оказываются не очень-то и в тему.
Пример 1. Использование Description
keywords
Этот метатег был предназначен для описания ключевых слов, встречающихся на странице (пример 2). Но в результате действия людей, желающих попасть в верхние строчки поисковых систем любыми средствами, теперь дискредитирован. Поэтому многие поисковики пропускают этот параметр.
Пример 2. Использование Keywords
Ключевые слова можно перечислять через пробел или запятую. Поисковые системы сами приведут запись к виду, который они используют.
Автозагрузка страниц
Чтобы автоматически загружать новый документ через определенный промежуток времени используется инструкция http-equiv=»refresh» (пример 3).
Пример 3. Автозагрузка страницы
Браузер поймет эту запись, как ожидать 5 секунд, а затем загрузить новую страницу, указанную в параметре URL , в данном случае это переход на сайт htmlbook.ru.
Этот метатег позволяет создавать перенаправление (редирект) на другой сайт. Если URL не указан, произойдет автоматическое обновление текущей страницы через количество секунд, заданных в атрибуте content .
Кодировка
Чтобы сообщить браузеру, в какой кодировке находятся символы веб-страницы, необходимо установить параметр . Для операционной системы Windows и кириллицы charset обычно принимает значение utf-8 или windows-1251 (пример 4).
Пример 4. Выбор текущей кодировки
Если указание кодировки отсутствует, браузер пытается сам определить, какой тип символов используется в документе и выбирает необходимую кодировку автоматически. Браузер не всегда может точно распознать язык веб-страницы и в некоторых случаях предлагает вьетнамскую кодировку вместо кириллицы. По этой причине лучше всегда указывать приведенную строчку. Тем не менее, возникают обстоятельства, когда указание кодировки может принести определенный вред. Например, веб-сервер автоматически использует перекодирование данных в KOI-8, а браузер, встретив параметр charset=windows-1251 , переводит текст в кодировку Windows. Получается двойное изменение символов, прочитать такой текст не просто. К счастью, подобная проблема уже отходит в прошлое, во всяком случае, ее легко можно выявить и нейтрализовать на уровне сервера.
На сколько бы это глупо не казалось, но для удачного выставления кодировки необходимо выполнить целых 11(!) правил.
Хочу зарание предупредить, если какая-то из настроек в . htaccess повлечет за собой ошибку 500, это значит, что хостинг запретил менять этот параметр на сервере. В таком случае проверьте тот факт, что у Вас UTF-8 и в случае чего обратитесь к админам хостинга.
И для тех, кто попал на эту страницу с вопросами об Ajax: Ajax работает в кодировке UTF-8.
Правило №1: Указываем в HTML верстке в теге первой строчкой, кроме случаев, где мы будем использовать тег , так как он так же как и кодировка имеет приоритет над расположением, следующий код:
Правило №2: Указываем кодировку для PHP и самого файла, для этого нам необходимо выставить заголовок функцией header(). Выставляем его в самом начале нашего файла (абсолютно в самом начале), сразу после указания уровня вывода ошибок:
Правило №3: Кодировка для подключения к к БД MySQL. Устанавливается после подключения к БД и выбора бд (mysql_connect, mysql_select_db). Если у нас модуль mysql:
или улучшенный модуль mysqli:
Правило №4: Кодировка в .htaccess:
Правило №5: Кодировка для библиотеки mb, начиная с версии php 5. 4 можно не указывать, так как по умолчанию будет использоваться именно UTF-8. Ну а пока прописываем её в файле .htaccess:
Либо в самом PHP, что в итоге выполнит одни и те же действия:
Правило №6: При сохранении файлов (обязательно ВСЕХ!) выбрать кодировку UTF-8 without BOM, повторюсь, without BOM — это необходимая настройка, в противном случае Ваш сайт не будет работать как надо. Для тех, кто пользуется удобной программой DreamWeaver:
Modify => Page Properties => Title/Encoding и выставляем «Encoding: UTF-8», после чего нажимаем ReLoad, убираем галочку с BOM «Include Unicode Signature (BOM)». Apply + OK.
Модификации => Свойства страницы => Заголовок/Кодировка и выставляем кодировку UTF-8. Нажимаем «перезагрузить», убрали галочку с Подключить Юникод Сигнатуры (BOM). Применить и OK.
Правило №7: если на данный момент какой-то из текстов был введён на странице или в БД — его необходимо перенабрать. Дело в том, что символ в одной кодировке представляет один набор бит для русских символов, а в другой — другой. Именно поэтому необходимо его либо перенабрать, либо перекодировать. Современные программы имеют возможность перевести текст из одной кодировки в другую. Об этой возможности интересуйтесь в мануалах Ваших программ.
Правило №8: Есть исключение, когда текст приходит к Вам на страницу с другого сайта в другой кодировке. Тогда на PHP есть удобная функция для перевода из одной кодировки в другую:
Правило №9: Для строковых функций strlen, substr, необходимо использовать их аналоги на библиотеке mb_, а именно: mb_strlen, mb_substr, то есть к функции дописываем mb_ .
Правило №10: Для работы с регулярными выражениями необходимо указывать модификатор u . Это обязательный параметр!
Правило №11: Для CSS файлов указывается кодировка так:
В заключение скажу, что символы в кодировке WIN-1251 состоят из 1 байта, то есть 8 бит, а в свою очередь в кодировке UTF-8 символы могут состоять от 1 до 4 байт, всё дело в том, что кодировка UTF-8 позволяет создавать мультиязычные сайты, так как все существующие в мире символы в ней присутствуют.
Ради любопытства русская буква в кодировке UTF-8 занимает 2 байта, именно поэтому за 1 символ функция strlen возвращает длину 2, то есть 2 байта, а mb_strlen возвращает уже правильную длину в 1 символ.
Доброго времени суток, уважаемые читатели блога Site on! Сегодня речь пойдёт о такой мелочи, как кодировка страниц наших с вами сайтов на Joomla, WordPress и вовсе без CMS. Несмотря на то, что в этом нет ничего сложного, множество людей до сих пор задают вопросы на форумах, связанные с этой проблемой.
Сейчас самой распространённой кодировкой по праву считается UTF-8 и чтобы не растягивать статью не нужными разглагольствованиями просто скажу, что я абсолютно всем рекомендую использовать именно её.
Как изменить кодировку страницы?
Теперь, когда мы знаем, какая кодировка нам нужна, первым делом нужно сохранить все файлы, которые нужно перекодировать в UTF-8 без BOM, это можно сделать с помощью большинства текстовых редакторов для программистов (не Microsoft Office), например, PSPad или Notepad++, а также множество других.
Перекодирование в UTF-8 на примере PSPad
Если Вы используете бесплатный редактор PSPad, то всё что вам необходимо, это открыть в нём нужный файл, выбрать из верхнего меню «Формат» и выбрать из выпавшего списка UTF-8, после чего обратите внимание на смену кодировки в нижнем правом углу вашего окошка с PSPad, незабываем сохранить изменения!
Как правильно указать нужную кодировку?
Данную статью можно было бы поместить в раздел PHP, так как именно PHP играет в нашем спектакле самую значимую роль. Всегда указывайте кодировку страниц ваших сайтов прежде всего через PHP заголовок:
который должен быть как можно выше в вашем коде, обязательно перед первым выводом любого символа на странице (в том числе HTML теги, просто буквы, пробелы). Данный способ является наиболее приоритетным, в то время как мета-тег: Просто ещё раз подчёркивает и объявляет (а не назначает!) принадлежность к той или иной кодировке, но никак не говорит серверу посылать документы именно в данной кодировке, в отличие от PHP. Именно PHP говорит серверу, на котором находится ваш сайт, в какой кодировке послать страницу клиенту. Так же это можно делать и с помощью .htaccess – файла тонкой конфигурации веб-сервера Apache, но лично мне больше импонирует вариант с PHP. Тем более я слышал, что не все хостеры предоставляют конфигурацию с помощью .htaccess, слава богу не сталкивался 🙂
Итак, после того как мы пересохранили все нужные нам файлы в UTF-8 без BOM и указали кодировку с помощью PHP, остаётся лишь «подтвердить» её мета тегом, который также обязательно нужно указывать! Это рекомендует сам W3C для того, чтобы устройства, роботы и клиентские браузеры могли безошибочно определить, в какой кодировке ваш сервер послал страницу.
Как поменять кодировку страниц в Joomla?
Давайте рассмотрим пример правильного указания кодировки на Joomla 2.5 Это вовсе не сложно и займёт менее минуты:
1) Заходим в главный файл нашего шаблона сайта под названием index. php. Он находится по адресу: /templates/ваш_шаблон/index.php
2) Перекодируем этот файл с помощью текстового редактора для программистов, как было описано для PSPad.
3) Сразу после строки, которая предотвращает прямое обращение к файлу пишем код, который пошлёт заголовок с нашей кодировкой: Если у вас возникли трудности с поиском данной строки, то можете вставить код просто в самом вверху, например, первой строкой файла, главное не забудьте, что PHP код всегда должен быть размещён внутри конструкции <?php ваш код ?> В нашем случае:
4) Не забываем проверить, что Joomla поставила правильный мета-тег:
В Joomla 2.5 за вывод мета-тегов и прочей информации, заключённой в «голове» нашего сайта, отвечает следующая конструкция:
Как поменять кодировку страниц в WordPress и других CMS?
Для сайтов на WordPress и любых других сайтов смысл остаётся точно таким же. Вы находите основной файл, отвечающий за вывод информации на вашем сайте, перекодируете его в UTF-8 без BOM, указываете PHP заголовок и мета-тег.
Исключения составляют сайты на чистом HTML, где PHP кода не может быть в принципе. Для таких сайтов можно просто пропустить данный шаг.
Вот и всё на сегодня, спасибо за ваше внимание и до встречи в новых статьях блога о самостоятельном создании и продвижении сайтов – Site on!
Вопрос: Как в файле htaccess задать кодировку сайта UTF-8?
Ответ: Чтобы задать кодировку сайта по-умолчанию для любого браузера, необходимо в файле .htaccess прописать лишь одну строчку:
[sociallocker]
Для сайтов на WordPress по-умолчанию идет UTF-8, поэтому выбираем подходящий вариант. Для сайтов на других CMS (DLE, Joomla и пр.), либо на самописных «движках» может использоваться WINDOWS-1251.
Посмотрите видео ниже как правильно вставлять указанною строку кодировки в файл htaccess.
Когда необходимо задавать кодировку в htaccess UTF-8 или windows-1251
Очень часто владельцы сайтов сталкиваются с проблемой «вместо русских букв вопросы . «. Зачастую подобное происходит из-за некорректной обработки браузерами кодировки вашего сайта.
Размещая в файле htaccess указанные выше строки, вы избавляете себя от этой проблемы.
Стоит оговориться, что не всегда причиной знаков . вместо букв является неправильная кодировка сайта. Если вы вносили какие-то изменения в файлы шаблона/темы сайта на UTF-8, то может понадобиться преобразовать в UTF-8 без BOM.
3 способа, как исправить кракозябры вместо русских букв в Windows 10
В процессе работы в Windows 10 может возникнуть ситуация, когда русские символы в системе перестают корректно отображаться. Вместо них мы видим нечто невразумительное, некие иероглифы или кракозябры, не обладающие каким-либо практическим смыслом. Обычно такое случается, когда неправильно выбрана локаль в региональных настройках.
Частенько это имеет место быть, когда вы работаете с русскоязычными символами в операционке с английской локализацией, поскольку в ней для русскоязычной программы по умолчанию отсутствуют средства обработки кириллицы, да и какого-либо другого языка с нелатинскими символами, будь это греческая, китайская либо японская языковая конструкция. В этой статье я расскажу, как убрать кракозябры в Windows 10, и вместо них работать с корректно отображающимися русскими символами.
Обычно кракозябры отображаются не везде. К примеру, кириллические символы в названиях программ на рабочем столе написаны абсолютно правильно, без ошибок, а вот если запустить на инсталляцию один из дистрибутивов с поддержкой русского языка, то тут же все начинает идти вкривь и вкось, текст становится нечитаемым, и вы буквально не знаете, что делать.
Ниже я расскажу, как избавиться от этой проблемы, решив ее в свою пользу раз и навсегда.
Стоит понимать, что вся проблема в том, что в вашей операционной системе изначально отсутствует поддержка кириллицы. Скорее всего, вы установили дистрибутив на английском языке, и поверх него установили расширенный пакет для русификации системы, но это не решает всех проблем. Текст все равно является нечитаемым, а описанная проблема остается и никуда не исчезает.
Первое, что может прийти в голову в данной ситуации — это переставить ОС с нуля на русскую версию, где изначально уже присутствует поддержка кириллических символов. Но предположим, что этот вариант для вас не годится, поскольку вы хотите работать именно в англоязычной среде, где все символы кириллицы отображаются корректно и без багов. Именно о такой ситуации и пойдет речь в моей инструкции, которая в этом случае и придется вам как никогда кстати.
Программы для очистки компьютера от мусора
Суть проблемы
Как правило, мы можем наблюдать эти кракозябры не в каждой программе. Например, символы, изображённые кириллицей в названии программ, отображены корректно. Но если запустить программу установки дистрибутивов, поддерживающих русский язык, мы получаем неведомую нам «китайскую грамоту».
И, пожалуй, основная проблема кроется в том, что в имеющейся ОС по дефолту отсутствует поддержка кириллических символов. На практике это может значить, что вы инсталлировали английский дистрибутив с установленным поверх него расширенным пакетом русификации. Однако последний не смог решить проблему корректно.
Первое, что пытаются делать пользователи в такой ситуации – переустановка операционки с чистого листа. Однако не все согласятся на такое, ведь кто-то, возможно, намеренно хочет работать с англоязычной средой. И в этой среде кириллические символы по идее могут и должны отображаться корректно.
Виды кодировок текста
А их, в общем-то, хватает.
ASCII
Одной из самых “древних” считается американская кодировочная таблица (ASCII, читается как “аски”), принятая национальным институтом стандартов. Для кодировки она использовала 7 битов, в первых 128 значениях размещался английский алфавит (в нижнем и верхнем регистрах), а также знаки, цифры и символы. Она больше подходила для англоязычных пользователей и не была универсальной.
Кириллица
Отечественный вариант кодировки, для которого стали использовать вторую часть кодовой таблицы – символы с 129 по 256. Заточена под русскоязычную аудиторию.
Кодировки семейства MS Windows: Windows 1250-1258.
8-битные кодировки, появились как следствие разработки самой популярной операционной системы, Windows. Номера с 1250 по 1258 указывают на язык, под который они заточены, например, 1250 – для языков центральной Европы; 1251 – кириллический алфавит.
Код обмена информацией 8 бит – КОИ8
KOI8-R, KOI8-U, KOI-7 – стандарт для русской кириллицы в юникс-подобных операционных системах.
Юникод (Unicode)
Универсальный стандарт кодирования символов, позволяющий описать знаки практически всех письменных языков. Обозначение “U+xxxx” (хххх – 16-ричные цифры). Самые распространенные семейства кодировок UTF (Unicode Transformation Format): UTF-8, 16, 32.
В настоящее время, как говорится, “рулит” UTF-8 – именно она обеспечивают наилучшую совместимость со старыми ОС, которые использовали 8-битные символы. В UTF-8 кодировке находятся большинство сайтов в сети Интернет и именно этот стандарт является универсальным (поддержка кириллицы и латиницы).
Разумеется, я привел не все виды кодировок, а только наиболее ходовые. Если же Вы хотите для общего развития знать их все, то полный список можно отыскать в самом браузере. Для этого достаточно пройти в нем на вкладку “Вид-Кодировка-Выбрать список” и ознакомиться со всевозможными их вариантами (см. изображение).
Думаю возник резонный вопрос: “Какого лешего столько кодировок?”. Их изобилие и причины возникновения можно сравнить с таким явлением, как кроссбраузерность/кроссплатформенность. Это когда один и тот же сайт сайт отображается по-разному в различных интернет-обозревателях и на различных гаджет-устройствах. Кстати у сайта «Заметки Сис.Админа» с этим, как Вы заметили всё в порядке :).
Все эти кодировки – рабочие варианты, созданные разработчиками “под себя” и решение своих задач. Когда же их количество перевалило за все разумные пределы, а в поисковиках стали плодиться запросы типа: “Как убрать кракозябры в браузере?” — разработчики стали ломать голову над приведением всей этой каши к единому стандарту, чтобы, так сказать, всем было хорошо. И кодировка Unicode, в общем-то, это “хорошо” и сделала. Теперь если такие проблемы и возникают, то они носят локальный характер, и не знают как их исправить только совсем непросвещенные пользователи (впрочем, часто беда с кодировкой и отображением сайтов появляется из-за того, что веб-мастер указал на стороне сервера некорректный формат, и приходится переключать кодировку в браузере).
Ну вот, собственно, пока вся «базово необходимая» теория, которая позволит Вам “не плавать” в кодировочных вопросах, теперь переходим к практической части статьи.
Используем системные настройки для решения проблемы
Прежде всего, попробуем исправить ошибку через панель управления. Чтобы зайти в неё нажимаем ПКМ по кнопке-меню «Пуск» и в выпавшем списке выбираем соответствующий пункт.
В открывшемся новом окне находим раздел Часы, язык, регион.
В новом разделе выбираем категорию региональных стандартов.
Здесь мы сможем настроить вариант даты и времени, а также числовой разделитель, количество дробных значений, формат отрицательных чисел, систему единиц измерения и пр.
Также здесь нам предлагается изменить формат денежных единиц и обозначение таковых. Здесь же мы можем настроить локальные параметры для разных регионов, включая отображаемые в системе текстовые символы. Именно эти опции нас и интересуют. Для их выбора переходим ко вкладке «Дополнительно» в верхней части окна.
Переходим в раздел выбора языка, не поддерживающего Юникод, и далее выбираем опцию изменение языка системы.
В списке выбираем нужный вариант (в нашем случае «Русский (Россия)» и нажимаем «ОК»)
В появившемся окне уведомлений выбираем «Перезагрузить сейчас».
ПК уйдёт в перезагрузку, после чего проблема с кракозябрами должна исчезнуть. Однако не всегда этот способ срабатывает. Если он не помог решить проблему, рассмотрим ещё один вариант, в котором нам придётся поработать с реестром.
Notepad +++
Самый простой способ открыть документ Блокнот, где вместо букв квадратики – применить сторонний софт. Популярен Notepad+++. Это тот же Блокнот, но обладающий дополнительными функциями. Имеет следующие преимущества:
Распространяется бесплатно;
Как и Ворд, имеет кнопку отмены последнего действия;
Поддерживает одновременную работу с несколькими файлами;
Позволяет изменить или выбрать шифрование.
Автоматически дописывает тексты;
Поддерживает плагины.
Facebook
LiveJournal
Blogger
Чтобы иероглифы вместо русских букв преобразовались, откройте документ Блокнота в данной программе. В ленте меню сверху найдите вкладку Кодировки. Нажмите на нее. Откроется меню с перечислением всех их типов. Не всегда очевидно, какой именно тип шифрования применялся, потому, чтобы выбрать правильный для перекодировки, нужно попробовать несколько. Текст пред этим выделите.
По мере применения кодировок, символы в документе могут меняться (по одному нажатию в меню) или оставаться неизменными. В результате, после применения определенной, текст станет читаемым.
Facebook
LiveJournal
Blogger
Редактируем страницу кода вручную
Страницы кода отвечают за сопоставление символов с байтами. Таких таблиц бывает много, и каждая из них работает с различными языками. Зачастую кракозябры появляются при неправильном выборе страницы и её сопоставлении. Чтобы исправить это, нам предстоит поработать с реестром. Для этого:
Win+R запускаем системную службу «Выполнить». Прописываем в единственной строке regedit и жмём Ок.
В окне реестра нам нужно перейти по следующему пути: HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Nls
Здесь выбираем папку CodePage и в правой части окна идём вниз, чтобы найти пункт ACP.
Дважды кликаем ЛКМ по ACP, и перед нами открывается окно изменений строковых настроек. Здесь выставляем значение 1251. Если такое значение уже установлено для этого пункта, тогда нужно сделать по-другому.
Находясь в том же разделе CodePage, в правой части окна ищем пункт 1252. Жмём по нему дважды ЛКМ и в появившемся окне меняем текущее значение 1252 на 1251.
После произведённых манипуляций отправляем компьютер в перезагрузку, чтобы применённые изменения вступили в силу.
Post Views: 50
Использование реестра, если метод выше не помог
Создадим в текстовом редакторе обычный файлик, но дадим ему расширение .reg, дабы впоследствии можно было применить все настройки, хранящиеся в нем. Итак, какое же содержимое reg-файла должно быть?
Что такое FPS в играх
Наберем в него ручками или скопируем через буфер обмена следующие значения:
Windows Registry Editor Version 5.00
[HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows NT\CurrentVersion\FontMapper] «ARIAL»=dword:00000000
[HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows NT\CurrentVersion\FontSubstitutes] «Arial,0″=»Arial,204» «Comic Sans MS,0″=»Comic Sans MS,204» «Courier,0″=»Courier New,204» «Courier,204″=»Courier New,204» «MS Sans Serif,0″=»MS Sans Serif,204» «Tahoma,0″=»Tahoma,204» «Times New Roman,0″=»Times New Roman,204» «Verdana,0″=»Verdana,204»
Когда все указанные строки окажутся в reg-файле, запустим его, согласимся с внесением изменений в систему, после чего выполним перезагрузку ПК и смотрим на результаты. Кракозябры должны исчезнуть.
Важное замечание: перед внесением изменений в реестр лучше создать резервную копию (другими словами, бэкап) реестра, дабы вносимые впоследствии изменения не повлекли за собой крах операционки, и ее не пришлось переустанавливать с нуля. Тем не менее, если вы уверены, что эти действия безопасны для вашей ОС, можете этот пункт упустить.
Мета тег charset
Если вы сделали то, что я описывал в предыдущем шаге и ваша проблема не разрешилась, тогда самое время испробовать второй метод устранения кракозябров.
Всё, что нам требуется, это вставить следующий код между тегами
сайта. Прежде всего проверьте, возможно этот метатег у вас уже присутствует. Если да, то посмотрите какое у него стоит значение параметра charset.
<meta charset=»UTF-8″ />
В темах WordPress обычно этот тег уже имеется по умолчанию и выглядит следующим образом:
Исправление отображения кириллицы с помощью настроек языка и региональных стандартов Windows 10
Самый простой и чаще всего работающий способ убрать кракозябры и вернуть русские буквы в Windows 10 — исправить некоторые неправильные настройки в параметрах системы.
Для этого потребуется выполнить следующие шаги (примечание: привожу также названия нужных пунктов на английском, так как иногда необходимость исправить кириллицу возникает в англоязычных версиях системы без нужды менять язык интерфейса).
Откройте панель управления (для этого можно начать набирать «Панель управления» или «Control Panel» в поиске на панели задач.
Убедитесь, что в поле «Просмотр» (View by) установлено «Значки» (Icons) и выберите пункт «Региональные стандарты» (Region).
На вкладке «Дополнительно» (Administrative) в разделе «Язык программ, не поддерживающих Юникод» (Language for non-Unicode programs) нажмите по кнопке «Изменить язык системы» (Change system locale).
Выберите русский язык, нажмите «Ок» и подтвердите перезагрузку компьютера.
URL-кодирование «кириллицы» — кодирование и декодирование URL
Познакомьтесь с декодированием и кодированием URL, простым онлайн-инструментом, который делает именно то, о чем говорит: декодирует URL-кодирование, а также быстро и легко кодирует его. URL-кодируйте свои данные без проблем или декодируйте их в удобочитаемый формат.
URL-кодирование, также известное как «процентное кодирование», представляет собой механизм кодирования информации в универсальном идентификаторе ресурса (URI). Хотя это известно как URL-кодирование, на самом деле оно более широко используется в основном наборе унифицированных идентификаторов ресурсов (URI), который включает в себя как унифицированный указатель ресурса (URL), так и унифицированное имя ресурса (URN). Как таковой, он также используется при подготовке данных медиа-типа «application/x-www-form-urlencoded», который часто используется при отправке данных формы HTML в HTTP-запросах.
Дополнительные параметры
Набор символов: Наш веб-сайт использует набор символов UTF-8, поэтому ваши входные данные передаются в этом формате. Измените этот параметр, если вы хотите преобразовать данные в другой набор символов перед кодированием. Обратите внимание, что в случае текстовых данных схема кодирования не содержит набора символов, поэтому вам может потребоваться указать соответствующий набор в процессе декодирования. Что касается файлов, то по умолчанию используется двоичный вариант, который исключает любое преобразование; эта опция необходима для всего, кроме обычных текстовых документов.
Разделитель новой строки: В системах Unix и Windows используются разные символы разрыва строки, поэтому перед кодированием любой вариант будет заменен в ваших данных выбранным параметром. Для раздела файлов это частично не имеет значения, так как файлы уже содержат соответствующие разделители, но вы можете определить, какой из них использовать для функций «кодировать каждую строку отдельно» и «разбить строки на куски».
Каждую строку кодировать отдельно: Даже символы новой строки преобразуются в их процентно-кодированные формы. Используйте эту опцию, если вы хотите закодировать несколько независимых записей данных, разделенных разрывами строк. (*)
Разделить строки на части: Закодированные данные станут непрерывным текстом без пробелов, поэтому отметьте эту опцию, если хотите разбить их на несколько строк. Применяемое ограничение на количество символов определено в спецификации MIME (RFC 2045), в которой указано, что длина закодированных строк не должна превышать 76 символов. (*)
Режим реального времени: Когда вы включаете эту опцию, введенные данные немедленно кодируются встроенными функциями JavaScript вашего браузера, без отправки какой-либо информации на наши серверы. В настоящее время этот режим поддерживает только набор символов UTF-8.
(*) Эти параметры не могут быть включены одновременно, так как результирующий вывод не будет действителен для большинства приложений.
Надежно и надежно
Вся связь с нашими серверами осуществляется через защищенные зашифрованные соединения SSL (https). Мы удаляем загруженные файлы с наших серверов сразу после обработки, а полученный загружаемый файл удаляется сразу после первой попытки загрузки или 15 минут бездействия (в зависимости от того, что короче). Мы никоим образом не храним и не проверяем содержимое отправленных данных или загруженных файлов. Ознакомьтесь с нашей политикой конфиденциальности ниже для получения более подробной информации.
Совершенно бесплатно
Наш инструмент можно использовать бесплатно. Отныне вам не нужно скачивать какое-либо программное обеспечение для таких простых задач.
Подробная информация о кодировке URL
Типы символов URI
Символы, разрешенные в URI, являются зарезервированными или незарезервированными (или символ процента как часть процентного кодирования). Зарезервированные символы — это символы, которые иногда имеют особое значение. Например, символы косой черты используются для разделения разных частей URL-адреса (или, в более общем смысле, URI). Незарезервированные символы не имеют такого специального значения. Используя процентное кодирование, зарезервированные символы представляются с помощью специальных последовательностей символов. Наборы зарезервированных и незарезервированных символов, а также обстоятельства, при которых определенные зарезервированные символы имеют специальное значение, немного меняются с каждой новой редакцией спецификаций, регулирующих URI и схемы URI.

Другие символы в URI должны быть закодированы в процентах.
Зарезервированные символы с процентным кодированием
Когда символ из зарезервированного набора («зарезервированный символ») имеет особое значение («зарезервированное назначение») в определенном контексте, и схема URI говорит, что необходимо использовать этот символ для какой-либо другой цели, то символ должен быть закодирован в процентах. Процентное кодирование зарезервированного символа означает преобразование символа в соответствующее ему байтовое значение в ASCII, а затем представление этого значения в виде пары шестнадцатеричных цифр. Цифры, которым предшествует знак процента («%»), затем используются в URI вместо зарезервированного символа. (Для символа, отличного от ASCII, он обычно преобразуется в последовательность байтов в UTF-8, а затем каждое значение байта представляется, как указано выше.)
Зарезервированный символ «/», например, если он используется в компоненте «путь» URI, имеет особое значение, поскольку он является разделителем между сегментами пути. Если в соответствии с заданной схемой URI в сегменте пути должен быть символ «/», то в сегменте должны использоваться три символа «%2F» (или «%2f») вместо «/».

Зарезервированные символы, которые не имеют зарезервированного назначения в конкретном контексте, также могут быть закодированы в процентах, но семантически не отличаются от других символов.
В компоненте «запрос» URI (часть после символа «?»), например, «/» по-прежнему считается зарезервированным символом, но обычно не имеет зарезервированного назначения (если не указано иное в конкретной схеме URI). Символ не нужно кодировать в процентах, если он не имеет зарезервированного назначения.
URI, отличающиеся только тем, является ли зарезервированный символ процентным кодированием или нет, обычно считаются неэквивалентными (обозначающими один и тот же ресурс), за исключением случаев, когда рассматриваемые зарезервированные символы не имеют зарезервированного назначения. Это определение зависит от правил, установленных для зарезервированных символов отдельными схемами URI.
Незарезервированные символы с процентным кодированием
Символы из незарезервированного набора никогда не нуждаются в процентном кодировании.
URI, отличающиеся только тем, является ли незарезервированный символ процентным кодированием или нет, эквивалентны по определению, но на практике процессоры URI не всегда могут обрабатывать их одинаково. Например, потребители URI не должны рассматривать «%41» иначе, чем «A» («%41» — это процентное кодирование «A») или «%7E» иначе, чем «~», но некоторые это делают. Поэтому для обеспечения максимальной совместимости производителям URI не рекомендуется использовать процентное кодирование незарезервированных символов.
Процентное кодирование символа процента
Поскольку символ процента («%») служит индикатором октетов, закодированных в процентах, он должен быть закодирован в процентах как «%25», чтобы этот октет можно было использовать в качестве данных в URI.
Произвольные данные с процентным кодированием
Большинство схем URI включают представление произвольных данных, таких как IP-адрес или путь к файловой системе, в виде компонентов URI. Спецификации схемы URI должны, но часто не обеспечивают явное сопоставление между символами URI и всеми возможными значениями данных, представленными этими символами.
Двоичные данные
После публикации RFC 1738 в 1994 г. было указано, что схемы, обеспечивающие представление двоичных данных в URI, должны делить данные на 8-битные байты и кодировать каждый байт в процентах в так же, как указано выше. Значение байта 0F (шестнадцатеричное), например, должно быть представлено как «%0F», но значение байта 41 (шестнадцатеричное) может быть представлено как «A» или «%41». Использование незакодированных символов для буквенно-цифровых и других незарезервированных символов обычно предпочтительнее, поскольку это приводит к более коротким URL-адресам.
Символьные данные
Процедура процентного кодирования двоичных данных часто экстраполируется, иногда неуместно или без полного уточнения, для применения к символьным данным. В годы становления World Wide Web при работе с символами данных в репертуаре ASCII и использовании соответствующих им байтов в ASCII в качестве основы для определения последовательностей с процентным кодированием эта практика была относительно безвредной; многие люди предполагали, что символы и байты сопоставляются один к одному и взаимозаменяемы. Однако потребность в представлении символов за пределами диапазона ASCII быстро росла, и схемы и протоколы URI часто не могли обеспечить стандартные правила подготовки символьных данных для включения в URI. Следовательно, веб-приложения начали использовать различные многобайтовые кодировки, кодировки с отслеживанием состояния и другие кодировки, несовместимые с ASCII, в качестве основы для процентного кодирования, что привело к неоднозначности, а также к трудностям с надежной интерпретацией URI.
Например, многие схемы и протоколы URI, основанные на RFC 1738 и 2396, предполагают, что символы данных будут преобразованы в байты в соответствии с некоторой неуказанной кодировкой символов, прежде чем они будут представлены в URI незарезервированными символами или процентно закодированными байтами. Если схема не позволяет URI предоставить подсказку о том, какая кодировка использовалась, или если кодировка конфликтует с использованием ASCII для процентного кодирования зарезервированных и незарезервированных символов, то URI нельзя надежно интерпретировать. Некоторые схемы вообще не учитывают кодировку и вместо этого просто предполагают, что символы данных сопоставляются непосредственно с символами URI, что оставляет на усмотрение отдельных пользователей решать, следует ли кодировать в процентах символы данных, которые не входят ни в зарезервированные, ни в незарезервированные наборы.

Произвольные символьные данные иногда кодируются в процентах и используются в ситуациях, отличных от URI, например, в программах запутывания паролей или других системных протоколах перевода.
Буква кириллицы в URL — Кодировка | SEO Форум
Ваш браузер не поддерживает JavaScript. В результате ваши впечатления от просмотра будут уменьшены, и вы будете переведены в режим только для чтения .
Загрузите браузер, поддерживающий JavaScript, или включите его, если он отключен (например, NoScript).
org/BreadcrumbList»>
Дом
SEO-тактика
Техническое SEO
Буква кириллицы в URL — Кодировка
Эта тема была удалена. Его могут видеть только пользователи с правами управления вопросами.
Привет всем
Мы запускаем наш сайт в России.
Насколько я вижу по поиску в гугле, все сайты имеют адреса латинскими буквами.
Есть ли для этого особая причина? — Вроде и кириллица тоже работает.
Мой технический персонал говорит, что это может привести к некоторым проблемам с кодировкой.
Может ли кто-нибудь дать мне некоторое представление об этом?
Заранее спасибо..
/ Кеннет
Привет,
У меня точно такая же проблема, как описано выше. Что-то изменилось с 2012 года? Каково эмпирическое правило, когда речь идет о русских URL-адресах, лучше ли оставить кириллицу или преобразовать их в латиницу?
Я заметил, что URL-адреса на кириллице ломаются при их копировании и вставке, а сканеры Moz определяют их как слишком длинные. А как насчет поисковых роботов Google, видят ли они это по-другому?
Спасибо,
Аня
org/Comment»>
Если вы ориентируетесь на русские запросы на Google.ru, и ваша целевая аудитория в основном вводит запросы с кириллическими символами, то кириллические URL-адреса должны подойти. Раньше поддержка нелатинских символов была плохой, но я думаю, что за последние пару лет ситуация сильно изменилась.
Вот соответствующая ветка поддержки Google, в которую вмешивается Джон Му:
http://www.google.com.ag/support/forum/p/Webmasters/thread?tid=489ece0479e0d33d&hl=en
Технически Google может сканировать /индексировать эти страницы. Например, русская версия Википедии, кажется, использует кириллические URL-адреса:
http://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D0%BC%D0%BF%D1%8C% D1%8E%D1%82%D0%B5%D1%80
(к сожалению, этот URL-адрес ломается, когда я вырезаю/вставляю)
Большой вопрос для меня будет заключаться в том, привыкли ли поисковики использовать латинские символы в поиске, и привлекают ли эти поиски больше объема, чем кириллица. К сожалению, у нас здесь нет русскоязычных сотрудников, поэтому я не могу прокомментировать это. Я немного говорю по-китайски, и на этом рынке я тоже видел смесь. В некоторых URL-адресах используются упрощенные символы, а в некоторых — пиньинь (латинизированная версия). Технически любой из них должен работать, но все еще есть некоторые устаревшие эффекты времен, когда поддерживались только латинские символы.
У вас есть животрепещущий вопрос по SEO?
Подпишитесь на Moz Pro, чтобы получить полный доступ к вопросам и ответам, отвечать на вопросы и задавать свои.
Начать бесплатную пробную версию

Есть вопрос?
Просмотр вопросов
Посмотреть Все вопросыНовые (нет ответов)ОбсуждениеОтветыПоддержка продуктаБез ответа
От Все времяПоследние 30 днейПоследние 7 днейПоследние 24 часа
Сортировка по Последние вопросыНедавняя активностьБольше всего лайковБольшинство ответовМеньше всего ответовСамые старые вопросы
С категорией All CategoriesAffiliate MarketingAlgorithm UpdatesAPIBrandingCommunityCompetitive ResearchContent DevelopmentConversion Rate OptimizationDigital MarketingFeature RequestsGetting StartedImage & Video OptimizationIndustry EventsIndustry NewsIntermediate & Advanced SEOInternational SEOJobs and OpportunitiesKeyword ExplorerKeyword ResearchLink BuildingLink ExplorerLocal ListingsLocal SEOLocal Website OptimizationMoz BarMoz LocalMoz NewsMoz ProMoz ToolsOn-Page OptimizationOther SEO ToolsPaid Search MarketingProduct SupportReporting & AnalyticsResearch & TrendsReviews and RatingsSearch BehaviorSEO ТактикаТренды поисковой выдачиСоциальные сетиТехническое SEOВеб-дизайнБелое/черное SEO
Связанные вопросы
schema.org/ItemList» data-nextstart=»» data-set=»»>
Сайт собрал более 400 000 URL-адресов
Наш бизнес сильно зависит от SEO-трафика из поиска с длинным хвостом. У нас есть более 400 000 единиц контента, каждый из которых мы обнаружили и опубликовали на другом сайте, расположенном за пределами Гонконга (мы находимся в США). У Google есть процесс удаления DMCA, но это было бы слишком утомительно для такого большого набора URL-адресов. Собранный контент опережает нас во многих поисковых запросах, и мы заметили резкое снижение органического трафика, вероятно, из-за штрафа за дублирование контента. Кто-нибудь имел дело с такой проблемой? Кажется, я не могу найти много помощи в Интернете.
Техническое SEO | | Кибин
0
Новый сайт по новой ссылке?
У нас есть новый веб-сайт с новым URL-адресом (работает уже около 2 лет), и наш старый веб-сайт медленно исчезает в фоновом режиме, сейчас мы находимся в точке, где деньги все еще в порядке, но у нас есть проблемы с запуском. оба рядом, у нас есть калькулятор на каждой странице, и мы думаем об удалении этого и добавлении поля с заказом с нашего нового сайта здесь (с URL-адресом похожей страницы). Теперь проблема в том, что мы не хотим размещать ссылки в целях SEO, и Google забивает нас (думая о том, чтобы не следовать им), и у нас также есть штраф, который мы получили в 2012 году на сайте, но мы вышли из этого, может ли это вызвать какие-либо проблемы с новым сайтом?
Техническое SEO | | Боб Андерсон
1
org/ListItem»>
50 Дублирующиеся URL-адреса, но не одинаковые
Привет Согласно моему последнему сканированию сайта, многие из моих страниц показывают до 50 повторяющихся URL-адресов. Однако это не так в реальной жизни. http://www.fortusgroup.com.au/browse-products/rubber-tracks/excavator-rubber-tracks/hitachi/ex-33mu.html показывает 31 повторяющийся URL. Примеры включают: http://www.fortusgroup.com.au/browse-products/rubber-tracks/excavator-rubber-tracks/parts/x430.html
http://www.fortusgroup.com.au/browse-products/rubber-tracks/excavator-rubber-tracks/case/cx-75sr.html Очевидно, что эти URL-адреса очень похожи, и я знаю, что Moz оценивает URL-адреса на 90% по их сходству, но влияет ли это на мой фактический рейтинг в Google? Если да, что я могу сделать? Эти страницы также очень похожи по коду и содержанию, поэтому они также отображаются как дублированный контент и т. д. Беспокоюсь, что это повлияет на мой рейтинг в поисковой выдаче, так как эти страницы не очень хорошо ранжируются. Спасибо, Элли
Техническое SEO | | ДжейДадд
0
AJAX и большое количество проиндексированных URL-адресов
Недавно я занял должность SEO-специалиста для крупного сайта электронной коммерции. Каждый месяц или около того наша учетная запись инструментов для веб-мастеров получает предупреждение о большом количестве URL-адресов. В каждом сообщении, которое они отправляют, есть образец проблемных URL-адресов. 98% каждого образца не является фактическим URL-адресом на нашем сайте, а является URL-адресом запроса AJAX, который делают пользователи. Это запрос на стороне сервера, поэтому URL-адрес не меняется, когда пользователи ограничивают выбор таких элементов, как размер, цвет и т. д. Вот пример того, как выглядит один из них. Шина? 0-1.IBehaviorListener.0-border-border_body-VehicleFilter-VehicleSelectPanel-VehicleAttrsForm-Makes Из-за этого у нас более 3 миллионов проиндексированных URL-адресов по данным Google. Мы не отправляем эти URL-адреса в наши карты сайта, Google Bot делает множество выборок AJAX в соответствии с данными нашего сервера. Я использовал инструмент обработки параметров URL-адресов, чтобы нацелить некоторые из тех параметров, которые в настоящее время установлены, чтобы разрешить Google решать, и установить для него значение «без URL-адресов» с этими параметрами для индексации. Мне все еще нужно больше времени, чтобы увидеть, насколько это будет эффективно, но, похоже, это замедлило количество индексируемых URL-адресов. Другие примечания: 1. Общий трафик на сайт был стабильным и даже увеличивался. 2. Согласно нашей статистике сканирования, робот Google сканирует в среднем 241 000 URL-адресов каждый день. Мы являемся крупным сайтом электронной коммерции, который продает запчасти, аксессуары и одежду для индустрии силовых видов спорта. 3. Мы используем фреймворк Wicket для нашего веб-сайта. Спасибо за ваше время.
Техническое SEO | | РМАТВМК
0
Единственное и множественное число в URL-адресах
При исследовании ключевых слов для сайта электронной коммерции я обнаружил, что виджет в единственном числе получает гораздо больше запросов, чем виджеты во множественном числе И гораздо менее конкурентоспособен. Для целей SEO лучше иметь URL-адреса (и соответствующие теги заголовков) в каталоге как /brass-widget. html, /steel-widget.html и т. д. или /brass-widgets.html и т. д.? Меня беспокоит, что а) поиск виджетов будет проходить по URL-адресам в единственном числе, а не наоборот, и б) форма единственного числа будет казаться посетителям плохой грамматикой. Любой совет?
Техническое SEO | | Американские магазины
0
Вопрос о структуре URL
Привет, ребята! У меня странная проблема, и в настоящее время я не знаю, как ее исправить. У нас есть много страниц, отображаемых как дубликаты, хотя это одна и та же страница, единственная разница заключается в структуре URL. Они появляются, как: http://www.example.com/page/ и http://www.example.com/page Что мне нужно сделать, чтобы заставить URL-адреса быть в том или ином формате, чтобы эта одна страница не считалась двумя? Та же проблема возникает с верхним и нижним регистром: http://www.example.com/Page и http://www.example.com/page Есть ли какое-либо решение для этого или мне нужно будет перенаправить их с помощью 301 или аналогичного? Спасибо, Майк
Техническое SEO | | Маларовский
0
Динамические URL-адреса с помощью уточнений
Как лучше всего обрабатывать большие страницы продуктов с множеством различных возможностей уточнения. Бывший. жесткий диск – 40 ГБ – черный корпус и т. д. Все эти уточнения увеличивают длину URL-адреса и могут создавать проблемы при сканировании, поскольку URL-адрес является динамическим. Я видел, как люди канонически вносили все доработки и страницы в главную кошачью страницу, я видел, как другие не следовали определенным доработкам. Также в отчете о сканировании SEOmoz говорится, что более двух параметров — это плохо. Каков наилучший способ справиться с этим? Спасибо
Техническое SEO | | гордиев
0
Строка запроса в URL — повторяющийся контент?
Привет всем, я был бы признателен за некоторые советы по следующему. У меня есть страница с хорошим контентом, но она также имеет функцию поиска. При запуске поиска запускается запрос. Так что я получу что-то вроде mypage.php?id=20 и т. д. Будет ли каждая строка запроса восприниматься как отдельная страница при наличии множества различных потенциальных URL-адресов? Если это так, я не хочу дублировать контент. Так что лучше всего помещать канонические теги в теги заголовка на mypage.php? чтобы Google не увидел потенциально дублированный контент. Большое спасибо за все ваши советы.
Техническое SEO | | полв направлении
0
draft-winitzki-koi8c-encoding-00
[Поиск] [txt|pdfized|bibtex] [Отслеживание] [Электронная почта] [Nits] Версии: 00
Internet Draft Serge Winitzki черновик-winitzki-koi8c-encoding-00.txt Истекает: апрель 2002 г. Расширенный набор символов кириллицы КОИ8-С Статус этого меморандума Этот меморандум является Интернет-проектом и подлежит всем положениям Раздела 10 RFC2026. Интернет-черновики – это рабочие документы Интернета. Инженерная рабочая группа (IETF), ее области и ее работа группы. Обратите внимание, что другие группы также могут распространять рабочие документы в виде Internet-Drafts. Интернет-черновики — это проекты документов, действительные не более шести месяцев и могут быть обновлены, заменены или устаревшими другими документы в любое время. Нецелесообразно использовать Internet-Drafts в качестве справочного материала или цитировать их, кроме как «работа в процессе». Список текущих интернет-драфтов можно найти по адресу http://www.ietf.org/ietf/1id-abstracts.txt Список Доступ к теневым каталогам Internet-Draft можно получить по адресу http://www.ietf.org/shadow.html. Автор Серж Виницки Абстрактный Этот документ содержит информацию о кодировке символов KOI8-C (кириллица KOI8) предлагается для использования с русским языком (включая старая орфография), украинский, белорусский, сербский, македонский языки со специальными знаками препинания. KOI8-C совместим с КОИ8-Р [1] и КОИ8-У [2] в области русского, украинского и белорусские буквы, и дополняет их буквами для старых Русская орфография, югославская кириллица и типографские символы в позициях, совместимых с CP1251 для использования в устаревших приложениях. Предлагаемое имя набора символов MIME: koi8-c Введение Этот документ содержит информацию о предлагаемом новом персонаже кодирование KOI8-C, расширение стандартов KOI8-R и KOI8-U. Это расширение обеспечивает поддержку всех русских букв (в том числе нужных для древнерусской орфографии), а также Кириллические буквы, используемые в белорусском, македонском, сербском и украинские языки и некоторые часто используемые типографские символы, заимствованные из кодировки CP1251. Кодировка KOI8-C совместим с существующими кодировками KOI8-RU и CP1251 в соответствующие символы. Мотивация Семейство кодировок KOI8 уже давно используется для электронных обмен кириллическими текстами [1,2]. Следующие соображения побудили автора предложить расширение KOI8. 1) Большая часть таблицы кодирования KOI8 (большая часть 0x80-0xBF диапазон) по историческим причинам занят символами псевдографика, которая не используется в современном программном обеспечении. Эти символы отсутствуют в большинстве реализаций шрифтов KOI8 без каких-либо последствий на производительность пользователей. Эти места в таблице кодирования могут быть используется для представления более часто используемых символов. 2) Недавнее доминирование операционной среды «MS Windows». привело к широкому распространению текстовых процессоров, использующих «код page 1251" для отображения кириллицы. Многие интернет-документы таким образом преобразуются в KOI8 из CP1251 и часто включают некоторые типографские знаки, такие как апострофы, кавычки или тире, не представленные в кодировках KOI8, но оставленные без меняются автоматическими преобразователями. Эти типографские символы падают в неиспользуемой области псевдографики KOI8. 3) Тексты в древнерусской орфографии (до 1918) содержат четыре Кириллические буквы не представлены ни одним из широко используемых Кириллические кодировки. Хотя инструменты на основе Unicode быть адекватным для рендеринга этих символов, текущая программное обеспечение в большинстве случаев не имеет необходимой поддержки. Это было бы удобно иметь 8-битную кодировку, представляющую старую русскую символов и иметь возможность размещать их непосредственно в шрифте карта кодирования и раскладка клавиатуры, совместимая с широким диапазоном текущего программного обеспечения. Реализация Автор реализовал кодировку KOI8-C согласно этим рекомендации: (1) совместимость с символами KOI8-R и KOI8-U наборы, (2) совместимость с набором символов CP1251 в области типографские символы и югославская кириллица; (3) нужно быть умеет конвертировать шрифты в другие кириллические кодировки. Нижняя часть набора символов KOI8-C является полной копией ASCII в диапазоне печатных символов (0x20 -- 0x7F). диапазон (0x00 -- 0x1F) занят псевдографикой и другими редко используемые специальные символы. Верхняя часть набора символов KOI8-C содержит все русские, Белорусские и украинские буквы на позициях, определенных в KOI8-R и КОИ8-У; часто используемые типографские символы (кавычки, тире и символы валюты) и югославская кириллица как определяется кодировкой CP1251; и старыми русскими буквами. Большая коробка рисование символов из КОИ8-Р, а также некоторые математические символы, были удалены. Результирующий набор символов содержит все символы ISO 8859.-5 символов кроме МЯГКОГО ДЕФИСА и охватывает CP1251 кроме 5 знаков препинания символов (все также в CP1252). Веб-страница содержит разработки автора, связанные с KOI8-C кодировка и тексты в древнерусской орфографии. Бесплатное растровое изображение адаптированы шрифты семейства Cronyx для системы X Window к кодировке KOI8-C, реализуя полную карту KOI8-C (256 символов) во всех шрифтах (проект "xcyr"). Расширение раскладка клавиатуры, содержащая старые русские буквы, была предложенный. Словарь проверки орфографии для древнерусского языка была разработана орфография с использованием кодировки KOI8-C. Отношение к другим усилиям Эта кодировка была разработана как модификация [1,2]. Ан независимый проект разработки шрифтов "CYR-RFX" использует альтернативная кодировка "КОИ8-О" с аналогичными целями совместимость с KOI8-R и CP1251, но не содержит Югославские кириллические символы. Спецификация кодовой страницы KOI8-C Описание всех символов верхней половины KOI8-C кодовая страница указана в соответствии с набором символов Unicode ISO 10646. (УКС). # 0x01 U25C6 # ЧЕРНЫЙ АЛМАЗ 0x02 U2592 # СРЕДНИЙ ОТТЕНОК 0x03 U00D7 # ЗНАК УМНОЖЕНИЯ 0x04 U00F7 # ЗНАК РАЗДЕЛЕНИЯ 0x05 U2030 # ПРОМЫШЛЕННЫЙ ЗНАК 0x06 U2248 # ПОЧТИ РАВНО 0x07 U00B5 # ЗНАК МИКРО 0x08 U00B1 # ЗНАК ПЛЮС-МИНУС 0x09 U00B6 # ЗНАК НАШИВКИ 0x0A U2021 # ДВОЙНОЙ КИНЖАЛ 0x0B U2518 # ЧЕРТЕЖИ В КОРОБКЕ ЗАЖИГАЮТСЯ ВВЕРХ И ВЛЕВО 0x0C U2510 # ЧЕРТЕЖИ КОРОБКИ ПОДСВЕТКА ВНИЗ И ВЛЕВО 0x0D U250C # ЧЕРТЕЖИ В КОРОБКЕ ПОДСВЕТКА ВНИЗ И ВПРАВО 0x0E U2514 # ЧЕРТЕЖИ ЗАЖИГАЮТСЯ ВВЕРХ И СПРАВА 0x0F U253C # ЧЕРТЕЖИ КОРОБКИ ОСВЕЩЕНИЕ ВЕРТИКАЛЬНО И ГОРИЗОНТАЛЬНО 0x10 UFFFD # ЗАМЕНЯЮЩИЙ СИМВОЛ 0x11 UFFFD # ЗАМЕНЯЮЩИЙ СИМВОЛ 0x12 U2500 # ЧЕРТЕЖИ СВЕТ ГОРИЗОНТАЛЬНЫЙ 0x13 UFFFD # ЗАМЕНЯЮЩИЙ СИМВОЛ 0x14 UFFFD # СИМВОЛ ЗАМЕНЫ 0x15 U251C # ЧЕРТЕЖИ КОРОБКИ ПОДСВЕТКА ВЕРТИКАЛЬНАЯ И ПРАВАЯ 0x16 U2524 # ЧЕРТЕЖИ КОРОБКИ ПОДСВЕТКА ВЕРТИКАЛЬНАЯ И СЛЕВА 0x17 U2534 # ЧЕРТЕЖИ КОРОБКИ ЗАСВЕТЯТСЯ И ГОРИЗОНТАЛЬНО 0x18 U252C # ЧЕРТЕЖИ В КОРОБКЕ СВЕТ ВНИЗ И ГОРИЗОНТАЛЬНО 0x19U2502 # ЧЕРТЕЖИ В КОРОБКЕ СВЕТ ВЕРТИКАЛЬНЫЙ 0x1A U2264 # МЕНЬШЕ ИЛИ РАВНО 0x1B U2265 # БОЛЬШЕ ИЛИ РАВНО 0x1C U03C0 # СТРОЧНАЯ ГРЕЧЕСКАЯ БУКВА ПИ 0x1D U2260 # НЕ РАВНО 0x1E U00A4 # ЗНАК ВАЛЮТЫ 0x1F U00B2 # НАДПИСЬ ДВА 0x20 U0020 # ПРОБЕЛ 0x21 U0021 # ВОСКЛИЦАТЕЛЬНЫЙ ЗНАК 0x22 U0022 # КАвычки 0x23 U0023 # ЗНАК НОМЕРА 0x24 U0024 # ЗНАК ДОЛЛАРА 0x25 U0025 # ЗНАК ПРОЦЕНТА 0x26 U0026 # АМПЕРСАНД 0x27 U0027 # АПОСТРОФ 0x28 U0028 # ЛЕВАЯ СКОБКА 0x29U0029 # ПРАВАЯ СКОБКА 0x2A U002A # ЗВЕЗДОЧКА 0x2B U002B # ЗНАК ПЛЮС 0x2C U002C # ЗАПЯТАЯ 0x2D U002D # ДЕФИС-МИНУС 0x2E U002E # ПОЛНАЯ СТОП 0x2F U002F # СОЛИДУС 0x30 U0030 # ЦИФРА НОЛЬ 0x31 U0031 # ЦИФРА ОДИНА 0x32 U0032 # ВТОРАЯ ЦИФРА 0x33 U0033 # ЦИФРА ТРИ 0x34 U0034 # ЦИФРА ЧЕТЫРЕ 0x35 U0035 # ПЯТАЯ ЦИФРА 0x36 U0036 # ЦИФРА ШЕСТЬ 0x37 U0037 # СЕДЬМАЯ ЦИФРА 0x38 U0038 # ВОСЕМЬ ЦИФРА 0x39U0039 # ЦИФРА ДЕВЯТЬ 0x3A U003A # ТОЛСТАЯ 0x3B U003B # ТОЧКА С ЗАПЯТОЙ 0x3C U003C # ЗНАК МЕНЬШЕ 0x3D U003D # ЗНАК РАВНО 0x3E U003E # ЗНАК БОЛЬШЕ 0x3F U003F # ВОПРОСИТЕЛЬНЫЙ ЗНАК 0x40 U0040 # КОММЕРЧЕСКОЕ В 0x41 U0041 # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A 0x42 U0042 # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА B 0x43 U0043 # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА C 0x44 U0044 # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА D 0x45 U0045 # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА E 0x46 U0046 # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА F 0x47 U0047 # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА G 0x48 U0048 # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА H 0x49U0049 # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА I 0x4A U004A # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА J 0x4B U004B # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА K 0x4C U004C # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА L 0x4D U004D # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА M 0x4E U004E # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА N 0x4F U004F # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА O 0x50 U0050 # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА P 0x51 U0051 # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА Q 0x52 U0052 # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА R 0x53 U0053 # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА S 0x54 U0054 # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА T 0x55 U0055 # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА U 0x56 U0056 # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА V 0x57 U0057 # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА W 0x58 U0058 # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА X 0x59U0059 # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА Y 0x5A U005A # ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА Z 0x5B U005B # ЛЕВАЯ КВАДРАТНАЯ СКОБКА 0x5C U005C # ОБРАТНЫЙ СОЛИДУС 0x5D U005D # ПРАВАЯ КВАДРАТНАЯ СКОБКА 0x5E U005E # ЦИРКУМФЛЕКС АКЦЕНТ 0x5F U005F # НИЗКАЯ ЛИНИЯ 0x60 U0060 # МОГИЛЬНЫЙ АКЦЕНТ 0x61 U0061 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА A 0x62 U0062 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА B 0x63 U0063 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА C 0x64 U0064 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА D 0x65 U0065 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА E 0x66 U0066 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА F 0x67 U0067 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА G 0x68 U0068 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА H 0x69U0069 # ЛАТИНСКАЯ СТРОЧНАЯ БУКВА I 0x6A U006A # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА J 0x6B U006B # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА K 0x6C U006C # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА L 0x6D U006D # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА M 0x6E U006E # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА N 0x6F U006F # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА O 0x70 U0070 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА P 0x71 U0071 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА Q 0x72 U0072 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА R 0x73 U0073 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА S 0x74 U0074 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА T 0x75 U0075 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА U 0x76 U0076 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА V 0x77 U0077 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА W 0x78 U0078 # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА X 0x79U0079 # ЛАТИНСКАЯ СТРОЧНАЯ БУКВА Y 0x7A U007A # СТРОЧНАЯ ЛАТИНСКАЯ БУКВА Z 0x7B U007B # ЛЕВАЯ ФИГУРНАЯ СКОБКА 0x7C U007C # ВЕРТИКАЛЬНАЯ ЛИНИЯ 0x7D U007D # ПРАВАЯ ФИГУРНАЯ СКОБКА 0x7E U007E # ТИЛЬДА 0x7F U00AC # НЕ ЗНАК 0x80 U0402 # ЗАГЛАВНАЯ БУКВА DJE 0x81 U0403 # ЗАГЛАВНАЯ БУКВА GJE 0x82 U00B8 # СЕДИЛЬЯ 0x83 U0453 # СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА GJE 0x84 U201E # ДВОЙНАЯ МЛАДШАЯ-9 КАВАТЫ 0x85 U2026 # ГОРИЗОНТАЛЬНЫЙ ЭЛЛИПСИС 0x86 U2020 # КИНЖАЛ 0x87 U00A7 # ЗНАК СЕКЦИИ 0x88 U20AC # ЗНАК ЕВРО 0x89U00A8 # ДИЭРЕЗИС 0x8A U0409 # ЗАГЛАВНАЯ БУКВА LJE 0x8B U2039 # ОДИНОЧНЫЙ УГОЛ, УКАЗЫВАЮЩИЙ ВЛЕВО, КАВАТЫ 0x8C U040A # ЗАГЛАВНАЯ БУКВА NJE 0x8D U040C # ЗАГЛАВНАЯ БУКВА KJE 0x8E U040B # ЗАГЛАВНАЯ БУКВА ТШЕ 0x8F U040F # ЗАГЛАВНАЯ БУКВА ДЖЕ 0x90 U0452 # СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА DJE 0x91 U2018 # ЛЕВАЯ ОДИНАРНАЯ КАВАТЫ 0x92 U2019 # ПРАВАЯ ОДИНАРНАЯ КАВАТЫ 0x93 U201C # ЛЕВАЯ ДВОЙНАЯ КАВАТЫ 0x94 U201D # ПРАВАЯ ДВОЙНАЯ КАПОТА 0x95 U2022 # ПУЛЯ 0x96 U2013 # В ТИРЕ 0x97 U2014 # ЭМ ТИРЕ 0x98 U00A3 # ЗНАК ФУНТА 0x99 U00B7 # СРЕДНЯЯ ТОЧКА 0x9A U0459 # СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА LJE 0x9B U203A # ОДИНОЧНЫЙ УГОЛ НАПРАВЛЕНИЯ ВПРАВО КАВАТЫ 0x9C U045A # СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА NJE 0x9D U045C # СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА KJE 0x9E U045B # СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА ЦШЕ 0x9F U045F # СТРОЧНАЯ БУКВА ДЖЕ 0xA0 U00A0 # НЕРАЗРЫВНЫЙ ПРОБЕЛ 0xA1 U0475 # СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА ИЖИЦА 0xA2 U0463 # СТРОЧНАЯ БУКВА ЯТЬ 0xA3 U0451 # СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА IO 0xA4 U0454 # СТРОЧНАЯ КИРИЛЛИЧНАЯ УКРАИНСКАЯ БУКВА IE 0xA5 U0455 # СТРОЧНАЯ БУКВА ДЗЕ 0xA6 U0456 # СТРОЧНАЯ КИРИЛЛИЧНАЯ БЕЛОРУССКАЯ-УКРАИНСКАЯ БУКВА I 0xA7 U0457 # СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА ЙИ 0xA8 U0458 # СТРОЧНАЯ БУКВА JE 0xA9U00AE # ЗАРЕГИСТРИРОВАННЫЙ ЗНАК 0xAA U2122 # ЗНАК ТОРГОВОЙ МАРКИ 0xAB U00AB # НАПРАВЛЯЮЩАЯ ВЛЕВО ДВОЙНАЯ УГЛОВАЯ КАВАТЫ 0xAC U0473 # СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА ФИТА 0xAD U0491 # СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА GHE С ВВЕРХОМ 0xAE U045E # СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА КОРОТКАЯ U 0xAF U00B4 # ОСТРЫЙ АКЦЕНТ 0xB0 U00B0 # ЗНАК СТЕПЕНИ 0xB1 U0474 # ЗАГЛАВНАЯ БУКВА ИЖИЦА 0xB2 U0462 # ЗАГЛАВНАЯ БУКВА ЯТЬ 0xB3 U0401 # ЗАГЛАВНАЯ БУКВА IO 0xB4 U0404 # ЗАГЛАВНАЯ БУКВА УКРАИНСКИЙ IE 0xB5 U0405 # ЗАГЛАВНАЯ БУКВА ДЗЕ 0xB6 U0406 # ЗАГЛАВНАЯ БУКВА БЕЛОРУССКИЙ-УКРАИНСКИЙ I 0xB7 U0407 # ЗАГЛАВНАЯ БУКВА YI 0xB8 U0408 # ЗАГЛАВНАЯ БУКВА JE 0xB9U2116 # ЗНАК ЦИФРЫ 0xBA U00A2 # ЗНАК ЦЕНТА 0xBB U00BB # ДВУХУГОЛЬНАЯ КАВАЧКА, УКАЗЫВАЮЩАЯ ВПРАВО 0xBC U0472 # ЗАГЛАВНАЯ БУКВА ФИТА 0xBD U0490 # ЗАГЛАВНАЯ БУКВА GHE С ВВЕРХОМ 0xBE U040E # ЗАГЛАВНАЯ БУКВА КОРОТКАЯ U 0xBF U00A9 # ЗНАК АВТОРСКОГО ПРАВА 0xC0 U044E # СТРОЧНАЯ БУКВА Ю 0xC1 U0430 # СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА A 0xC2 U0431 # СТРОЧНАЯ БУКВА BE 0xC3 U0446 # СТРОЧНАЯ БУКВА ТСЕ 0xC4 U0434 # СТРОЧНАЯ БУКВА DE 0xC5 U0435 # СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА IE 0xC6 U0444 # СТРОЧНАЯ БУКВА EF 0xC7 U0433 # СТРОЧНАЯ БУКВА GHE 0xC8 U0445 # СТРОЧНАЯ БУКВА HA 0xC9U0438 # СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА I 0xCA U0439 # СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА КОРОТКАЯ I 0xCB U043A # СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА КА 0xCC U043B # СТРОЧНАЯ БУКВА EL 0xCD U043C # СТРОЧНАЯ БУКВА EM 0xCE U043D # СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА EN 0xCF U043E # СТРОЧНАЯ БУКВА O в кириллице 0xD0 U043F # СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА PE 0xD1 U044F # СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА Я 0xD2 U0440 # СТРОЧНАЯ БУКВА ER 0xD3 U0441 # СТРОЧНАЯ БУКВА ES 0xD4 U0442 # СТРОЧНАЯ БУКВА TE 0xD5 U0443 # СТРОЧНАЯ БУКВА U 0xD6 U0436 # СТРОЧНАЯ БУКВА ЖЕ 0xD7 U0432 # СТРОЧНАЯ БУКВА ВЕ 0xD8 U044C # МЯГКИЙ ЗНАК СТРОЧНОЙ БУКВЫ КИРИЛЛИЦЫ 0xD9U044B # СТРОЧНАЯ БУКВА ЕРУ 0xDA U0437 # СТРОЧНАЯ БУКВА ZE 0xDB U0448 # СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА ША 0xDC U044D # СТРОЧНАЯ БУКВА Е 0xDD U0449 # СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА ЩА 0xDE U0447 # СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА ЧЕ 0xDF U044A # СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА ЖЕСТКИЙ ЗНАК 0xE0 U042E # ЗАГЛАВНАЯ БУКВА Ю 0xE1 U0410 # ЗАГЛАВНАЯ БУКВА A 0xE2 U0411 # ЗАГЛАВНАЯ БУКВА BE 0xE3 U0426 # ЗАГЛАВНАЯ БУКВА TSE 0xE4 U0414 # ЗАГЛАВНАЯ БУКВА DE 0xE5 U0415 # ЗАГЛАВНАЯ БУКВА IE 0xE6 U0424 # ЗАГЛАВНАЯ БУКВА EF 0xE7 U0413 # ЗАГЛАВНАЯ БУКВА GHE 0xE8 U0425 # ЗАГЛАВНАЯ БУКВА HA 0xE9U0418 # ЗАГЛАВНАЯ БУКВА I 0xEA U0419 # ЗАГЛАВНАЯ БУКВА КОРОТКАЯ I 0xEB U041A # ЗАГЛАВНАЯ БУКВА КА 0xEC U041B # ЗАГЛАВНАЯ БУКВА EL 0xED U041C # ЗАГЛАВНАЯ БУКВА EM 0xEE U041D # ЗАГЛАВНАЯ БУКВА EN 0xEF U041E # ЗАГЛАВНАЯ БУКВА О 0xF0 U041F # ЗАГЛАВНАЯ БУКВА PE 0xF1 U042F # ЗАГЛАВНАЯ БУКВА Я 0xF2 U0420 # ЗАГЛАВНАЯ БУКВА ER 0xF3 U0421 # ЗАГЛАВНАЯ БУКВА ES 0xF4 U0422 # ЗАГЛАВНАЯ БУКВА TE 0xF5 U0423 # ЗАГЛАВНАЯ БУКВА U 0xF6 U0416 # ЗАГЛАВНАЯ БУКВА ЖЕ 0xF7 U0412 # ЗАГЛАВНАЯ БУКВА VE 0xF8 U042C # МЯГКИЙ ЗНАК ЗАГЛАВНОЙ КИРИЛЛИЧЕСКОЙ БУКВЫ 0xF9U042B # ЗАГЛАВНАЯ БУКВА ЕРУ 0xFA U0417 # ЗАГЛАВНАЯ БУКВА ZE 0xFB U0428 # ЗАГЛАВНАЯ БУКВА SHA 0xFC U042D # ЗАГЛАВНАЯ БУКВА E 0xFD U0429 # ЗАГЛАВНАЯ БУКВА ЩА 0xFE U0427 # ЗАГЛАВНАЯ БУКВА ЧЕ 0xFF U042A # ТВЕРДЫЙ ЗНАК ЗАГЛАВНОЙ БУКВЫ КИРИЛЛИЦЫ Вопросы безопасности Этот меморандум не вызывает никаких известных проблем с безопасностью. Благодарности Автор выражает благодарность Маркусу Куну (Computer Science лаборатории Кембриджского университета, Великобритания) за помощь в создании Таблица кодирования KOI8-C. использованная литература [1] Чернов А., "Регистрация кириллического набора символов", RFC 1489, июль 1993 г. [2] Украинский набор символов KOI8-U, RFC 2319. 1998. Адрес автора Серж Виницки 4 Аризона Тер. #2 Арлингтон, Массачусетс, 02474 США
Ссылки на KOI8-R (Русский набор символов)
KOI8-R
Ссылки на KOI8-R (Русский набор символов)
Что такое KOI8-R?
KOI-8 означает , 8 , что означает Код для обмена информацией, 8 бит .
KOI8-R является преемником KOI-8, действующим стандартом де-факто для интернет-почты/новостей, WWW и других интерактивных сервисов на русском языке, по крайней мере, на всей территории бывшего СССР.
Лучше один раз увидеть, чем сто раз услышать, посмотрите GIF-изображение с набором символов KOI8-R или, если ваш браузер поддерживает кодировку UTF-8, посмотрите коды UTF-8 для кодировки KOI8-R.
Также здесь находится файл карты в стиле Unicode для KOI8-R, описание KOI8-R в формате RFC 1345 и описание KOI8-R в формате charmap ISO 9945-2.
ПРИМЕЧАНИЕ: KOI8-R был разработан для русского/английского языков и охватывает только русских кириллических символов, поэтому, если вы ищете украинские, белорусские и т. д. кириллические символы, попробуйте ISO-IR-111 Кириллица из Реестр ECMA или KOI8-U — украинский набор символов (как расширение KOI8-R и ISO-IR-111, см. RFC 2319).) или KOI8-C (для древнерусских текстов), которые идентичны KOI8-R в области букв русской кириллицы. См. также кодировку Rosetta как альтернативу схеме Unicode. Некоторый исторический обзор кириллических кодировок см. на сайте The Cyrillic Charset Soup.
. / .
Основные стандартные документы и описания KOI8-R:
Регистрация набора символов кириллицы, Стандартное определение KOI8-R (RFC 1489)
Файл карты в стиле Unicode для KOI8-R
Описание KOI8-R в формате RFC 1345
Описание KOI8-R в формате Charmap ISO 9945-2 от IANA, KOI8-R тоже есть
IBM официально зарегистрировала набор символов KOI8-R как Кодовая страница 878
KOI8-R Визуальное и онлайн-тестирование браузера
Войдите в этот раздел с самого начала или перейти сразу к подразделам:
Он-лайн тесты
Сравнительная таблица браузеров
Стандартная русская раскладка клавиатуры
Как создавать и работать с русскими документами HTML
Войдите в этот раздел с самого начала или сразу перейдите к подразделам:
KOI
11 KOI Р, -.
Подробно описаны два стандартных метода.
Как запросить документы KOI8-R, когда доступно несколько кодировок.
Как сообщить удаленному серверу о вашем локальном наборе символов.
KOI8-R
s обращение.
Обработка ресурсов KOI8-R, которые обслуживаются не через HTTP.
Настройка Apache HTTPD для поддержки KOI8-R.
Стандарты и справочники
KOI8-R Установка: ОС и приложения
Выберите свою операционную систему и следуйте инструкциям: 8/7/Виста/ХР
MS DOS
Unix Clones
x Window System
Macintosh
OS/2
Разнообразные ресурсы
Деловые декодели:
My-Line (Crrows Browing Brows с Decoders,
2 My-Line,
. Браузеры Unix (KOI8-R). Он соответствует стандартам HTTP и HTML и указывает браузерам автоматически переключать набор символов, исходные коды доступны бесплатно.
Он-лайн конвертеры текста:
Преобразователь числовых символов HTML / специальные символы CSS / специальные символы JavaScript / компоненты URL
Универсальный онлайн-декодер кириллицы (пытается угадать вашу кодовую таблицу) :
Многоязычный онлайн-переводчик PROMT (онлайн)
. () (онлайн)
Другое:
Русский (KOI8-R) перевод международной диагностики PGP 2.6.3ia.
Комплект русификации TeX (кодировка KOI8-R)
Поиск
Для поиска на сайте используйте поисковую строку, расположенную на корневой странице.
Контакты и участие
Свои комментарии, исправления, материалы и идеи присылайте через форму обратной связи.
Пожалуйста, поправьте наш плохой английский, если вы нашли что-то неточно написанное.
Кредиты
Особая благодарность людям, которые помогли нам улучшить эту страницу или предоставили материалы! Посмотрите на список участников.
Main KOI8-R standard documents
KOI8-R Visualized & on-line browser testing
On-line testing
Browsers comparison table
Standard Russian keyboard layout
How to создавать и обрабатывать русские HTML-документы
KOI8-R
Два стандартных метода
Как запросить документы KOI8-R
Как информировать удаленный сервер
S обработка
Non-HTTP-ресурсы
Настройка Apache httpd
и ссылки
KOI8-R & MS 10/8/7/VITS
KOI8-R & MS 10/8/7/Vista/Vista/Vistta/Vistta/Vistta/Vistta/Vista/Vista/Vista/Vista/Vista/Vista/Vista/Vista/Vista/Vista/ristta/ristta/ristta
.
Драйверы клавиатуры
Преобразователи символов
Применимое программное обеспечение
Настройка программного обеспечения
KOI8-R и MS Windows 95/98/Me
Как правильно настроить его для KOI8-R
FONTS
Установка клавиатуры
CHARSET CUNTRETERS
Proxies
Применимое программное обеспечение
Программное обеспечение
KOI8-R & MS Windows 3.*
HOW TO PROMOLLY WIN3.11.
Шрифты
Переключатели клавиатуры
KOI8-R Описание клавиатуры для переключателей
Применимое программное обеспечение
Настройка программного обеспечения
KOI8-R и Symbian/J2ME (мобильный)
Applicable Software
KOI8-R & UNIX-likes
Console Fonts
Keyboard & Screen Drivers
Charset Converters
Proxy
Locales
Applicable Software
Software Tuning
KOI8-R & FreeBSD
Настройка локали
Настройка консоли
Настройка принтера
Файлы MS-DOS FS
Настройка X11
Разное
KOI8-R & Linux
General HOWTO
Console
KOI8-R & X Window System
Fonts
Locales
Keyboard
Applicable Software
Software Tuning
KOI8- R & MS DOS
Драйверы клавиатуры и экрана
Преобразователи кодировок
Применимое программное обеспечение
Настройка программного обеспечения
KOI8-R & OS/2
Charset Converters
Applicable Software
KOI8-R & Macintosh
Keyboard & Screen Drivers
Software
Miscellaneous Resources
On-line browsing decoders
On конвертеры -line charset
Словари
Другое
Информация о проекте
Поиск по сайту
Контакты
Кредиты
Награды
Карта сайта
org/SiteNavigationElement»>
Добро пожаловать!
Что такое KOI8-R?
Main KOI8-R standard documents
KOI8-R Visualized & on-line browser testing
On-line testing
Browsers comparison table
Standard Russian keyboard layout
How создавать и обрабатывать русскоязычные HTML-документы
KOI8-R
Два стандартных метода
Как запросить документы KOI8-R
Как информировать удаленный сервер
S Обработка
Non-HTTP Resources
CUNTING APTING
HTTP DROUSTIONS
Cuning AP и ссылки
KOI8-R и MS Windows 10/8/7/Vista/XP
Шрифты
Драйверы клавиатуры
Преобразователи кодировок
Применимое программное обеспечение
Настройка программного обеспечения
KOI8-R & MS Windows 95/98/ME
Как правильно настроить его для KOI8-R
FONTS
Setup
CHARSET CONVERTERS
POREX
15
15.
Настройка программного обеспечения
KOI8-R и MS Windows 3.*
Как правильно настроить Win3.11 для KOI8-R
Шрифты
Переключатели клавиатуры
KOI8-R9 Клавиатура Описание для переключателей0015
Применимое программное обеспечение
Настройка программного обеспечения
KOI8-R & Symbian/J2ME (Mobile)
Applicable Software
KOI8-R & UNSIX-Likes
Console Fonts Fonts Fonts Fonts Fonts Fonts Fonts Fonts Fonts Fonts Fonts Fonts Fonts Fonts Fonts Fonts Fonts. Преобразователи
Прокси
Локали
Применимое ПО
Настройка программного обеспечения
KOI8-R и FreeBSD
Настройка локали
Console Setup
Printer Setup
MS-DOS FS Files
X11 Setup
Misc
KOI8-R & Linux
General HOWTO
Console
KOI8-R & X Window System
Шрифты
Языковые настройки
Клавиатура
Применимое программное обеспечение
Настройка программного обеспечения
KOI8-R и MS DOS
Драйверы клавиатуры и экрана
Charset Converters
Applicable Software
Software Tuning
KOI8-R & OS/2
Charset Converters
Applicable Software
KOI8-R & Macintosh
Keyboard & Screen Drivers
Software
Разные ресурсы
Онлайн-декодеры
Онлайн-преобразователи кодировок
Словари
Другое
Информация о проекте
Поиск сайта
Контакты
Кредиты
Карта сайта
RFC 2319: UKRAIN KINGINAL STEAR STEAR KIALIR STATINGINAIN.
[RFC Home] [TEXT|PDF|HTML] [Tracker] [IPR] [Errata] [Информационная страница]
INFORMATIONAL
Errata Exist
Сетевая рабочая группа KOI8-U Рабочая группа Запрос комментариев: 2319апрель 1998 г. Категория: Информационная Украинский набор символов KOI8-U Статус этого меморандума В этом меморандуме содержится информация для интернет-сообщества. Оно делает не указывать какой-либо стандарт Интернета. Распространение этого Памятка не ограничена. Уведомление об авторских правах Авторское право (C) Общество Интернета (1998 г.). Все права защищены. Абстрактный В этом документе представлена информация о кодировке символов KOI8-U. (KOI8 украинский), который является стандартом де-факто в украинском Интернете сообщество. KOI8-U совместим с KOI8-R (RFC 1489) в целом русскими буквами и дополняется четырьмя украинскими буквами, которые местоположения соответствуют ISO-IR-111. Официальный сайт КОИ8-У Рабочая группа http://www.net.ua. Введение В этом документе представлена информация о кодировке символов KOI8-U. (KOI8 украинский) широко используется в украинском интернет-сообществе для почты и обмена новостями, а также для представления WWW-информации ресурсы на украинском языке. Первоначально спецификация предложенного стандарта koi8-u была официально принято конференцией Почтмейстеров Украинского Интернета Провайдеры услуг в Славске осенью 1992 представил Игорь Свиридов из Киева и Стас Вороний из Харькова. Позднее в июне 1995 г. данная спецификация была дополнена УКРАИНСКИМ ГТО С ВВЕРХОМ. KOI8-U (украинский KOI8) является стандартом де-факто, поддерживаемым во многих операционные системы и пользовательские интернет-приложения, включая кодирование таблицы, шрифты, поддержка локали для многих операционных систем и среды. Имя набора символов MIME: koi8-u Информационная рабочая группа КОИ8-У [Страница 1]
RFC 2319 Набор украинских символов KOI8-U, апрель 1998 г. Отношение к другим RFC Этот стандарт основан на нескольких опубликованных стандартах: RFC1489 (он полностью совместим по всем русским буквам), RFC-1345, ISO-IR-111, ИСО 10646. Совместимость с другими наборами символов Нижняя часть Украинского набора символов КОИ8-У представляет собой полный копия ASCII, как она используется в KOI8-R и других не-ASCII кодовые страницы. Верхняя часть набора символов КОИ8-У содержит все русские буквы, определенные в КОИ8-Р, и четыре украинские буквы (#164, #180 - укр. т.е. #166, #182 - укр. i, #167, #183 - укр. йи, #173, #189- укр. ghe с переворотом), расположение которых соответствует ISO-IR-111. элементы BOX DRAWINGS в других позициях (которые не используются украинские буквы) такие же, как в кодировке KOI8-R. Список все отличия КОИ8-Р от предлагаемого КОИ8-У приведены в ПРИЛОЖЕНИЕ. Спецификация верхней части кодовой страницы KOI8-U Описание всех знаков верхней половинки КОИ8-У кодовая страница указана в соответствии с набором символов Unicode ISO 10646 (UCS). Таблица кодировок KOI8-U в формате RFC1345 приведена в Приложении Б. <десятичный> <шестнадцатеричный код> <описание> 128 80 U2500 КОРОБКИ ЧЕРТЕЖИ СВЕТЛЫЕ ГОРИЗОНТАЛЬНЫЕ 12981 U2502 КОРОБОЧНЫЕ ЧЕРТЕЖИ СВЕТ ВЕРТИКАЛЬНЫЙ 130 82 U250C КОРОБКИ ЧЕРТЕЖИ СВЕТ ВНИЗ И СПРАВА 131 83 U2510 КОРОБКА ЧЕРТЕЖИ ПОДСВЕТКА ВНИЗ И ВЛЕВО 132 84 U2514 КОРОБКИ ЧЕРТЕЖИ ЗАЖИГАЮТСЯ ВВЕРХ И СПРАВА 133 85 U2518 КОРОБКИ ЧЕРТЕЖИ ЗАЖИГАЮТСЯ ВВЕРХ И ВЛЕВО 134 86 U251C КОРОБОЧНЫЕ ЧЕРТЕЖИ ПОДСВЕТКА ВЕРТИКАЛЬНАЯ И СПРАВА 135 87 U2524 КОРОБКИ ЧЕРТЕЖИ ПОДСВЕТКА ВЕРТИКАЛЬНАЯ И СЛЕВА 136 88 U252C КОРОБКИ ЧЕРТЕЖИ ВНИЗ И ГОРИЗОНТАЛЬНО 137 89U2534 КОРОБКИ ЧЕРТЕЖИ ПОДСВЕТКА И ГОРИЗОНТАЛЬНО 138 8A U253C КОРОБОЧНЫЕ ЧЕРТЕЖИ СВЕТИЛЬНЫЕ ВЕРТИКАЛЬНЫЕ И ГОРИЗОНТАЛЬНЫЙ 139 8B U2580 ВЕРХНЯЯ ПОЛОВИНА БЛОКА 140 8C U2584 НИЖНЯЯ ПОЛУБЛОК 141 8D U2588 ПОЛНЫЙ БЛОК 142 8E U258C ЛЕВАЯ ПОЛОВИНА БЛОКА 143 8F U2590 ПРАВАЯ ПОЛУБЛОК Информационная рабочая группа КОИ8-У [Страница 2]
RFC 2319Украинский набор символов KOI8-U, апрель 1998 г. 144 90 U2591 СВЕТЛЫЙ ОТТЕНОК 145 91 U2592 СРЕДНИЙ ОТТЕНОК 146 92 U2593 ТЕМНЫЙ ОТТЕНОК 147 93 U2320 ВЕРХНЯЯ ПОЛОВИНА ЦЕЛАЯ 148 94 U25A0 ЧЕРНЫЙ КВАДРАТ 149 95 U2219 ПУЛЯ ОПЕРАТОР 150 96 U221A КВАДРАТНЫЙ КОРЕНЬ 151 97 U2248 ПОЧТИ РАВНО 152 98 U2264 МЕНЬШЕ ИЛИ РАВНО 153 99U2265 БОЛЬШЕ ИЛИ РАВНО 154 9A U00A0 НЕРАЗРЫВНЫЙ ПРОБЕЛ 155 9B U2321 НИЖНЯЯ ПОЛОВИНА ИНТЕГРАЛЬНАЯ 156 9C U00B0 ЗНАК СТЕПЕНИ 157 9D U00B2 НАДПИСЬ ДВА 158 9E U00B7 СРЕДНЯЯ ТОЧКА 159 9F U00F7 ЗНАК ОТДЕЛЕНИЯ 160 A0 U2550 КОРОБКИ ЧЕРТЕЖИ ДВОЙНОЙ ГОРИЗОНТАЛЬНЫЙ 161 A1 U2551 ЧЕРТЕЖИ В КОРОБКЕ ДВОЙНАЯ ВЕРТИКАЛЬНАЯ 162 A2 U2552 КОРОБКИ ЧЕРТЕЖИ ВНИЗ ОДИНОЧНЫЙ И СПРАВА ДВОЙНОЙ 163 A3 U0451 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА IO 164 A4 U0454 СТРОЧНАЯ КИРИЛЛИЧНАЯ УКРАИНСКАЯ БУКВА IE 165 A5 U2554 КОРОБКИ ЧЕРТЕЖИ ДВОЙНОЙ ВНИЗ И ВПРАВО 166 A6 U0456 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА БЕЛОРУССКИЙ- УКРАИНСКИЙ I 167 A7 U0457 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА ЙИ (УКРАИНСКАЯ) 168 A8 U2557 КОРОБКИ ЧЕРТЕЖИ ДВОЙНОЙ ВНИЗ И ВЛЕВО 169A9 U2558 ЧЕРТЕЖИ КОРОБКИ ВВЕРХ ОДИНОЧНАЯ И ДВОЙНАЯ СПРАВА 170 AA U2559 КОРОБКА ЧЕРТЕЖИ ДВОЙНАЯ И ПРАВАЯ ОДИНАРНАЯ 171 AB U255A КОРОБОЧНЫЕ ЧЕРТЕЖИ ДВОЙНАЯ ВВЕРХ И ВПРАВО 172 AC U255B ЧЕРТЕЖИ КОРОБКИ ВВЕРХ ОДИНАРНАЯ И СЛЕВА ДВОЙНАЯ 173 AD U0491 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА GHE С ВВЕРХОМ 174 AE U255D КОРОБОЧНЫЕ ЧЕРТЕЖИ УДВОИТЬ ВВЕРХ И ВЛЕВО 175 AF U255E КОРОБОЧНЫЕ ЧЕРТЕЖИ ВЕРТИКАЛЬНАЯ ОДИНОЧНАЯ И ПРАВЫЙ ДВОЙНОЙ 176 B0 U255F ЧЕРТЕЖИ КОРОБКИ ВЕРТИКАЛЬНАЯ ДВОЙНАЯ И ПРАВИЛЬНЫЙ ОДИН 177 B1 U2560 ЧЕРТЕЖИ В КОРОБКЕ ДВОЙНАЯ ВЕРТИКАЛЬНАЯ И ПРАВАЯ 178 B2 U2561 КОРОБОЧНЫЕ ЧЕРТЕЖИ ВЕРТИКАЛЬНАЯ ОДИНОЧНАЯ И ЛЕВЫЙ ДВОЙНОЙ 179B3 U0401 ЗАГЛАВНАЯ БУКВА IO 180 B4 U0404 ЗАГЛАВНАЯ БУКВА УКРАИНСКИЙ ИП 181 B5 U2563 ЧЕРТЕЖИ КОРОБКИ ДВОЙНОЙ ВЕРТИКАЛЬНЫЙ И ЛЕВЫЙ 182 B6 U0406 ЗАГЛАВНАЯ БУКВА КИРИЛЛИЦЫ БЕЛОРУССКИЙ-УКРАИНСКИЙ I 183 B7 U0407 ЗАГЛАВНАЯ БУКВА ЙИ (УКРАИНСКАЯ) 184 B8 U2566 КОРОБКИ ЧЕРТЕЖИ ДВОЙНОЙ ВНИЗ И ГОРИЗОНТАЛЬНО 185 B9 U2567 ЧЕРТЕЖИ КОРОБКИ ВВЕРХ ОДИНОЧНЫЕ И Информационная рабочая группа КОИ8-У [Страница 3]
RFC 2319 Набор украинских символов KOI8-U, апрель 1998 г. ГОРИЗОНТАЛЬНЫЙ ДВОЙНОЙ 186 BA U2568 КОРОБКИ ЧЕРТЕЖИ UP ДВОЙНЫЕ И ГОРИЗОНТАЛЬНЫЙ ОДИНАРНЫЙ 187 BB U2569 ЧЕРТЕЖИ КОРОБКИ ДВОЙНОЙ И ГОРИЗОНТАЛЬНЫЙ 188 BC U256A КОРОБОЧНЫЕ ЧЕРТЕЖИ ВЕРТИКАЛЬНЫЕ ОДИНОЧНЫЕ И ГОРИЗОНТАЛЬНЫЙ ДВОЙНОЙ 189 BD U0490 ЗАГЛАВНАЯ БУКВА GHE С ВВЕРХОМ 190 BE U256C КОРОБОЧНЫЕ ЧЕРТЕЖИ ДВОЙНОЙ ВЕРТИКАЛЬНЫЙ И ГОРИЗОНТАЛЬНЫЙ 191 BF U00A9 ЗНАК АВТОРСКОГО ПРАВА 192 C0 U044E СТРОЧНАЯ БУКВА Ю 193 C1 U0430 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА A 194 C2 U0431 СТРОЧНАЯ БУКВА BE 195 C3 U0446 СТРОЧНАЯ БУКВА ТСЕ 196 C4 U0434 СТРОЧНАЯ БУКВА DE 197 C5 U0435 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА IE 198 C6 U0444 СТРОЧНАЯ БУКВА EF 199 C7 U0433 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА GHE 200 C8 U0445 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА ХА 201 C9 U0438 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА I 202 CA U0439 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА КОРОТКАЯ I 203 CB U043A СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА КА 204 CC U043B СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА EL 205 CD U043C СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА EM 206 CE U043D СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА EN 207 CF U043E СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА O 208 D0 U043F СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА PE 209D1 U044F СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА Я 210 D2 U0440 СТРОЧНАЯ БУКВА ER 211 D3 U0441 СТРОЧНАЯ БУКВА ES 212 D4 U0442 СТРОЧНАЯ БУКВА TE 213 D5 U0443 СТРОЧНАЯ БУКВА U в кириллице 214 D6 U0436 СТРОЧНАЯ БУКВА ЖЕ 215 D7 U0432 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА VE 216 D8 U044C СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА МЯГКИЙ ЗНАК 217 D9 U044B СТРОЧНАЯ БУКВА ЙЕРУ 218 DA U0437 СТРОЧНАЯ БУКВА ZE 219DB U0448 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА ША 220 DC U044D СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА E 221 DD U0449 СТРОЧНАЯ БУКВА ЩА 222 DE U0447 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА ЧЕ 223 DF U044A СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА ЖЕСТКИЙ ЗНАК 224 E0 U042E ЗАГЛАВНАЯ БУКВА Ю 225 E1 U0410 ЗАГЛАВНАЯ БУКВА A 226 E2 U0411 ЗАГЛАВНАЯ БУКВА BE 227 E3 U0426 ЗАГЛАВНАЯ БУКВА ТСЕ 228 E4 U0414 ЗАГЛАВНАЯ БУКВА DE 229E5 U0415 ЗАГЛАВНАЯ БУКВА IE Информационная рабочая группа КОИ8-У [Страница 4]
RFC 2319 Набор украинских символов KOI8-U, апрель 1998 г. 230 E6 U0424 ЗАГЛАВНАЯ БУКВА EF 231 E7 U0413 ЗАГЛАВНАЯ БУКВА GHE 232 E8 U0425 ЗАГЛАВНАЯ БУКВА ХА 233 E9 U0418 ЗАГЛАВНАЯ БУКВА I 234 EA U0419 ЗАГЛАВНАЯ БУКВА КОРОТКАЯ I 235 EB U041A ЗАГЛАВНАЯ БУКВА КА 236 EC U041B ЗАГЛАВНАЯ БУКВА EL 237 ED U041C ЗАГЛАВНАЯ БУКВА EM 238 EE U041D ЗАГЛАВНАЯ БУКВА EN 239EF U041E ЗАГЛАВНАЯ БУКВА О 240 F0 U041F ЗАГЛАВНАЯ БУКВА PE 241 F1 U042F ЗАГЛАВНАЯ БУКВА Я 242 F2 U0420 ЗАГЛАВНАЯ БУКВА ER 243 F3 U0421 ЗАГЛАВНАЯ БУКВА ES 244 F4 U0422 ЗАГЛАВНАЯ БУКВА TE 245 F5 U0423 ЗАГЛАВНАЯ БУКВА U 246 F6 U0416 ЗАГЛАВНАЯ БУКВА ЖЕ 247 F7 U0412 ЗАГЛАВНАЯ БУКВА VE 248 F8 U042C ЗАГЛАВНАЯ КИРИЛЛИЧНАЯ БУКВА МЯГКИЙ ЗНАК 249F9 U042B ЗАГЛАВНАЯ БУКВА ЕРУ 250 FA U0417 ЗАГЛАВНАЯ БУКВА ZE 251 FB U0428 ЗАГЛАВНАЯ БУКВА ША 252 FC U042D ЗАГЛАВНАЯ БУКВА Е 253 FD U0429 ЗАГЛАВНАЯ БУКВА ЩА 254 FE U0427 ЗАГЛАВНАЯ БУКВА ЧЕ 255 FF U042A КИРИЛЛИЧНАЯ ЗАГЛАВНАЯ БУКВА ЖЕСТКИЙ ЗНАК Вопросы безопасности Этот меморандум не вызывает никаких известных проблем с безопасностью. Благодарности Настоящая редакция этого документа подготовлена совместными усилиями Рабочей группы КОИ8-У и является результатом широкого обсуждения в Украинская группа новостей USENET ukr.nodes и консенсус, достигнутый среди большинство украинских интернет-провайдеров. Особая признательность: Андрей Чернов , автор первого в Интернете RFC 1489описание набора русских символов KOI8-R; Игорю Свиридову за первоначальную работу по созданию и поддержка набора символов KOI8-U и его реализация в первой электронной версии. почтовые продукты. Информационная рабочая группа КОИ8-У [Страница 5]
RFC 2319 Набор украинских символов KOI8-U, апрель 1998 г. Многие люди внесли свой вклад в раннюю работу над кодировкой koi8-u: Станислав Владимирович Вороный Сергей Вакуленко Лена Савченко Игорь Романенко kiev.ua> Руслан Белкин Андрей Блохинцев использованная литература [1] Чернов А., "Регистрация кириллического набора символов", RFC 1489, июль 1993 г. [2] БАЗА СИМВОЛОВ UNICODE 2.0. - ftp://unicode.org/pub/2.0- Обновление/UnicodeData-2.0.14.txt [3] Украинские буквы в koi8-u и других наборах символов ftp://ftp.ua.net/pub/info/encodings/koi8-u/ukr_chars_in_koi8- u_and_others.txt, июнь 1995 г. [4] ECMA-кириллица. - ftp://dkuug.dk/i18n/charmaps.all/ECMA- кириллица [5] Симонсен, К., «Мнемоника символов и наборы символов» RFC 1345, июнь 1992 г. Список рабочей группы КОИ8-У Координатор: Александр Еременко Юрий Демченко Виктор Форсюк Тарас Гейченко Павел Гульчук Дмитрий Кохманюк Борис Мостовой Елена Панченко Игорь Романенко net> Евгений Шерстобитов Андрей Стесин Игорь Свиридов Роман Александрович Ткачук Информационная рабочая группа КОИ8-У [Страница 6]
RFC 2319 Набор украинских символов KOI8-U, апрель 1998 г. ПРИЛОЖЕНИЕ ОТЛИЧИЕ KOI8-U от KOI8-R (RFC 1489) KOI8-U совместим с KOI8-R во всех кириллических буквах и завершает его четырьмя украинскими буквами УКРАИНСКИЙ ИЭ №164, №180, КИРИЛЛИЧЕСКАЯ СТРОЧНАЯ БЕЛОРУССКАЯ-УКРАИНСКАЯ I #166, #182, УКРАИНСКАЯ ЙИ №167, №183, УКРАИНСКОЕ ГХЕ С ВВЕРХОМ №173, №189. <десятичный> <шестнадцатеричный код> <описание> 164 A4 U0454 СТРОЧНАЯ КИРИЛЛИЧНАЯ УКРАИНСКАЯ БУКВА IE 166 A6 U0456 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА БЕЛОРУССКИЙ-УКРАИНСКИЙ I 167 A7 U0457 СТРОЧНАЯ КИРИЛЛИЧНАЯ БУКВА ЙИ (УКРАИНСКАЯ) 173 г. н.э. U0491 СТРОЧНАЯ КИРИЛЛИЧНАЯ УКРАИНСКАЯ ГЕ С ПОДЪЕМОМ 180 B4 U0403 ЗАГЛАВНАЯ БУКВА УКРАИНСКИЙ ИП 182 B6 U0406 ЗАГЛАВНАЯ БУКВА КИРИЛЛИЦЫ БЕЛОРУССКИЙ-УКРАИНСКИЙ I 183 B7 U0407 ЗАГЛАВНАЯ БУКВА ЙИ (УКРАИНСКАЯ) 189 BD U0490 ЗАГЛАВНАЯ БУКВА УКРАИНСКОЕ GHE С ПОДЪЕМОМ Информационная рабочая группа КОИ8-У [Страница 7]
RFC 2319 Набор украинских символов KOI8-U, апрель 1998 г. ПРИЛОЖЕНИЕ Б Таблица кодировки KOI8-U в формате RFC1345 &кодировка KOI8-U &rem источник: RFC 2319 &рем Мибенум: 2088 &rem источник: http://www.net.ua/KOI8-U/ &биты 8 &код 0 NU SH SX EX ET EQ AK BL BS HT LF VT FF CR SO SI DL D1 D2 D3 D4 NK SY EB CN EM SB EC FS GS RS US СП! " Nb DO % & ' ( ) * + , - . / 0 1 2 3 4 5 6 7 8 9 : ; < = > ? А Б В Г Д Е Ж Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ы Z <( // )> '> _ '! АБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЫЭЮЯ (! !! !) '? ДТ hh vv dr dl ur ul vr vl dh uh vh TB LB FB lB RB .S :S ?S Iu fS Sb RT ?2 =< >= NS Il DG 2S .M -: HH VV dR io ie DR II yi LD ur Ur UR uL g3 UL vR Vr VR vL IO IE VL II YI DH uH Uh UH vH G3 VH Co ju a= b= c= d= e= f= g= h= i= j= k= l= m= n= o= p= ja r= s= t= u= z% v= %' y= z= s% je sc c% =' JU A= B= C= D= E= F= G= H= I= J= K= L= M= N= O= P= JA R= S= T= U= Z% V= %" Y= Z= S% JE Sc C% =" Информационная рабочая группа КОИ8-У [Страница 8]
RFC 2319 Набор украинских символов KOI8-U, апрель 1998 г. Полное заявление об авторских правах Авторское право (C) Общество Интернета (1998 г.). Все права защищены. Этот документ и его переводы могут быть скопированы и предоставлены другие и производные работы, которые комментируют или иным образом объясняют это или содействовать в его реализации, могут быть подготовлены, скопированы, опубликованы и распространяется полностью или частично без ограничения каких-либо вид, при условии, что приведенное выше уведомление об авторских правах и этот параграф включены во все такие копии и производные работы. Однако это сам документ не может быть изменен каким-либо образом, например, путем удаления уведомление об авторских правах или ссылки на Internet Society или другие Интернет-организациям, за исключением случаев, когда это необходимо для целей разработка интернет-стандартов, и в этом случае процедуры для авторские права, определенные в процессе Интернет-стандартов, должны быть следовала или по мере необходимости переводила его на языки, отличные от Английский. Ограниченные разрешения, предоставленные выше, являются бессрочными и не будут отозвано Internet Society или его правопреемниками или правопреемниками. Настоящий документ и информация, содержащаяся в нем, предоставлены на Основа «КАК ЕСТЬ» и ИНТЕРНЕТ-ОБЩЕСТВО И ИНТЕРНЕТ-ИНЖИНИРИНГ TASK FORCE ОТКАЗЫВАЕТСЯ ОТ ВСЕХ ГАРАНТИЙ, ЯВНЫХ ИЛИ ПОДРАЗУМЕВАЕМЫХ, ВКЛЮЧАЯ НО НЕ ОГРАНИЧИВАЯСЯ ЛЮБОЙ ГАРАНТИЕЙ ТОГО, ЧТО ИСПОЛЬЗОВАНИЕ ИНФОРМАЦИИ ЗДЕСЬ НЕ БУДЕТ НАРУШАТЬ НИКАКИХ ПРАВ ИЛИ ЛЮБЫХ ПОДРАЗУМЕВАЕМЫХ ГАРАНТИЙ КОММЕРЧЕСКАЯ ПРИГОДНОСТЬ ИЛИ ПРИГОДНОСТЬ ДЛЯ ОПРЕДЕЛЕННОЙ ЦЕЛИ. Информационная рабочая группа КОИ8-У [Страница 9]
кодеков — Реестр кодеков и базовые классы — Документация по Python 3.10.7
Исходный код: Lib/codecs.py
Этот модуль определяет базовые классы для стандартных кодеков Python (кодировщики и декодеры) и обеспечивает доступ к внутреннему реестру кодеков Python, который управляет процессом поиска кодека и обработки ошибок. Большинство стандартных кодеков являются текстовыми кодировками, которые кодируют текст в байты (и декодировать байты в текст), но есть также кодеки, которые кодируют текст в текст и байты в байты. Пользовательские кодеки могут кодировать и декодировать между произвольными типы, но некоторые функции модуля ограничены для использования только с текстовые кодировки или с кодеками, которые кодируют в байта .
Модуль определяет следующие функции для кодирования и декодирования с любой кодек:
Кодеки . кодировать ( объект , кодировка = ‘utf-8’ , ошибки = ‘строгий’ )
Кодирует obj с помощью кодека, зарегистрированного для , кодирует .
Ошибки могут быть заданы для установки желаемой схемы обработки ошибок. обработчик ошибок по умолчанию 'strict' означает, что возникают ошибки кодирования ValueError (или более специфичный подкласс кодека, например UnicodeEncodeError ). Дополнительные сведения см. в разделе Базовые классы кодеков. информация об обработке ошибок кодека.
Кодеки . декодировать ( obj , encoding=’utf-8′ , error=’strict’ )
Декодирует obj с помощью кодека, зарегистрированного для , кодирует .
Ошибки может быть задан для установки желаемой схемы обработки ошибок. обработчик ошибок по умолчанию — «строгий» , что означает, что возникают ошибки декодирования ValueError (или более специфичный подкласс кодека, например UnicodeDecodeError ). Дополнительные сведения см. в разделе Базовые классы кодеков. информация об обработке ошибок кодека.
Полную информацию о каждом кодеке также можно посмотреть напрямую:
Кодеки . поиск (кодирование )
Ищет информацию о кодеке в реестре кодеков Python и возвращает Объект CodecInfo , как определено ниже.
Кодировки сначала просматриваются в кэше реестра. Если не найдено, список зарегистрированные функции поиска сканируются. Если объект CodecInfo не найдено, возникает ошибка LookupError . В противном случае объект CodecInfo сохраняется в кэше и возвращается вызывающей стороне.
класс кодеки. Codecinfo ( Encode , Декод , Streamreder = None , Streamwriter = None , incrementalencoder = none , , nomelencoder = none , incredemder = nom. nom. nom. noolaldecoder = none , .
Сведения о кодеке при поиске в реестре кодеков. Конструктор аргументы хранятся в одноименных атрибутах:
имя
Название кодировки.
кодировать
расшифровать
Функции кодирования и декодирования без сохранения состояния. Это должно быть функции или методы, которые имеют тот же интерфейс, что и методы encode() и decode() кодека (см. Интерфейс кодека). Ожидается, что функции или методы будут работать в режиме без сохранения состояния.
инкрементальный энкодер
инкрементный декодер
Классы инкрементного энкодера и декодера или заводские функции. Они должны предоставлять интерфейс, определенный базовыми классами. IncrementalEncoder и IncrementalDecoder , соответственно. Инкрементные кодеки могут сохранять состояние.
стример
считыватель потоков
Потоковые классы записи и чтения или фабричные функции. Они должны предоставить интерфейс, определенный базовыми классами StreamWriter и StreamReader соответственно. Потоковые кодеки могут сохранять состояние.
Для упрощения доступа к различным компонентам кодека модуль предоставляет эти дополнительные функции, которые используют lookup() для поиска кодека:
Кодеки . getencoder (кодирование )
Найдите кодек для данной кодировки и верните его функцию кодировщика.
Поднимает LookupError в случае невозможности найти кодировку.
Кодеки . getdecoder (кодирование )
Найдите кодек для данной кодировки и верните его функцию декодера.
Вызывает ошибку LookupError , если кодировка не может быть найдена.
Кодеки . getincrementalencoder (кодирование )
Поиск кодека для данной кодировки и возврат его инкрементного кодировщика класс или фабричная функция.
Вызывает ошибку LookupError , если не удается найти кодировку или кодек не поддерживает инкрементальный энкодер.
Кодеки . getincrementaldecoder (кодирование )
Поиск кодека для данной кодировки и возвращение его инкрементного декодера класс или фабричная функция.
Вызывает ошибку LookupError , если не удается найти кодировку или кодек не поддерживает инкрементный декодер.
Кодеки . getreader (кодирование )
Найдите кодек для данной кодировки и верните его StreamReader класс или фабричная функция.
Вызывает ошибку LookupError , если кодировка не может быть найдена.
Кодеки . getwriter (кодирование )
Найти кодек для данной кодировки и вернуть его StreamWriter класс или фабричная функция.
Вызывает ошибку LookupError , если кодировка не может быть найдена.
Пользовательские кодеки становятся доступными после регистрации подходящего поиска кодеков. функция:
Кодеки . регистр ( функция_поиска )
Зарегистрируйте функцию поиска кодека. Ожидается, что функции поиска займут один аргумент, представляющий собой имя кодировки, состоящее из всех строчных букв с дефисами и пробелы, преобразованные в символы подчеркивания, и возвращают CodecInfo объект. Если функция поиска не может найти заданную кодировку, она должна вернуть Нет .
Изменено в версии 3.9: Дефисы и пробелы преобразуются в подчеркивание.
Кодеки . отменить регистрацию ( функция_поиска )
Отменить регистрацию функции поиска кодека и очистить кэш реестра. Если функция поиска не зарегистрирована, ничего не делайте.
Новое в версии 3.10.
В то время как встроенный open() и связанный модуль io являются рекомендуемый подход для работы с закодированными текстовыми файлами, этот модуль предоставляет дополнительные служебные функции и классы, которые позволяют использовать более широкий набор кодеков при работе с бинарными файлами:
Кодеки . открыть ( имя файла , режим=’r’ , кодировка=нет , ошибки=’strict’ , буферизация=- 1 )
Открыть закодированный файл с использованием заданного режима и вернуть экземпляр StreamReaderWriter , обеспечивающий прозрачное кодирование/декодирование. Режим файла по умолчанию — 'r' , что означает открытие файла в режиме чтения.
Примечание
Базовые закодированные файлы всегда открываются в двоичном режиме. Автоматическое преобразование '\n' не выполняется при чтении и записи. Аргумент mode может быть любым двоичным режимом, приемлемым для встроенного функция open() ; автоматически добавляется 'b' .
кодировка определяет кодировку, которая будет использоваться для файла. Любое кодирование, которое кодирует и декодирует из байтов, разрешено, и типы данных, поддерживаемые файловыми методами, зависят от используемого кодека.
ошибки могут быть заданы для определения обработки ошибок. По умолчанию 'строгий' что приводит к возникновению ошибки ValueError в случае возникновения ошибки кодирования.
буферизация имеет то же значение, что и встроенная функция open() . По умолчанию он равен -1, что означает, что будет использоваться размер буфера по умолчанию.
Кодеки . EncodedFile ( файл , data_encoding , file_encoding=None , errors=’strict’ )
Возврат экземпляра StreamRecoder , упакованной версии файла который обеспечивает прозрачное транскодирование. Исходный файл закрыт когда завернутая версия закрыта.
Данные, записываемые в обернутый файл, декодируются в соответствии с заданным data_encoding , а затем записывается в исходный файл в виде байтов с использованием кодировка_файла . Байты, прочитанные из исходного файла, декодируются согласно file_encoding , а результат кодируется используя data_encoding .
Если file_encoding не задано, по умолчанию используется data_encoding .
ошибки могут быть заданы для определения обработки ошибок. По умолчанию это 'strict' , что приводит к возникновению ValueError в случае кодирования возникает ошибка.
Кодеки . iterencode ( итератор , кодирование , errors=’strict’ , **kwargs )
Использует инкрементный энкодер для итеративного кодирования ввода, предоставленного итератор . Эта функция является генератором. Аргумент ошибок (а также любой другой аргумент ключевого слова) передается инкрементному кодировщику.
Эта функция требует, чтобы кодек принимал объекты text str кодировать. Поэтому он не поддерживает кодировщики байтов в байты, такие как base64_codec .
Кодеки . iterdecode ( итератор , кодирование , errors=’strict’ , **kwargs )
Использует инкрементный декодер для итеративного декодирования ввода, предоставленного итератор . Эта функция является генератором. ошибки аргумент (как и любой другой аргумент ключевого слова) передается в инкрементный декодер.
Эта функция требует, чтобы кодек принимал байта объекта декодировать. Поэтому он не поддерживает кодировщики преобразования текста в текст, такие как rot_13 , хотя rot_13 может использоваться эквивалентно с iterencode() .
Модуль также предоставляет следующие константы, полезные для чтения и запись в файлы, зависящие от платформы:
Кодеки . Спецификация
Кодеки . Спецификация_BE
Кодеки . Спецификация_LE
Кодеки . Спецификация_UTF8
Кодеки . Спецификация_UTF16
Кодеки . Спецификация_UTF16_BE
Кодеки . Спецификация_UTF16_LE
Кодеки . Спецификация_UTF32
Кодеки . Спецификация_UTF32_BE
Кодеки . Спецификация_UTF32_LE
Эти константы определяют различные последовательности байтов, являющиеся метками порядка байтов Unicode (BOM) для нескольких кодировок. Они есть используется в потоках данных UTF-16 и UTF-32 для указания используемого порядка байтов, и в UTF-8 как подпись Unicode. BOM_UTF16 либо BOM_UTF16_BE или BOM_UTF16_LE в зависимости от платформы собственный порядок байтов, BOM является псевдонимом для Спецификация_UTF16 , BOM_LE для BOM_UTF16_LE и BOM_BE для Спецификация_UTF16_BE . Остальные представляют спецификацию в UTF-8 и UTF-32. кодировки.
Базовые классы кодеков
Модуль кодеков определяет набор базовых классов, которые определяют интерфейсы для работы с объектами кодеков, а также могут быть положены в основу для пользовательских реализаций кодеков.
Каждый кодек должен определить четыре интерфейса, чтобы его можно было использовать в качестве кодека в Python: кодировщик без сохранения состояния, декодер без сохранения состояния, устройство чтения и записи потоков. средства чтения и записи потоков обычно повторно используют кодировщик/декодер без сохранения состояния для реализовать файловые протоколы. Авторы кодеков также должны определить, как кодек будет обрабатывать ошибки кодирования и декодирования.
Обработчики ошибок
Для упрощения и стандартизации обработки ошибок кодеки могут реализовывать различные схемы обработки ошибок, принимая строковый аргумент errors :
>>> 'Немецкий ß, ♬'. encode(encoding='ascii', errors='backslashreplace') b'Немецкий \\xdf, \\u266c' >>> 'Немецкий ß, ♬'.encode(encoding='ascii', errors='xmlcharrefreplace') b'Немецкий ß, ♬'
Следующие обработчики ошибок можно использовать со всеми Python. Стандартные кодеки кодеков:
Значение
Значение
«строгий»
Поднять UnicodeError (или подкласс), это значение по умолчанию. Реализовано в строгие_ошибки() .
«игнорировать»
Игнорировать искаженные данные и продолжить без дальнейшего уведомления. Реализовано в ignore_errors() .
«заменить»
Замените новым маркером. На кодировка, используйте ? (символ ASCII). На декодирования используйте � (U+FFFD, официальная ЗАМЕНЯЮЩИЙ СИМВОЛ). Реализовано в replace_errors() .
«обратная косая черта»
Заменить escape-последовательностями с обратной косой чертой. При кодировании используйте шестнадцатеричную форму Unicode. кодовая точка с форматами \xhh \uxxxx \Uxxxxxxxx . При декодировании используйте шестнадцатеричный форма значения байта в формате \xhh . Реализовано в обратная косая чертаreplace_errors() .
«суррогатный побег»
При декодировании заменить байт на индивидуальный суррогатный код в диапазоне от U+DC80 до U+DCFF . Затем этот код будет преобразован обратно в тот же байт, когда 'суррогатный побег' 9Используется обработчик ошибок 0463 при кодировании данных. (См. PEP 383 для подробнее.)
Следующие обработчики ошибок применимы только к кодированию (в пределах кодировки текста):
Значение
Значение
'xmlcharrefreplace'
Заменить числовым символом XML/HTML ссылка, которая представляет собой десятичную форму Unicode кодовая точка с форматом # Реализовано в xmlcharrefreplace_errors() .
'замена имени'
Заменить на \N{...} escape-последовательности, то, что появляется в фигурных скобках, является именем свойство из базы данных символов Unicode. Реализовано в namereplace_errors() .
Кроме того, для данных кодеков характерен следующий обработчик ошибок:
Значение
Кодеки
Значение
«суррогатный пропуск»
утф-8, утф-16, утф-32, утф-16-бе, утф-16-ле, утф-32-бе, утф-32-ле
Разрешить кодирование и декодирование суррогатного кода точка ( U+D800 - U+DFFF ) как обычно кодовая точка. В противном случае эти кодеки трактуют наличие суррогатной кодовой точки в стр как ошибка.
Новое в версии 3. 1: обработчики ошибок 'surrogateescape' и 'surrogatepass' .
Изменено в версии 3.4: обработчик ошибок ‘surrogatepass’ теперь работает с utf-16* и utf-32*. кодеки.
Новое в версии 3.5: обработчик ошибок 'namereplace' .
Изменено в версии 3.5: Обработчик ошибок 'backslashreplace' теперь работает с декодированием и Идет перевод.
Набор допустимых значений может быть расширен путем регистрации новой именованной ошибки обработчик:
Кодеки . register_error ( имя , error_handler )
Зарегистрируйте функцию обработки ошибок error_handler под именем name . Аргумент error_handler будет вызываться во время кодирования и декодирования. в случае ошибки, когда в качестве параметра errors указано имя .
Для кодирования error_handler будет вызываться с ошибкой UnicodeEncodeError . instance, который содержит информацию о местонахождении ошибки. обработчик ошибок должен либо вызвать это или другое исключение, либо вернуть кортеж с заменой некодируемой части ввода и позиции где кодирование должно продолжаться. Заменой может быть либо , либо , либо байта . Если заменой являются байты, кодировщик просто скопирует их в выходной буфер. Если замена представляет собой строку, кодировщик закодировать замену. Кодирование продолжается на исходном входе в указанное положение. Отрицательные значения положения будут рассматриваться как относительно конца входной строки. Если результирующая позиция вне связал Будет вызвана ошибка IndexError .
Декодирование и перевод работают аналогично, за исключением UnicodeDecodeError или UnicodeTranslateError будет передан обработчику и что замена из обработчика ошибок будет помещена в вывод напрямую.
Ранее зарегистрированные обработчики ошибок (включая стандартные обработчики ошибок) можно посмотреть по имени:
Кодеки . lookup_error ( имя )
Вернуть обработчик ошибок, ранее зарегистрированный под именем name .
Вызывает ошибку LookupError , если обработчик не найден.
Следующие стандартные обработчики ошибок также доступны на уровне модуля функции:
Кодеки . strict_errors ( исключение )
Реализует «строгую» обработку ошибок .
Каждая ошибка кодирования или декодирования вызывает Ошибка Юникода .
Кодеки . ignore_errors ( исключение )
Реализует обработку ошибок "игнорировать" .
Неверные данные игнорируются; кодирование или декодирование продолжается без дальнейшего уведомления.
Кодеки . replace_errors ( исключение )
Реализует обработку ошибок "replace" .
Заменяет ? (символ ASCII) для ошибок кодирования или � (U+FFFD, официальный ЗАМЕНЯЮЩИЙ СИМВОЛ) для ошибок декодирования.
Кодеки . обратная косая чертаreplace_errors ( исключение )
Реализует обработку ошибок 'backslashreplace' .
Неверные данные заменяются escape-последовательностью с обратной косой чертой. При кодировании используйте шестнадцатеричную форму кодовой точки Unicode с форматами \xhh \uxxxx \Uxxxxxxxxx . При декодировании используйте шестнадцатеричную форму байтовое значение в формате \xhh .
Изменено в версии 3.5: Работает с декодированием и переводом.
Кодеки . xmlcharrefreplace_errors ( исключение )
Реализует обработку ошибок 'xmlcharrefreplace' (для кодирования внутри только кодировка текста).
Некодируемый символ заменяется соответствующим числовым XML/HTML. ссылка на символ, которая представляет собой десятичную форму кодовой точки Unicode с формат # .
Кодеки . namereplace_errors ( исключение )
Реализует обработку ошибок 'namereplace' (для кодирования внутри только кодировка текста).
Некодируемый символ заменяется управляющей последовательностью \N{...} . набор символов, которые появляются в фигурных скобках, является свойством Name из База данных символов Юникода. Например, немецкая строчная буква "ß" будет преобразован в последовательность байтов \N{ЛАТИНСКАЯ СТРОЧНАЯ БУКВА SHARP S} .
Новое в версии 3.5.
Кодирование и декодирование без сохранения состояния
Базовый класс Codec определяет эти методы, которые также определяют функциональные интерфейсы кодировщика и декодера без сохранения состояния:
Кодек. кодировать ( ввод , ошибок=’строгий’ )
Кодирует объект вход и возвращает кортеж (выходной объект, потребляемая длина). Например, кодировка текста преобразует строковый объект в байтовый объект с использованием определенного кодировка набора символов (например, cp1252 или iso-8859-1 ).
Аргумент errors определяет применяемую обработку ошибок. По умолчанию используется «строгая» обработка .
Метод не может сохранять состояние в экземпляре кодека . Использовать StreamWriter для кодеков, которые должны сохранять состояние, чтобы сделать эффективное кодирование.
Кодер должен иметь возможность обрабатывать ввод нулевой длины и возвращать пустой объект типа выходного объекта в этой ситуации.
Кодек. декодировать ( ввод , ошибок=’строгий’ )
Декодирует объект , ввод и возвращает кортеж (выходной объект, длина потребляется). Например, для кодирования текста декодирование преобразует байтовый объект, закодированный с использованием определенного кодировка набора символов в строковый объект.
Для текстовых кодировок и кодеков байт в байт, ввод должен быть байтовым объектом или тем, который предоставляет доступ только для чтения интерфейс буфера — например, объекты буфера и отображаемые в память файлы.
Аргумент errors определяет применяемую обработку ошибок. По умолчанию используется «строгая» обработка .
Метод не может сохранять состояние в экземпляре кодека . Использовать StreamReader для кодеков, которые должны сохранять состояние, чтобы сделать эффективное декодирование.
Декодер должен иметь возможность обрабатывать ввод нулевой длины и возвращать пустой объект типа выходного объекта в этой ситуации.
Инкрементальное кодирование и декодирование
Классы IncrementalEncoder и IncrementalDecoder обеспечивают базовый интерфейс для инкрементного кодирования и декодирования. Кодирование/декодирование ввод не выполняется одним вызовом функции кодировщика/декодера без сохранения состояния, но с несколькими обращениями к кодировать() / decode() метод инкрементный энкодер/декодер. Инкрементальный кодер/декодер отслеживает процесс кодирования/декодирования во время вызовов методов.
Объединенный вывод вызовов на encode() / decode() метод так же, как если бы все одиночные входы были объединены в один, и этот вход был закодировано/декодировано с помощью кодировщика/декодера без сохранения состояния.
Объекты инкрементального кодировщика
Класс IncrementalEncoder используется для кодирования ввода в нескольких шаги. Он определяет следующие методы, которые должен использовать каждый инкрементный энкодер. определить, чтобы быть совместимым с реестром кодеков Python.
класс кодеки. IncrementalEncoder ( ошибок = ‘строгий’ )
Конструктор для экземпляра IncrementalEncoder .
Все инкрементальные кодировщики должны предоставлять этот интерфейс конструктора. они свободны чтобы добавить дополнительные аргументы ключевого слова, но только те, которые определены здесь, используются реестр кодеков Python.
IncrementalEncoder может реализовывать различные схемы обработки ошибок предоставляя ошибки аргумент ключевого слова. См. обработчики ошибок для возможные значения.
Аргумент errors будет присвоен атрибуту с таким же именем. Присвоение этому атрибуту позволяет переключаться между различными ошибками. стратегии обработки в течение срока службы IncrementalEncoder объект.
кодировать ( объект , окончательный = Ложь )
Кодирует объект (с учетом текущего состояния энкодера) и возвращает результирующий закодированный объект. Если это последний звонок encode() final должно быть true (по умолчанию false).
сброс ()
Сброс энкодера в исходное состояние. Вывод отбрасывается: call .encode(object, final=True) , передача пустого байта или текстовой строки при необходимости сбросить энкодер и получить вывод.
получить состояние ()
Возвращает текущее состояние энкодера, которое должно быть целым числом. реализация должна убедиться, что 0 является наиболее распространенным государство. (Состояния, которые сложнее, чем целые числа, могут быть преобразованы в целое число путем маршалинга/маринования состояния и кодирования байтов полученной строки в целое число.)
установить состояние ( состояние )
Установите состояние энкодера в состояние . Состояние должно быть состоянием энкодера возвращается getstate() .
Объекты инкрементного декодера
Класс IncrementalDecoder используется для декодирования ввода в нескольких шаги. Он определяет следующие методы, которые должен использовать каждый инкрементный декодер. определить, чтобы быть совместимым с реестром кодеков Python.
класс кодеки. Инкрементальный декодер ( ошибок = ‘строгий’ )
Конструктор для экземпляра IncrementalDecoder .
Все инкрементальные декодеры должны предоставлять этот интерфейс конструктора. они свободны чтобы добавить дополнительные аргументы ключевого слова, но только те, которые определены здесь, используются реестр кодеков Python.
IncrementalDecoder может реализовывать различные схемы обработки ошибок путем предоставления аргумента ключевого слова errors . См. обработчики ошибок для возможные значения.
Аргумент errors будет присвоен атрибуту с таким же именем. Присвоение этому атрибуту позволяет переключаться между различными ошибками. стратегии обработки в течение срока службы IncrementalDecoder объект.
расшифровать ( объект , окончательный=ложь )
Декодирует объект (с учетом текущего состояния декодера) и возвращает результирующий декодированный объект. Если это последний звонок decode() final должно быть true (по умолчанию false). Если окончательный true, декодер должен полностью декодировать ввод и сбросить все буферы. Если это невозможно (например, из-за неполных последовательностей байтов в конце ввода) он должен инициировать обработку ошибок точно так же, как в случай без гражданства (который может вызвать исключение).
сброс ()
Сбросьте декодер в исходное состояние.
получить состояние ()
Возвращает текущее состояние декодера. Это должен быть кортеж с двумя элементы, первым должен быть буфер, содержащий еще не закодированные вход. Второй должен быть целым числом и может быть дополнительным состоянием Информация. (Реализация должна убедиться, что 0 является наиболее распространенным дополнительная информация о состоянии.) Если эта дополнительная информация о состоянии равна 0 должно быть можно установить декодер в состояние, при котором ввод не буферизуется и 0 в качестве дополнительной информации о состоянии, чтобы подача ранее буферизованный ввод в декодер возвращает его в предыдущее состояние без производя любую продукцию. (Дополнительная информация о состоянии, более сложная, чем целые числа могут быть преобразованы в целые путем маршалинга/маринования информации и кодирование байтов полученной строки в целое число.)
установить состояние ( штат )
Установить декодер в состояние . Состояние должно быть состоянием декодера возвращается getstate() .
Потоковое кодирование и декодирование
Классы StreamWriter и StreamReader предоставляют общие рабочие интерфейсы, которые можно использовать для реализации новых подмодулей кодирования очень без труда. См. encodings.utf_8 для примера того, как это делается.
Объекты StreamWriter
Класс StreamWriter является подклассом Codec и определяет следующие методы, которые должен определить каждый писатель потока, чтобы быть совместим с реестром кодеков Python.
класс кодеки. StreamWriter ( поток , ошибок=’строгий’ )
Конструктор для экземпляра StreamWriter .
Все средства записи потоков должны предоставлять этот интерфейс конструктора. Они могут свободно добавлять дополнительные аргументы ключевого слова, но только те, которые определены здесь, используются Реестр кодеков Python.
Аргумент stream должен быть файлоподобным объектом, открытым для записи текстовые или двоичные данные, соответствующие конкретному кодеку.
StreamWriter может реализовывать различные схемы обработки ошибок путем предоставление аргумента ключевого слова ошибок . См. обработчики ошибок для стандартные обработчики ошибок, которые может поддерживать базовый потоковый кодек.
Аргумент errors будет присвоен атрибуту с таким же именем. Присвоение этому атрибуту позволяет переключаться между различными ошибками. стратегии обработки в течение жизни StreamWriter объект.
запись ( объект )
Записывает закодированное содержимое объекта в поток.
строки записи ( список )
Записывает объединенную итерацию строк в поток (возможно, путем повторного использования метод write() ). Бесконечное или очень большие итерации не поддерживаются. Стандартные кодеки байт в байт не поддерживает этот метод.
сброс ()
Сбрасывает буферы кодека, используемые для сохранения внутреннего состояния.
Вызов этого метода должен гарантировать, что данные на выходе будут помещены в чистое состояние, которое позволяет добавлять новые свежие данные без необходимости пересканировать весь поток, чтобы восстановить состояние.
В дополнение к вышеуказанным методам, StreamWriter также должен наследовать все другие методы и атрибуты из основного потока.
Объекты StreamReader
Класс StreamReader является подклассом Codec и определяет следующие методы, которые должен определить каждый читатель потока, чтобы быть совместим с реестром кодеков Python.
класс кодеки. StreamReader ( поток , ошибок=’строгий’ )
Конструктор для экземпляра StreamReader .
Все считыватели потоков должны предоставлять этот интерфейс конструктора. Они могут свободно добавлять дополнительные аргументы ключевого слова, но только те, которые определены здесь, используются Реестр кодеков Python.
Аргумент stream должен быть файлоподобным объектом, открытым для чтения текстовые или двоичные данные, соответствующие конкретному кодеку.
StreamReader может реализовывать различные схемы обработки ошибок путем предоставление аргумента ключевого слова ошибок . См. обработчики ошибок для стандартные обработчики ошибок, которые может поддерживать базовый потоковый кодек.
Аргумент errors будет присвоен атрибуту с таким же именем. Присвоение этому атрибуту позволяет переключаться между различными ошибками. стратегии обработки в течение жизни Объект StreamReader .
Набор допустимых значений для аргумента ошибок можно расширить с помощью register_error() .
чтение ( размер=- 1 , символов=- 1 , первая строка=ложь )
Декодирует данные из потока и возвращает результирующий объект.
Аргумент символов указывает количество декодированных кодовые точки или байты для возврата. Метод read() будет никогда не возвращать больше данных, чем запрошено, но может вернуть меньше, если не хватает в наличии.
Аргумент размера указывает приблизительный максимальный количество закодированных байтов или кодовых точек для чтения для расшифровки. Декодер может изменить эту настройку как соответствующий. Значение по умолчанию -1 указывает на чтение и декодирование столько, сколько возможный. Этот параметр предназначен для предотвратить декодирование огромных файлов за один шаг.
Флаг первой строки указывает, что было бы достаточно вернуть только первый строку, если есть ошибки декодирования на более поздних строках.
Метод должен использовать жадную стратегию чтения, что означает, что он должен читать столько данных, сколько разрешено в рамках определения кодирования и заданный размер, например. если необязательные окончания кодирования или маркеры состояния доступны в потоке, их тоже следует прочитать.
readline ( size=None , keepends=True )
Прочитать одну строку из входного потока и вернуть декодированные данные.
размер , если задано, передается в качестве аргумента размера потоку метод read() .
Если keepends имеет значение false, окончания строк будут удалены из строк вернулся.
readlines ( sizehint=None , keepends=True )
Прочитать все строки, доступные во входном потоке, и вернуть их в виде списка линии.
Окончания строк реализуются с помощью метода кодека decode() и включаются в список записей, если keepends верно.
sizehint , если задано, передается в качестве аргумента size в поток метод read() .
сброс ()
Сбрасывает буферы кодека, используемые для сохранения внутреннего состояния.
Обратите внимание, что изменение положения потока выполняться не должно. Этот метод в первую очередь предназначен для восстановления после ошибок декодирования.
В дополнение к вышеупомянутым методам, StreamReader также должен наследовать все другие методы и атрибуты из основного потока.
Объекты StreamReaderWriter
StreamReaderWriter — это удобный класс, который позволяет потоки, которые работают как в режиме чтения, так и в режиме записи.
Конструкция такова, что можно использовать фабричные функции, возвращаемые функция lookup() для создания экземпляра.
класс кодеки. StreamReaderWriter ( поток , Reader , Writer , errors=’strict’ )
Создает экземпляр StreamReaderWriter . поток должен быть файлоподобным объект. Reader и Writer должны быть заводскими функциями или классами, обеспечивающими StreamReader и StreamWriter интерфейс соотв. Обработка ошибок делается так же, как определено для потоков чтения и записи.
Экземпляры StreamReaderWriter определяют комбинированные интерфейсы Классы StreamReader и StreamWriter . Они наследуют все остальные методы и атрибуты из основного потока.
Объекты StreamRecoder
StreamRecoder переводит данные из одной кодировки в другую, что иногда бывает полезно при работе с разными средами кодирования.
Конструкция такова, что можно использовать фабричные функции, возвращаемые функция lookup() для создания экземпляра.
класс кодеки. StreamRecoder ( поток , кодирование , декодирование , чтение , запись , ошибки=’strict’ )
Создает экземпляр StreamRecoder , реализующий двустороннее преобразование: кодируют и декодируют работают во внешнем интерфейсе — данные видны код, вызывающий read() и write() , а Reader и Writer работа на бэкенде — данные в потоке .
Вы можете использовать эти объекты для прозрачного перекодирования, например, из Latin-1 в UTF-8 и обратно.
Аргумент stream должен быть файлоподобным объектом.
Аргументы кодируют и декодируют . придерживаться интерфейса кодека . Считыватель и Writer должен быть фабричными функциями или классами, предоставляющими объекты Интерфейс StreamReader и StreamWriter соответственно.
Обработка ошибок выполняется так же, как определено для потоковых считывателей и писатели.
Экземпляры StreamRecoder определяют комбинированные интерфейсы Классы StreamReader и StreamWriter . Они наследуют все остальные методы и атрибуты из основного потока.
Кодировки и Юникод
Строки хранятся внутри как последовательности кодовых точек в диапазон U+0000 – U+10FFFF . (См. PEP 393 для подробнее о реализации.) Как только строковый объект используется вне процессора и памяти, порядок следования байтов и то, как эти массивы хранятся в виде байтов, становится проблемой. Как и другие кодеки, сериализация строки в последовательность байтов известна как кодировка , а воссоздание строки из последовательности байтов известно как декодирование . Существует множество различных кодеков сериализации текста, которые совокупность, называемая текстовыми кодировками.
Простейшая текстовая кодировка (называется 'latin-1' или 'iso-8859-1' ) карты код указывает 0–255 на байты 0x0 – 0xff , что означает, что строка объект, который содержит кодовые точки выше U+00FF , не может быть закодирован с помощью этого кодек. Это вызовет ошибку UnicodeEncodeError , которая выглядит как показано ниже (хотя детали сообщения об ошибке могут отличаться): UnicodeEncodeError: кодек «latin-1» не может кодировать символ «\u1234» в позиция 3: порядковый номер вне диапазона(256) .
Существует еще одна группа кодировок (так называемые кодировки шармап), которые выбирают другое подмножество всех кодовых точек Unicode и то, как эти кодовые точки сопоставляется с байтами 0x0 — 0xff . Чтобы увидеть, как это делается, просто откройте например encodings/cp1252.py (это кодировка, которая используется в основном на окна). Есть строковая константа из 256 символов, которая показывает, какой символ сопоставляется с каким значением байта.
Все эти кодировки могут кодировать только 256 из 1114112 кодовых точек. определяется в Юникоде. Простой и понятный способ хранения каждого Unicode кодовая точка состоит в том, чтобы хранить каждую кодовую точку как четыре последовательных байта. Есть два возможности: хранить байты в прямом или прямом порядке байтов. Эти две кодировки называются UTF-32-BE и UTF-32-LE соответственно. Их недостатком является то, что если, например. вы используете UTF-32-BE на машине с прямым порядком байтов, которую вы всегда придется менять местами байты при кодировании и декодировании. UTF-32 позволяет избежать этого проблема: байты всегда будут в естественном порядке байтов. Когда эти байты прочитаны процессором с другим порядком байтов, тогда байты должны быть заменены местами. К иметь возможность определять порядок байтов последовательности байтов UTF-16 или UTF-32 , есть так называемая спецификация («метка порядка байтов»). Это символ Юникода У+FEFF . Этот символ может быть добавлен перед каждым UTF-16 или UTF-32 . последовательность байтов. Версия этого символа с перестановкой байтов ( 0xFFFE ) является недопустимый символ, который может не отображаться в тексте Unicode. Итак, когда первый символ в последовательности байтов UTF-16 или UTF-32 выглядит как U+FFFE , байты должны быть заменены местами при декодировании. К сожалению, у символа U+FEFF была вторая цель: a НУЛЕВАЯ ШИРИНА НЕРАЗРЫВНЫЙ ПРОБЕЛ : символ, который не имеет ширины и не позволяет слово, которое нужно разделить. Это может, например. использоваться, чтобы дать подсказки к алгоритму лигатуры. В Unicode 4.0 с использованием U+FEFF в качестве НУЛЕВАЯ ШИРИНА НЕРАЗРЫВНЫЙ ПРОБЕЛ был устарело (с U+2060 ( WORD JOINER ) на эту роль). Тем не менее Программное обеспечение Unicode по-прежнему должно иметь возможность обрабатывать U+FEFF в обеих ролях: как спецификацию. это устройство для определения схемы хранения закодированных байтов, и исчезает после того, как последовательность байтов была декодирована в строку; как НУЛЕВАЯ ШИРИНА NO-BREAK SPACE это обычный символ, который будет декодироваться как любой другой.
Существует другая кодировка, способная кодировать весь диапазон Unicode. символы: UTF-8. UTF-8 — это 8-битная кодировка, что означает отсутствие проблем. с порядком байтов в UTF-8. Каждый байт в последовательности байтов UTF-8 состоит из двух части: биты маркера (самые значащие биты) и биты полезной нагрузки. Биты маркера представляют собой последовательность от нуля до четырех битов 1 , за которыми следует бит 0 . символы Юникода закодированы следующим образом (где x — это биты полезной нагрузки, которые при объединении дают символ Юникода):
Диапазон
Кодировка
U-00000000 … U-0000007F
0хххххх
U-00000080 … U-000007FF
110ххххх 10хххххх
U-00000800 … U-0000FFFF
1110хххх 10хххххх 10хххххх
U-00010000 … U-0010FFFF
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
Младший значащий бит символа Unicode — это крайний правый бит x.
Поскольку UTF-8 является 8-битной кодировкой, спецификация не требуется, и любой символ U+FEFF в декодированная строка (даже если это первый символ) обрабатывается как ZERO ШИРИНА БЕЗ РАЗРЫВА ПРОБЕЛ .
Без внешней информации невозможно достоверно определить, какой кодировка использовалась для кодирования строки. Каждая кодировка шармапа может декодировать любую случайную последовательность байтов. Однако это невозможно с UTF-8, так как Последовательности байтов UTF-8 имеют структуру, которая не допускает произвольных байтов. последовательности. Чтобы повысить надежность кодировки UTF-8, обнаружен, Microsoft изобрела вариант UTF-8 (который Python называет "utf-8-sig" ) для программы «Блокнот»: перед любым из символов Юникода. записывается в файл, спецификация в кодировке UTF-8 (которая выглядит как байт последовательность: 0xef , 0xbb , 0xbf ). Так как это маловероятно что любой файл, закодированный с помощью charmap, начинается с этих байтовых значений (например, карта на
СТРОЧНАЯ ЛАТИНСКАЯ БУКВА I С ДИЕРЕЗИСОМ
ДВУХУГОЛЬНАЯ КАВАЧКА, УКАЗЫВАЮЩАЯ ВПРАВО
ПЕРЕВЕРНУТЫЙ ВОПРОСИТЕЛЬНЫЙ ЗНАК
в iso-8859-1), это увеличивает вероятность того, что кодировка utf-8-sig может быть правильно угадан из последовательности байтов. Так что здесь спецификация не используется, чтобы иметь возможность для определения порядка байтов, используемого для генерации последовательности байтов, но как подпись, которая помогает угадать кодировку. При кодировании кодеком utf-8-sig напишу 0xef , 0xbb , 0xbf как первые три байта файла. На декодирование utf-8-sig пропустит эти три байта, если они появятся первыми три байта в файле. В UTF-8 не рекомендуется использовать спецификацию. вообще следует избегать.
Стандартные кодировки
Python поставляется с рядом встроенных кодеков, реализованных как функции C или со словарями в качестве таблиц сопоставления. В следующей таблице перечислены кодеки по имя вместе с несколькими общими псевдонимами и языки, для которых скорее всего используется кодировка. Ни список псевдонимов, ни список языков предполагается исчерпывающим. Обратите внимание, что варианты написания, которые отличаются только регистр или использование дефиса вместо подчеркивания также являются допустимыми псевдонимами; следовательно, например 'utf-8' является допустимым псевдонимом для кодека 'utf_8' .
Сведения о реализации CPython: Некоторые распространенные кодировки могут обходить механизм поиска кодеков для улучшить производительность. Эти возможности оптимизации только распознается CPython для ограниченного набора (без учета регистра) псевдонимы: utf-8, utf8, latin-1, latin1, iso-8859-1, iso8859-1, mbcs (только для Windows), ascii, us-ascii, utf-16, utf16, utf-32, utf32 и то же самое с использованием подчеркивания вместо тире. Использование альтернативы псевдонимы для этих кодировок могут привести к замедлению выполнения.
Изменено в версии 3.6: Возможность оптимизации для us-ascii.
Многие наборы символов поддерживают одни и те же языки. Они различаются по индивидуальным символов (например, поддерживается ли ЗНАК ЕВРО или нет), а в присвоение символов позициям кода. Для европейских языков в в частности, обычно существуют следующие варианты:
набор кодов ISO 8859
кодовая страница Microsoft Windows, которая обычно является производной от 8859. кодовый набор, но заменяет управляющие символы дополнительными графическими символами
кодовая страница IBM EBCDIC
кодовая страница IBM PC, совместимая с ASCII
Кодек
Псевдонимы
Языки
ascii
646, американский код ASCII
Английский
большой5
big5-tw, csbig5
Традиционный китайский
big5hkscs
big5-hkscs, hkscs
Традиционный китайский
cp037
IBM037, IBM039
Английский
cp273
273, IBM273, csIBM273
немецкий
Новое в версии 3.4.
cp424
EBCDIC-CP-HE, IBM424
Иврит
cp437
437, IBM437
Английский
cp500
EBCDIC-CP-BE, EBCDIC-CP-CH, IBM500
Западная Европа
cp720
Арабский
cp737
Греческий
cp775
IBM775
Балтийские языки
cp850
850, IBM850
Западная Европа
cp852
852, IBM852
Центральная и Восточная Европа
cp855
855, IBM855
Болгарский, Белорусский, македонский, русский, сербский
cp856
Иврит
cp857
857, IBM857
Турецкий
cp858
858, IBM858
Западная Европа
cp860
860, IBM860
Португальский
cp861
861, CP-IS, IBM861
Исландский
cp862
862, IBM862
Иврит
cp863
863, IBM863
Канада
cp864
IBM864
Арабский
cp865
865, IBM865
Датский, норвежский
cp866
866, IBM866
Русский
cp869
869, CP-GR, IBM869
Греческий
cp874
Тайский
cp875
Греческий
cp932
932, ms932, mskanji, ms-kanji
Японский
cp949
949, мс949, ухк
Корейский
cp950
950, мс950
Традиционный китайский
cp1006
Урду
cp1026
IBM1026
Турецкий
cp1125
1125, ibm1125, cp866u, русский
Украинский
Новое в версии 3. 4.
cp1140
IBM1140
Западная Европа
cp1250
окна-1250
Центральная и Восточная Европа
cp1251
окна-1251
Болгарский, Белорусский, македонский, русский, сербский
cp1252
окна-1252
Западная Европа
cp1253
окна-1253
Греческий
cp1254
окна-1254
Турецкий
cp1255
окна-1255
Иврит
cp1256
окна-1256
Арабский
cp1257
окна-1257
Балтийские языки
cp1258
окна-1258
Вьетнамский
euc_jp
eucjp, ujis, u-jis
Японский
euc_jis_2004
джикс0213, эукджис2004
Японский
euc_jisx0213
eucjisx0213
Японский
euc_kr
евкр, корейский, ksc5601, кс_с-5601, кс_с-5601-1987, ксх1001, кс_х-1001
Корейский
gb2312
китайский, csiso58gb231280, euc-cn, euccn, eucgb2312-cn, ГБ2312-1980, ГБ2312-80, изо-ир-58
Упрощенный китайский
ГБК
936, cp936, ms936
Унифицированный китайский язык
gb18030
ГБ18030-2000
Унифицированный китайский язык
Гц
хзгб, хз-гб, хз-гб-2312
Упрощенный китайский
iso2022_jp
csiso2022jp, iso2022jp, ISO-2022-JP
Японский
iso2022_jp_1
исо2022джп-1, исо-2022-джп-1
Японский
iso2022_jp_2
исо2022джп-2, исо-2022-джп-2
Японский, корейский, упрощенный китайский, западноевропейский, греческий
iso2022_jp_2004
исо2022джп-2004, ISO-2022-JP-2004
Японский
iso2022_jp_3
исо2022джп-3, исо-2022-джп-3
Японский
iso2022_jp_ext
iso2022jp-ext, iso-2022-jp-ext
Японский
iso2022_kr
csiso2022kr, iso2022kr, ISO-2022-кр
Корейский
latin_1
исо-8859-1, исо8859-1, 8859, cp819, латиница, латиница1, L1
Западная Европа
изо8859_2
iso-8859-2, latin2, L2
Центральная и Восточная Европа
изо8859_3
iso-8859-3, latin3, L3
Эсперанто, мальтийский
изо8859_4
iso-8859-4, latin4, L4
Балтийские языки
изо8859_5
iso-8859-5, кириллица
Болгарский, Белорусский, македонский, русский, сербский
изо8859_6
iso-8859-6, арабский
Арабский
изо8859_7
iso-8859-7, греческий, греческий8
Греческий
изо8859_8
iso-8859-8, иврит
Иврит
изо8859_9
iso-8859-9, latin5, L5
Турецкий
изо8859_10
iso-8859-10, latin6, L6
Скандинавские языки
изо8859_11
изо-8859-11, тайский
Тайские языки
изо8859_13
iso-8859-13, latin7, L7
Балтийские языки
исо8859_14
iso-8859-14, latin8, L8
Кельтские языки
изо8859_15
iso-8859-15, latin9, L9
Западная Европа
изо8859_16
iso-8859-16, latin10, L10
Юго-Восточная Европа
йохаб
cp1361, мс1361
Корейский
кои8_р
Русский
кои8_т
Таджикский
Новое в версии 3. 5.
кои8_у
Украина
кз1048
kz_1048, strk1048_2002, rk1048
Казахский
Новое в версии 3.5.
мак_кириллица
маккириллица
Болгарский, Белорусский, македонский, русский, сербский
mac_greek
макгрек
Греческий
mac_iceland
Maciceland
Исландский
mac_latin2
маклатин2, maccentraleurope, mac_centeuro
Центральная и Восточная Европа
mac_roman
макроман, макинтош
Западная Европа
mac_turkish
мактюркиш
Турецкий
ptcp154
csptcp154, pt154, cp154, кириллица-азиат
Казахский
shift_jis
csshiftjis, shiftjis, sjis, s_jis
Японский
shift_jis_2004
shiftjis2004, sjis_2004, sjis2004
Японский
shift_jisx0213
shiftjisx0213, sjisx0213, s_jisx0213
Японский
utf_32
U32, UTF32
все языки
utf_32_be
UTF-32BE
все языки
utf_32_le
UTF-32LE
все языки
utf_16
U16, UTF16
все языки
utf_16_be
UTF-16BE
все языки
utf_16_le
UTF-16LE
все языки
utf_7
U7, Юникод-1-1-utf-7
все языки
utf_8
U8, UTF, UTF8, cp65001
все языки
utf_8_sig
все языки
Изменено в версии 3. 4: Кодировщики utf-16* и utf-32* больше не допускают использование суррогатных кодовых точек. ( U+D800 – U+DFFF ) для кодирования. Декодеры utf-32* больше не декодируют последовательности байтов, соответствующие суррогатным кодовым точкам.
Изменено в версии 3.8: cp65001 теперь является псевдонимом utf_8 .
Специальные кодировки Python
Ряд предопределенных кодеков специфичен для Python, поэтому их имена кодеков не имеет значения вне Python. Они перечислены в таблицах ниже на основе ожидаемые типы ввода и вывода (обратите внимание, что, хотя текстовые кодировки являются наиболее распространенный вариант использования кодеков, базовая инфраструктура кодеков поддерживает преобразование произвольных данных, а не просто кодирование текста). Для асимметричного кодеков указанное значение описывает направление кодирования.
Кодировки текста
Следующие кодеки обеспечивают кодирование от str до байт и байтоподобный объект для декодирования str , аналогичный тексту Unicode кодировки.
Кодек
Псевдонимы
Значение
идна
Реализовать RFC 3490 , смотрите также encodings.idna . Только ошибки = "строгие" поддерживается.
МБК
анси, БДС
Только для Windows: закодировать операнд согласно Кодовая страница ANSI (CP_ACP).
OEM
Только для Windows: закодировать операнд согласно Кодовая страница OEM (CP_OEMCP).
Новое в версии 3.6.
пальмос
Кодировка PalmOS 3.5.
punycode
Приспособление RFC 3492 . Кодеки с отслеживанием состояния не поддерживается.
raw_unicode_escape
Кодировка Latin-1 с \uXXXX и \UXXXXXXXX для других кодовые точки. Существующий обратная косая черта не любым способом сбежал. Он используется в Python рассольный протокол.
не определено
Создать исключение для все преобразования, даже пустые строки. Ошибка обработчик игнорируется.
unicode_escape
Кодировка подходит для содержимое Юникода литерал в кодировке ASCII исходный код Python, разве что кавычки не сбежал. Расшифровать из исходного кода Latin-1. Остерегайтесь этого источника Python код на самом деле использует UTF-8 по умолчанию.
Изменено в версии 3.8: удален кодек «unicode_internal».
Двоичные преобразования
Следующие кодеки обеспечивают двоичные преобразования: байтоподобный объект до байт отображения. Они не поддерживаются bytes.decode() (который производит только вывод str ).
Кодек
Псевдонимы
Значение
Кодер/декодер
base64_codec 1
base64, base_64
Преобразовать операнд в многострочный MIME base64 (т. результат всегда включает завершающий '\n' ).
Изменено в версии 3.4: принимает любые байтоподобный объект в качестве входных данных для кодирования и расшифровка
base64.encodebytes() / base64.decodebytes()
bz2_codec
бз2
Сжать операнд с помощью бз2.
bz2.compress() / bz2.decompress()
шестнадцатеричный кодек
шестнадцатеричный
Преобразовать операнд в шестнадцатеричный представительство с двумя цифр на байт.
binascii.b2a_hex() / binascii.a2b_hex()
quopri_codec
quopri, цитируется для печати, quoted_printable
Преобразование операнда в MIME цитируется для печати.
quopri. encode() с кавычки=Истина / quopri.decode()
уу_кодек
ууу
Преобразование операнда с помощью uuencode.
uu.encode() / уу.декод()
zlib_codec
zip, zlib
Сжать операнд с помощью gzip.
zlib.compress() / zlib.decompress()
1
Помимо байтоподобных объектов, 'base64_codec' также принимает только экземпляры ASCII str для расшифровка
Новое в версии 3.2: Восстановление бинарных преобразований.
Изменено в версии 3.4: Восстановление псевдонимов для бинарных преобразований.
Преобразование текста
Следующий кодек обеспечивает преобразование текста: a str в str отображение. Он не поддерживается str.encode() (который производит только байта вывода).
Кодек
Псевдонимы
Значение
rot_13
гниль13
Вернуть шифр Цезаря шифрование операнд.
Новое в версии 3.2: Восстановление преобразования текста rot_13 .
Изменено в версии 3.4: Восстановление псевдонима rot13 .
encodings.idna — Интернационализированные доменные имена в приложениях
Этот модуль реализует RFC 3490 (интернационализированные доменные имена в Applications) и RFC 3492 (Nameprep: профиль Stringprep для Интернационализированные доменные имена (IDN)). Он основан на кодировке punycode . и stringprep .
Если вам нужен стандарт IDNA 2008 из RFC 5891 и RFC 5895 , используйте сторонний модуль idna.
Вместе эти RFC определяют протокол для поддержки символов, отличных от ASCII, в домене. имена. Доменное имя, содержащее символы, отличные от ASCII (например, www.Alliancefrançaise.nu ) преобразуется в кодировку, совместимую с ASCII. (ACE, например, www.xn--alliancefranaise-npb.nu ). ACE-форма домена затем имя используется во всех местах, где произвольные символы запрещены протокол, например DNS-запросы, поля HTTP и т. д. на. Это преобразование осуществляется в приложении; по возможности незаметно для пользователю: приложение должно прозрачно преобразовывать метки домена Unicode в IDNA на проводе и конвертируйте метки ACE обратно в Unicode перед их представлением пользователю.
Python поддерживает это преобразование несколькими способами: кодек idna выполняет преобразование между Unicode и ACE, разделение входной строки на метки на основе символов-разделителей, определенных в , раздел 3. 1 RFC 3490 . и преобразование каждой метки в ACE по мере необходимости и, наоборот, разделение ввода байтовая строка в метки на основе . разделитель и преобразование любого ACE метки найдены в юникоде. Кроме того, модуль socket прозрачно преобразует имена хостов Unicode в ACE, так что приложениям не нужно беспокоиться о преобразовании самих имен хостов, когда они передают их в модуль розетки. Кроме того, модули, которые имеют имена хостов в качестве функции параметры, такие как http.client и ftplib , принять хост Unicode имена ( http.client затем также прозрачно отправляет имя хоста IDNA в поле, если он вообще отправляет это поле).
При получении имен хостов по сети (например, при обратном поиске имен) выполняется автоматическое преобразование в Unicode: заявки, желающие предъявить такие имена хостов пользователю следует декодировать в Unicode.
Модуль encodings.idna также реализует процедуру nameprep, которая выполняет определенную нормализацию имен хостов, чтобы добиться нечувствительности к регистру международные доменные имена и унифицировать похожие символы. Подготовка имени функции могут быть использованы напрямую, если это необходимо.
кодировки.idna. nameprep (этикетка )
Вернуть подготовленную версию метки . В настоящее время реализация предполагает строки запроса, поэтому AllowUnassigned равно true.
кодировки.idna. ToASCII (этикетка )
Преобразование метки в ASCII, как указано в RFC 3490 . UseSTD3ASCIIRules есть предполагается ложным.
кодировки.idna. ToUnicode (метка )
Преобразование метки в Unicode, как указано в RFC 3490 .
Этот модуль реализует кодовую страницу ANSI (CP_ACP).
Доступность: только для Windows.
Изменено в версии 3.3: Поддержка любого обработчика ошибок.
Изменено в версии 3.

Значение	Значение
`«строгий»`	Поднять `UnicodeError` (или подкласс), это значение по умолчанию. Реализовано в `строгие_ошибки()` .
`«игнорировать»`	Игнорировать искаженные данные и продолжить без дальнейшего уведомления. Реализовано в `ignore_errors()` .
`«заменить»`	Замените новым маркером. На кодировка, используйте `?` (символ ASCII). На декодирования используйте `�` (U+FFFD, официальная ЗАМЕНЯЮЩИЙ СИМВОЛ). Реализовано в `replace_errors()` .
`«обратная косая черта»`	Заменить escape-последовательностями с обратной косой чертой. При кодировании используйте шестнадцатеричную форму Unicode. кодовая точка с форматами `\xhh` `\uxxxx` `\Uxxxxxxxx` . При декодировании используйте шестнадцатеричный форма значения байта в формате `\xhh` . Реализовано в `обратная косая чертаreplace_errors()` .
`«суррогатный побег»`	При декодировании заменить байт на индивидуальный суррогатный код в диапазоне от `U+DC80` до `U+DCFF` . Затем этот код будет преобразован обратно в тот же байт, когда `'суррогатный побег' 9Используется обработчик ошибок 0463 при кодировании данных. (См. PEP 383 для подробнее.)`

Значение	Значение
`'xmlcharrefreplace'`	Заменить числовым символом XML/HTML ссылка, которая представляет собой десятичную форму Unicode кодовая точка с форматом `#` Реализовано в `xmlcharrefreplace_errors()` .
`'замена имени'`	Заменить на `\N{...}` escape-последовательности, то, что появляется в фигурных скобках, является именем свойство из базы данных символов Unicode. Реализовано в `namereplace_errors()` .

Диапазон	Кодировка
`U-00000000` … `U-0000007F`	0хххххх
`U-00000080` … `U-000007FF`	110ххххх 10хххххх
`U-00000800` … `U-0000FFFF`	1110хххх 10хххххх 10хххххх
`U-00010000` … `U-0010FFFF`	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

Кодек	Псевдонимы	Языки
ascii	646, американский код ASCII	Английский
большой5	big5-tw, csbig5	Традиционный китайский
big5hkscs	big5-hkscs, hkscs	Традиционный китайский
cp037	IBM037, IBM039	Английский
cp273	273, IBM273, csIBM273	немецкий Новое в версии 3.4.
cp424	EBCDIC-CP-HE, IBM424	Иврит
cp437	437, IBM437	Английский
cp500	EBCDIC-CP-BE, EBCDIC-CP-CH, IBM500	Западная Европа
cp720		Арабский
cp737		Греческий
cp775	IBM775	Балтийские языки
cp850	850, IBM850	Западная Европа
cp852	852, IBM852	Центральная и Восточная Европа
cp855	855, IBM855	Болгарский, Белорусский, македонский, русский, сербский
cp856		Иврит
cp857	857, IBM857	Турецкий
cp858	858, IBM858	Западная Европа
cp860	860, IBM860	Португальский
cp861	861, CP-IS, IBM861	Исландский
cp862	862, IBM862	Иврит
cp863	863, IBM863	Канада
cp864	IBM864	Арабский
cp865	865, IBM865	Датский, норвежский
cp866	866, IBM866	Русский
cp869	869, CP-GR, IBM869	Греческий
cp874		Тайский
cp875		Греческий
cp932	932, ms932, mskanji, ms-kanji	Японский
cp949	949, мс949, ухк	Корейский
cp950	950, мс950	Традиционный китайский
cp1006		Урду
cp1026	IBM1026	Турецкий
cp1125	1125, ibm1125, cp866u, русский	Украинский Новое в версии 3. 4.
cp1140	IBM1140	Западная Европа
cp1250	окна-1250	Центральная и Восточная Европа
cp1251	окна-1251	Болгарский, Белорусский, македонский, русский, сербский
cp1252	окна-1252	Западная Европа
cp1253	окна-1253	Греческий
cp1254	окна-1254	Турецкий
cp1255	окна-1255	Иврит
cp1256	окна-1256	Арабский
cp1257	окна-1257	Балтийские языки
cp1258	окна-1258	Вьетнамский
euc_jp	eucjp, ujis, u-jis	Японский
euc_jis_2004	джикс0213, эукджис2004	Японский
euc_jisx0213	eucjisx0213	Японский
euc_kr	евкр, корейский, ksc5601, кс_с-5601, кс_с-5601-1987, ксх1001, кс_х-1001	Корейский
gb2312	китайский, csiso58gb231280, euc-cn, euccn, eucgb2312-cn, ГБ2312-1980, ГБ2312-80, изо-ир-58	Упрощенный китайский
ГБК	936, cp936, ms936	Унифицированный китайский язык
gb18030	ГБ18030-2000	Унифицированный китайский язык
Гц	хзгб, хз-гб, хз-гб-2312	Упрощенный китайский
iso2022_jp	csiso2022jp, iso2022jp, ISO-2022-JP	Японский
iso2022_jp_1	исо2022джп-1, исо-2022-джп-1	Японский
iso2022_jp_2	исо2022джп-2, исо-2022-джп-2	Японский, корейский, упрощенный китайский, западноевропейский, греческий
iso2022_jp_2004	исо2022джп-2004, ISO-2022-JP-2004	Японский
iso2022_jp_3	исо2022джп-3, исо-2022-джп-3	Японский
iso2022_jp_ext	iso2022jp-ext, iso-2022-jp-ext	Японский
iso2022_kr	csiso2022kr, iso2022kr, ISO-2022-кр	Корейский
latin_1	исо-8859-1, исо8859-1, 8859, cp819, латиница, латиница1, L1	Западная Европа
изо8859_2	iso-8859-2, latin2, L2	Центральная и Восточная Европа
изо8859_3	iso-8859-3, latin3, L3	Эсперанто, мальтийский
изо8859_4	iso-8859-4, latin4, L4	Балтийские языки
изо8859_5	iso-8859-5, кириллица	Болгарский, Белорусский, македонский, русский, сербский
изо8859_6	iso-8859-6, арабский	Арабский
изо8859_7	iso-8859-7, греческий, греческий8	Греческий
изо8859_8	iso-8859-8, иврит	Иврит
изо8859_9	iso-8859-9, latin5, L5	Турецкий
изо8859_10	iso-8859-10, latin6, L6	Скандинавские языки
изо8859_11	изо-8859-11, тайский	Тайские языки
изо8859_13	iso-8859-13, latin7, L7	Балтийские языки
исо8859_14	iso-8859-14, latin8, L8	Кельтские языки
изо8859_15	iso-8859-15, latin9, L9	Западная Европа
изо8859_16	iso-8859-16, latin10, L10	Юго-Восточная Европа
йохаб	cp1361, мс1361	Корейский
кои8_р		Русский
кои8_т		Таджикский Новое в версии 3. 5.
кои8_у		Украина
кз1048	kz_1048, strk1048_2002, rk1048	Казахский Новое в версии 3.5.
мак_кириллица	маккириллица	Болгарский, Белорусский, македонский, русский, сербский
mac_greek	макгрек	Греческий
mac_iceland	Maciceland	Исландский
mac_latin2	маклатин2, maccentraleurope, mac_centeuro	Центральная и Восточная Европа
mac_roman	макроман, макинтош	Западная Европа
mac_turkish	мактюркиш	Турецкий
ptcp154	csptcp154, pt154, cp154, кириллица-азиат	Казахский
shift_jis	csshiftjis, shiftjis, sjis, s_jis	Японский
shift_jis_2004	shiftjis2004, sjis_2004, sjis2004	Японский
shift_jisx0213	shiftjisx0213, sjisx0213, s_jisx0213	Японский
utf_32	U32, UTF32	все языки
utf_32_be	UTF-32BE	все языки
utf_32_le	UTF-32LE	все языки
utf_16	U16, UTF16	все языки
utf_16_be	UTF-16BE	все языки
utf_16_le	UTF-16LE	все языки
utf_7	U7, Юникод-1-1-utf-7	все языки
utf_8	U8, UTF, UTF8, cp65001	все языки
utf_8_sig		все языки

Кодек	Псевдонимы	Значение
идна		Реализовать RFC 3490 , смотрите также `encodings.idna` . Только `ошибки = "строгие"` поддерживается.
МБК	анси, БДС	Только для Windows: закодировать операнд согласно Кодовая страница ANSI (CP_ACP).
OEM		Только для Windows: закодировать операнд согласно Кодовая страница OEM (CP_OEMCP). Новое в версии 3.6.
пальмос		Кодировка PalmOS 3.5.
punycode		Приспособление RFC 3492 . Кодеки с отслеживанием состояния не поддерживается.
raw_unicode_escape		Кодировка Latin-1 с `\uXXXX` и `\UXXXXXXXX` для других кодовые точки. Существующий обратная косая черта не любым способом сбежал. Он используется в Python рассольный протокол.
не определено		Создать исключение для все преобразования, даже пустые строки. Ошибка обработчик игнорируется.
unicode_escape		Кодировка подходит для содержимое Юникода литерал в кодировке ASCII исходный код Python, разве что кавычки не сбежал. Расшифровать из исходного кода Latin-1. Остерегайтесь этого источника Python код на самом деле использует UTF-8 по умолчанию.

Кодек	Псевдонимы	Значение	Кодер/декодер
base64_codec 1	base64, base_64	Преобразовать операнд в многострочный MIME base64 (т. результат всегда включает завершающий `'\n'` ). Изменено в версии 3.4: принимает любые байтоподобный объект в качестве входных данных для кодирования и расшифровка	`base64.encodebytes()` / `base64.decodebytes()`
bz2_codec	бз2	Сжать операнд с помощью бз2.	`bz2.compress()` / `bz2.decompress()`
шестнадцатеричный кодек	шестнадцатеричный	Преобразовать операнд в шестнадцатеричный представительство с двумя цифр на байт.	`binascii.b2a_hex()` / `binascii.a2b_hex()`
quopri_codec	quopri, цитируется для печати, quoted_printable	Преобразование операнда в MIME цитируется для печати.	`quopri. encode()` с `кавычки=Истина` / `quopri.decode()`
уу_кодек	ууу	Преобразование операнда с помощью uuencode.	`uu.encode()` / `уу.декод()`
zlib_codec	zip, zlib	Сжать операнд с помощью gzip.	`zlib.compress()` / `zlib.decompress()`

Html кодировка русская: Кодировка HTML-страницы — Структура HTML-документа — HTML Academy

Виды кодировок символов [АйТи бубен]

Проблемы с кодировкой UTF-8 в HTML файле | АйТиФай

Поиск

Контакты и участие

Кредиты

RFC 2319: UKRAIN KINGINAL STEAR STEAR KIALIR STATINGINAIN.

кодеков — Реестр кодеков и базовые классы — Документация по Python 3.10.7

Базовые классы кодеков

Обработчики ошибок

Кодирование и декодирование без сохранения состояния

Инкрементальное кодирование и декодирование

Объекты инкрементального кодировщика

Объекты инкрементного декодера

Потоковое кодирование и декодирование

Объекты StreamWriter

Объекты StreamReader

Объекты StreamReaderWriter

Объекты StreamRecoder

Кодировки и Юникод

Стандартные кодировки

Специальные кодировки Python

Кодировки текста

Двоичные преобразования

Преобразование текста

Добавить комментарий Отменить ответ

Рубрики