ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 01.12.2023
Просмотров: 25
Скачиваний: 1
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Информатика. Упражнение Представление текстовой информации в кодировках KOI-8, и Цель работы изучить наиболее часто встречающиеся кодировки текстов.
Последовательность выполнения упражнения 1
1. Ознакомьтесь с таблицами кодировок
ASCII (коды 0 - 127)
,
KOI-8R (коды 160 - 255)
, windows-1251 (коды 128 -
255) и
UTF-8 (кириллица. Получите у преподавателя номер варианта текста для кодирования. Варианты приведены в табл. 1.
3. Закодируйте полученный текст последовательно в кодировках KOI-8, windows-1251 итак, как показано в примере Табл. 1. Варианты заданий варианта
Текст для кодирования - язык для обучения начинающих
2
Автор Pascal - Никлаус Вирт(Niklaus Какой язык сложнее - C++ или Чем отличается язык C++ от C#?
5
FORTRAN - язык для математических задач - язык для генерации отчётов
7
Автор языка PERL - Ларри Уолл (1987 г - язык для динамических страниц (1996)
9
JavaScript - язык для активных страниц (питон, 1991) - возврат к прошлому?
11
ЭВМ, ЦВМ, АВМ, ПЭВМ, computer, ipad
12
SQL -структурированный язык запросов - сущность-связь
14
HTML - основа всемирной паутины (Автор HTML - Тим Бернерс-Ли (1989 г, HTTP, FTP - протоколы Почтовые протоколы POP 3, IMAP, SMTP
18
MySQL, Oracle, DBI - реляционные СУБД - метка, этикетка, меченый атом - верх, первое место, topless - ?
21
SELECT - главный оператор языка SQL
22
INTRANET - локальная сеть интернет — расширяемый язык разметки -Париж, London - Лондон, Roma - Что больше - 5! * 5! или 6! * 4! +СУБД ACCESS -сетевая или локальная - пакет для растровой графики - пакет для векторной графики 3D Studio MAX - пакет трёхмерной графики - пакет программ для математиков
Пример Нужно закодировать строку write - писать (англ.).
Результат
koi8
w r i t e
- писать англ cc 2e 29
cp1251
w r i t e
- писать англ eb 2e 29
utf-8
w r i t e
- писать англ 28 d0 b0 d0 bd d0 b3 d0 bb 2e Обратите внимание на то, что слово write, пробел, скобки и точка кодируются одинаково во всех трёх кодировках.
Кодировки KOI-8R, windows-1251 и UTF-8 состоят из двух частей. В качестве первой части всех перечисленных кодировкок используется кодировка
ASCII (коды 0 - 127)
, служащая для представления латиницы,цифр и специальных знаков. Вторые части однобайтных кодировок
KOI-8R
и windows-1251
содержат коды (128 - кириллицы и ряда специальных символов.
Кодировка UTF-8 - многобайтная. Предусмотрена длина кода одного символа от одного до шести байт. На практике используются коды длиной до четырёх байт. Русские буквы (кириллица) представляются 16-битными
(двухбайтными) кодами где X обозначены двоичные разряды для размещения кода символа в соответствии с таблицей UNICODE.
Юникод (англ. Unicode) — стандарт кодирования символов, позволяющий представить знаки почти всех письменных языков. Представляемые в юникоде символы кодируются целыми числами без знака. Эти числа будем называть кодами символов в юникоде или просто UNICODE. Юникод имеет несколько форм представления символов в компьютере UTF-8, UTF-16 (UTF-16BE, UTF-16LE) и UTF-32 (UTF-32BE, UTF-32LE). (Англ. Unicode transformation format - Рассмотрим, как кодируется в UTF-8 буква ЖЕ или 0416 16
или 10000 010110 2
. UNICODE в двоичном виде разбивается на две части пять левых бит и шесть правых. Левая часть дополняется до байта признаком 110 двухбайтного кода UTF-8: 11010000. К правой части приписываются два бита 10 признака продолжения многобайтного кода 10010110. Окончательно код буквы Ж в UTF-8 выглядит так 10010110 или D0 96 Таким образом, русская буква кодируется дважды сначала в 11-битный UNICODE, а затем - в 16-битный Рассмотрим, как отличить в закодированном в UTF-8 тексте однобайтные коды от двухбайтных. Представим часть текста ь (а,
содержащую двухбайтные коды русских букв ь и аи заключённые между ними однобайтные коды пробела и открывающей скобки в шестнадцатиричном и двоичном коде (табл. 2). Первый байт букв ь и а начинается признаком первого байта двухбайтного кода 110. Вначале второго байта двухбайтного кода стоит признак продолжения кода 10. Все однобайтные коды начинаюся битом Табл. 2. Отличия однобайтных кодов от двухбайтных
Символ ь
пробел
)
а
Шестн. код d1 8c
20 28
d0 b0
Двоич. код 11010001 10001100 00100000 00101000 11010000 10110000
http://i.voenmeh.ru/kafi5/Kam.loc/inform/UprINF_1.html
Go
10 captures
31 Oct 2016 - 20 Oct 2019
SEP
JUL
OCT
17
2018
2019
2020
????
⍰
❎
f
????
▾
About this capture
Последовательность выполнения упражнения 1
1. Ознакомьтесь с таблицами кодировок
ASCII (коды 0 - 127)
,
KOI-8R (коды 160 - 255)
, windows-1251 (коды 128 -
255) и
UTF-8 (кириллица. Получите у преподавателя номер варианта текста для кодирования. Варианты приведены в табл. 1.
3. Закодируйте полученный текст последовательно в кодировках KOI-8, windows-1251 итак, как показано в примере Табл. 1. Варианты заданий варианта
Текст для кодирования - язык для обучения начинающих
2
Автор Pascal - Никлаус Вирт(Niklaus Какой язык сложнее - C++ или Чем отличается язык C++ от C#?
5
FORTRAN - язык для математических задач - язык для генерации отчётов
7
Автор языка PERL - Ларри Уолл (1987 г - язык для динамических страниц (1996)
9
JavaScript - язык для активных страниц (питон, 1991) - возврат к прошлому?
11
ЭВМ, ЦВМ, АВМ, ПЭВМ, computer, ipad
12
SQL -структурированный язык запросов - сущность-связь
14
HTML - основа всемирной паутины (Автор HTML - Тим Бернерс-Ли (1989 г, HTTP, FTP - протоколы Почтовые протоколы POP 3, IMAP, SMTP
18
MySQL, Oracle, DBI - реляционные СУБД - метка, этикетка, меченый атом - верх, первое место, topless - ?
21
SELECT - главный оператор языка SQL
22
INTRANET - локальная сеть интернет — расширяемый язык разметки -Париж, London - Лондон, Roma - Что больше - 5! * 5! или 6! * 4! +СУБД ACCESS -сетевая или локальная - пакет для растровой графики - пакет для векторной графики 3D Studio MAX - пакет трёхмерной графики - пакет программ для математиков
Пример Нужно закодировать строку write - писать (англ.).
Результат
koi8
w r i t e
- писать англ cc 2e 29
cp1251
w r i t e
- писать англ eb 2e 29
utf-8
w r i t e
- писать англ 28 d0 b0 d0 bd d0 b3 d0 bb 2e Обратите внимание на то, что слово write, пробел, скобки и точка кодируются одинаково во всех трёх кодировках.
Кодировки KOI-8R, windows-1251 и UTF-8 состоят из двух частей. В качестве первой части всех перечисленных кодировкок используется кодировка
ASCII (коды 0 - 127)
, служащая для представления латиницы,цифр и специальных знаков. Вторые части однобайтных кодировок
KOI-8R
и windows-1251
содержат коды (128 - кириллицы и ряда специальных символов.
Кодировка UTF-8 - многобайтная. Предусмотрена длина кода одного символа от одного до шести байт. На практике используются коды длиной до четырёх байт. Русские буквы (кириллица) представляются 16-битными
(двухбайтными) кодами где X обозначены двоичные разряды для размещения кода символа в соответствии с таблицей UNICODE.
Юникод (англ. Unicode) — стандарт кодирования символов, позволяющий представить знаки почти всех письменных языков. Представляемые в юникоде символы кодируются целыми числами без знака. Эти числа будем называть кодами символов в юникоде или просто UNICODE. Юникод имеет несколько форм представления символов в компьютере UTF-8, UTF-16 (UTF-16BE, UTF-16LE) и UTF-32 (UTF-32BE, UTF-32LE). (Англ. Unicode transformation format - Рассмотрим, как кодируется в UTF-8 буква ЖЕ или 0416 16
или 10000 010110 2
. UNICODE в двоичном виде разбивается на две части пять левых бит и шесть правых. Левая часть дополняется до байта признаком 110 двухбайтного кода UTF-8: 11010000. К правой части приписываются два бита 10 признака продолжения многобайтного кода 10010110. Окончательно код буквы Ж в UTF-8 выглядит так 10010110 или D0 96 Таким образом, русская буква кодируется дважды сначала в 11-битный UNICODE, а затем - в 16-битный Рассмотрим, как отличить в закодированном в UTF-8 тексте однобайтные коды от двухбайтных. Представим часть текста ь (а,
содержащую двухбайтные коды русских букв ь и аи заключённые между ними однобайтные коды пробела и открывающей скобки в шестнадцатиричном и двоичном коде (табл. 2). Первый байт букв ь и а начинается признаком первого байта двухбайтного кода 110. Вначале второго байта двухбайтного кода стоит признак продолжения кода 10. Все однобайтные коды начинаюся битом Табл. 2. Отличия однобайтных кодов от двухбайтных
Символ ь
пробел
)
а
Шестн. код d1 8c
20 28
d0 b0
Двоич. код 11010001 10001100 00100000 00101000 11010000 10110000
http://i.voenmeh.ru/kafi5/Kam.loc/inform/UprINF_1.html
Go
10 captures
31 Oct 2016 - 20 Oct 2019
SEP
JUL
OCT
17
2018
2019
2020
????
⍰
❎
f
????
▾
About this capture