Файл: Обработка символьных строк.doc

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 06.11.2023

Просмотров: 816

Скачиваний: 15

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.


Пример. Пусть в файле находятся две строки:

ABCAAABCA

ABBBCDAEFB

Здесь две цепочки длиной 3: AAA в первой строке и BBB во второй. Но буква A в первой строке всего встречается 5 раз, а буква B во второй строке – 4 раза. Выбираем меньшее из этих двух значений. Ответ: 4.

  1. Текстовый файл 24-247.txt состоит не более чем из 106 символов и содержит только заглавные латинские буквы A..Z. Найдите в фал самую длинную цепочку одинаковых букв, стоящих рядом. Запишите в ответе, сколько раз буква, образующая эту цепочку, встречается в соответствующей строке. Если в файле есть несколько цепочек одинаковой максимальной длины, нужно взять ту, где общее количество этих букв больше.

Пример. Пусть в файле находятся две строки:

ABCAAABCA

ABBBCDAEFB

Здесь две цепочки длиной 3: AAA в первой строке и BBB во второй. Но буква A в первой строке всего встречается 5 раз, а буква B во второй строке – 4 раза. Выбираем большее из этих двух значений. Ответ: 5.

  1. *(А. Богданов) Текстовый файл 24-249.txt состоит не более чем из 106 символов и содержит только десятичные цифры и буквы латинского алфавита. Найдите минимальную длину подстроки, содержащей все шестнадцатеричные цифры. Строка может включать повторяющиеся цифры и другие символы. В ответе укажите найденную длину.

  2. *(В. Петров) Текстовый файл 24-250.txt состоит не более чем из 106 символов и содержит только буквы латинского алфавита и точки. Определите минимальное количество идущих подряд символов, среди которых ровно семь точек.

  3. (Д. Статный) Текстовый файл 24-251.txt состоит не более чем из 106 символов и содержит только буквы латинского алфавита и десятичные цифры. Определите максимальную длину подстроки, которая ограничена с одной стороной буквой A, а с другой – D и не содержит других букв A и D внутри.

  4. (А. Богданов) Текстовый файл 24-252.txt состоит не более чем из 106 символов и содержит только буквы латинского алфавита и десятичные цифры. Найдите минимальную длину подстроки, содержащей в порядке возрастания все шестнадцатеричные цифры. Строка может включать повторяющиеся цифры и другие символы. В ответе укажите найденную длину.

  5. (PRO100 ЕГЭ) Текстовый файл 24-253.txt состоит не более чем из 106 символов и содержит только буквы латинского алфавита A, C, D, F и O. Определите максимальное количество идущих подряд троек символов вида


согласная + любая буква + гласная

Например, для строки ACCADAADD ответом будет число 2 (ACCADAADD).

  1. (Е. Фокин) Текстовый файл 24-252.txt состоит не более чем из 106 символов и содержит только буквы латинского алфавита и десятичные цифры. Найдите максимальную длину подстроки, ограниченной с двух сторон одним и тем же символом и не содержащей этого символа в середине. В ответе укажите сначала символ, ограничивающий строку, а затем без разделителей длину найденной строки, включая граничные символы. Если в строке есть несколько подходящих подстрок одинаковой длины, нужно указать символ, имеющий больший числовой код. Например, для строки ABCDABECD ответом будет D6.

  2. Текстовый файл 24-164.txt состоит не более чем из 106 символов и содержит только буквы латинского алфавита. Текст разбит на строки различной длины. Для каждой строки нужно определить букву (или буквы), которая встречается в этой строке чаще всего после буквы X. Все эти буквы добавляются в новый список. Найдите букву, которая чаще всего встречается в построенном списке, и в качестве ответа укажите, сколько раз она там встретилась. Например, пусть файл содержит две строки:

XAXBXAXBCXX

BXAXCXCXAXD

В первой строке чаще всего после буквы X встречаются буквы А и B (по 2 раза), а во второй строке – буквы A и С (по 2 раза). В итоге должен быть построен список [A, B, A, C], в котором чаще всего (2 раза) встречается буква A. Ответ: 2.

  1. (А. Богданов) Текстовый файл 24-256.txt состоит не более чем из 106 символов и содержит только заглавные буквы латинского алфавита и десятичные цифры. Определите максимальное количество идущих подряд символов, среди которых любые два символа из набора N,O,T в различных комбинациях(с учётом повторений) не стоят через один символ (который может быть любым). Например, ТEN или NUТ не могут быть в искомой подстроке.

  2. Текстовый файл 24-257.txt состоит не более чем из 106 символов и содержит только заглавные буквы латинского алфавита. Группа из трёх идущих подряд символов, содержащая по одному разу каждую из букв A, C и F, считается разделителем. Разделители могут накладываться друг на друга, например, последовательность символов AFCAF считается идущими подряд разделителями AFC, FCA и CAF. Определите количество символов в самом длинном фрагменте, полученном после удаления разделителей.


Пример. В строке CORAFCAFROCKCFAAC. Разделители в этой строке выделены жирным шрифтом. После удаления разделителей остается три фрагмента: COR, ROCK и AC. Самый длинный из них содержит 4 символа. Ответ: 4.

  1. (А. Богданов) Текстовый файл 24-258.txt содержит геном коронавируса SARS-CoV-2 в виде последовательности из четырех типов нуклеотидов, обозначенных буквами A, T, G, C. Известно, что код S-белка, «отвечающего» за проникновение вируса в клетку, состоит из троек нуклеотидов (кодонов). Этот код начинается с ATGTTT, заканчивается на ACATAA и не содержит внутри себя кодонов TAA, TGA, TAG. Найдите количество кодонов, из которых строится код S-белка, включая стартовые и конечные кодоны.

  2. Текстовый файл 24-259.txt состоит не более чем из 106 символов и содержит только символы A, T, G, C. Найдите длину наибольшей цепочки символов, которая начинается с ATG, заканчивается на TAA и между этими группами символов не содержит цепочек TAA, TGA и TAG.

1 Архив с файлами данных для этой и следующих задач можно скачать по ссылке http://kpolyakov.spb.ru/download/24data.zip.

http://kpolyakov.spb.ru