Помните, мы хвалили синтаксис регулярных выражений за лаконичность и полезность, а не за легкость освоения новичками? На самом деле регулярные выражения имеют заслуженную репутацию языка только для письма (write-only language).
И не думайте, что такая тема как http://www.school-znak.ru/doshkolnoe-otdelenie на сайте school-znak.ru никак не связана с такой темой, как программирование. Может и не связана на первый взгляд, но все же зайдите на сайт school-znak.ru и там много узнаете про детский сад.
Начнем с заголовка. Поскольку он не содержит никаких числовых данных, мы могли бы просто отбросить первую строку, но — исключительно для приобретения опыта — попробуем провести ее структурный анализ. Она содержит четыре словарных поля (буквенно-цифровых поля”, разделенных знаками табуляции).
Эти поля могут содержать пробелы, поэтому мы не можем просто использовать управляющий символ \w, чтобы задать эти символы. Вместо этого мы используем выражение [ \w ], т.е. словообразующий символ (букву, цифру или знак подчеркивания) или пробел. Один или несколько словообразующих символов задается выражением [\w ]+. Мы хотим найти тот из них, который стоит в начале строки, поэтому пишем выражение ^[\w ]+. “Шапочка” (л) означает “начало строки”. Каждое из оставшихся полей можно выразить как знак табуляции, за которым следуют некие слова: ( [\w ]+). До конца строки их может быть сколько угодно: ( [ \w ]+)*$. Знак доллара ($) означает “конец строки”. Теперь напишем строковый литерал на языке C++ и получим дополнительные обратные косые черты.
""[\\w ]+( [\\w ]+)*$"
Мы не можем проверить, что знак табуляции действительно является таковым, но в данном случае он раскрывается в ходе набора текста и распознается сам.
Приступим к самой интересной части упражнения: к шаблону для строк, из которых мы хотим извлекать числовые данные. Первое поле вновь имеет шаблон ^[\w ]+. За ним следуют ровно три числовых поля, перед каждым из которых стоит знак табуляции: ( \d+) , следовательно, получаем следующий шаблон:
"[\w ] + ( \d+)( \d+)( \d+)$
После его вставки в строковый литерал он превращается в такую строку:
""[\\w ]+( \\d+)( \\d+)( \\d+)$"
Теперь мы сделали все, что требовалось. Сначала проверим, правильно ли сформирована таблица.
int main()
{
ifstream in("table.txt"); // входной файл
if (!in) error("нет входного файла\n");
string line; // буфер ввода int lineno = 0;
regex header( "^[\\w ]+( [\\w ]+)*$"); // строка заголовка
regex row( "^[\\w ]+( \\d+)( \\d+)( \\d+)$"); // строка данных
if (getline(in,line)) { // проверяем строку заголовка smatch matches;
if (!regex_match(line, matches, header)) error("нет заголовка");
}
while (getline(in,line)) { // проверяем строку данных ++lineno; smatch matches;
if (!regex_match(line, matches, row))
error("неправильная строка",to_string(lineno));
}
}
Опубликовал katy
April 21 2015 08:50:23 ·
0 Комментариев ·
2866 Прочтений ·
• Не нашли ответ на свой вопрос? Тогда задайте вопрос в комментариях или на форуме! •
Комментарии
Нет комментариев.
Добавить комментарий
Рейтинги
Рейтинг доступен только для пользователей.
Пожалуйста, залогиньтесь или зарегистрируйтесь для голосования.
Нет данных для оценки.
Гость
Вы не зарегистрированны? Нажмите здесь для регистрации.