Регулярни изрази

„ Програмиране с Python“, ФМИ

Стефан Кънев & Николай Бачийски

Идеята

Регулярните изрази се използват за търсене и заместване в текст. Те предлагат апарат, с който дефинирате шаблони, описващи последователност от символи, след което да проверявате дали даден текст съдържа съответния шаблон. Основават се на идея от дискретната математика, макар че реализацията им в езиците за програмиране е доста по-сложна.

Прост пример

В детайли

В детайли (2)

В Python

В Python се ползва модулът re

import re
>>> import re
>>> re.search('spam', 'gmail')
>>> re.search('s..m', 'spam')
<_sre.SRE_Match object at 0x00A31090>
>>> re.search('\\d\\d', 'asnwer: 42')
<_sre.SRE_Match object at 0x00A310C8>

Още детайли

  • Операторът | в регулярните изрази означава това отляво или това отдясно
  • (c|h)at намира cat и hat
  • ^ съвпада с началото на низа. ^oo ще намери oop, но не и foo.
  • $ съвпада с края на низа. ar$ ще намери bar, но не и argh.

Повторения

  • ? означава, че да го има 0 или 1 пъти
  • + означава, че нещо може да го има един или повече пъти
  • * означава, че нещо може да го има нула или много пъти
  • {x, y} означава, че нещо може да го има от x до y пъти
Примери:
\d{8}
fn\d+
\d{1,2}\.\d{1,2}.\d{4}
route\d*

Класове

  • Класовете съответстват на някакво множество от символи.
  • Бележат се с [].
  • [chr]at съответства на cat, hat и rat.
  • Могат да включват и последователности от символи - [a-z0-8] съответства на малка буква или цифра, без 9
  • Ако започва с ^, класът се интерпретира като отрицание на символите вътре - [^A-Z] съответства на нещо, което не е голяма буква

Област

Върнатия от search обект има методи start, end и span.


>>> import re
>>> text = 'Bla bla bla mityo blabla bla'
>>> match = re.search(r'mityo', text)
>>> match.span()
(12, 17)
>>> match.start(), match.end()
12, 17
>>> text[match.start(), match.end()]
'mityo'

Групи

Всички изрази оградени със скоби се запазват в обекта върнат от re.search. Те се наричат групи


>>> import re
>>> match = re.search(r'\w+ (\w+), fn(\d+)',
           'Nickolay Bachiiski, fn43600')
>>> match.group(1)
'Bachiiski'
>>> match.group(2)
'43600'

Субституции

Всички изрази оградени със скоби се запазват в обекта върнат от re.search. Те се наричат групи


>>> import re
>>> re.sub(r':(.*)!', r'!\1?', "I'm a :very big! hacker!")
"I'm a !very big hacker?"

Алчни "квантификатори"

+, * и {x,y} намират максималния брой символи, които могат. Това се нарича "алчно поведение" (greedy). Ако искате да намирате минималния брой, добавете едно ? към края


>>> import re
>>> re.sub(r'<b>(.*)</b>', r'<strong>\1</strong>', 
      'My name is <b>Mityo</b> the <b>Python</b>')
'My name is <strong>Mityo</b> the <b>Python</strong>'

>>> re.sub(r'<b>(.*?)</b>', r'<strong>\1</strong>', 
      'My name is <b>Mityo</b> the <b>Python</b>')
'My name is <strong>Mityo</strong> the <b>Python</b>'