Per lavorare sul codice sorgente di un testo può essere utile utilizzare la regular expression, cioè dei caratteri jolly che dicono al programma di cercare e sostituire delle occorrenze.
Il carattere per indicare “qualsiasi carattere” è il punto “.”. Se io ho ad esempio un file html con span class=”T30″, span class=”T36″, span class=”T45″ e voglio eliminare tutte le span class, potrò indicare di trovare e sostituire span class=”…”.
Inoltre, in generale
- . significa “qualsiasi carattere”.
- ^ indica l’inizio di una linea.
- $ indica la fine di una linea.
- < indica l’inizio di una parola.
- > indica la fine di una parola.
- ? significa che l’elemento che lo precede è presente meno di una volta.
- * significa che l’elemento che lo precede è presente zero o più volte.
- + significa che l’elemento che lo precede è presente una o più volte.
- {n} significa che l’elemento che lo precede è presente n volte.
- {n,} significa che l’elemento che lo precede è presente n o più volte.
- {,n} significa che l’elemento che lo precede è presente meno di n volte.
- {n,m} indica un numero di ripetizioni dell’elemento che lo precede compreso nell’intervallo tra n e m; n e m possono essere omessi escludendo il limite corrispondente.