salvio78
04-06-2020, 15:57
Sto facendo dei test tramite https://www.regexpal.com/ usando PCRE per la seguente lista:
Mark Diamond 12/12/1956
Julia Bell 01/05/1952
Mark Lann 23/11/1978
Jenna Ross 12/02/1983
Perchè con questa regex [A-Za-z ]+(?:[0-9]{2}\/)+19[^5][0-9] ottengo il risultato aspettato ovvero tutte le righe con data di nascita che non implichi i nati negli anni '50 mentre con [A-Za-z ]+(?:[0-9]{2}\/)+[0-9]{2}[^5][0-9] invece prende anche le prime due linee, quelle dei nati negli anni '50 ma solo fino alla prima cifra dell'anno? Non dovrebbero essere equivalenti le due regex?
La prima è molto più stringente, forzando il 19 invece del [0-9]{2} della seconda.
Il fulcro della situazione però sta qui: (?:[0-9]{2}\/)+
il "+" fa sì che il match di quel gruppo avviene se è presente una o più volte, la differenza nei tuoi due casi è che per la prima regexp il match è con due elementi (giorno e mese), mentre nella seconda solo uno (il giorno), questo perché, come correttamente ti aspetti, se matchasse sia giorno che mese, fallirebbe poi il match dell'anno, in quanto non soddisfa la regola successiva.
Mi spiego meglio analizzando quello che succede alla prima riga del tuo input, usando la seconda espressione:
Mark Diamond 12/12/1956
[A-Za-z ]+ come atteso prenderà tutte le lettere prima della data;
(?:[0-9]{2}\/)+ prova a prendere due numeri seguiti da uno slash (nell'intento di matchare giorno e mese), siccome hai specificato che deve cercarne uno o più ed essendo l'engine greedy, proverà a matcharne il più possibile, quindi inizialmente ne troverà due (12/12/);
[0-9]{2}[^5][0-9] quindi proverà a fare il match di quello che resta (l'anno), ma fallirà per via del 5, quindi quello che succede ora, è che l'engine torna al passo precedente e vede che succede matchando una sola volta il gruppo "[0-9]{2}\/",invece di due;
in questo caso farà il match solo del giorno (12/) lasciando al passo successivo quello che resta (cioè 12/1956);
ora per come è scritto il match dell'anno, [0-9]{2} matcherà "12", [^5] matcherà "/" e [0-9] il primo numero dopo lo slash, cioè "1" ottenendo ciò che vedi.
Questo stesso problema lo avresti anche con la prima regexp, ma non te ne accorgi perché essendoci "19" invece che [0-9]{2}, vedresti il match solo se nella data ci fosse scritto 19 nel mese.
In conclusione quindi, se ti aspetti di ricevere sempre una data composta da dd/mm/yyyy, ti consiglio di fissare il match del gruppo (?:[0-9]{2}\/) a due elementi, invece che uno o più, quindi: (?:[0-9]{2}\/){2}
o in alternativa invece di usare [^5] per escludere gli anni '50, usare [0-46-9] in modo da evitare che venga involotariamente matchato lo slash (ma direi che la prima soluzione è preferibile)
Mi scuso per l'uso improprio del termine "matchare".
vBulletin® v3.6.4, Copyright ©2000-2025, Jelsoft Enterprises Ltd.