PDA

View Full Version : [C#] Split string


Darecon
27-11-2009, 10:54
Salve a tutti, ho un problema nello splittare una stringa, vi faccio subito un esempio:

Questa e' la mia stringa:

1,-400,400,3,243834,'AAAAAA',52895,'BBBBB',660,'CCCCCC‚¬',2

Se uso il metodo split di string usando come delimitatore , mi separa anche questo campo: 'CCCCCC‚¬' in 'CCCCCC e ¬', io vorrei che invece passi oltre.. Come fare? Ovviamente questo e' solo un caso, la maggiorparte delle stringhe non ha di questi problemi.

Grazie.. ^^

gugoXX
27-11-2009, 13:14
Pronti.... via.

Cerco di identificare tutti i token circondati da apice, chiamiamoli stringhe, in quanto le Virgole, all'interno di una stringa, non devono essere considerate per la split.

Quindi propongo la seguente:
1- Sostituisco tutte le occorrenze di ,' con un carattere di inzio stringa non altrimenti utilizzato. Es: <
2- Sostituisco tutte le occorrenze di ', con un carattere di fine stringa non altrimenti utilizzato. Es: >
3- Sostituisco ogni virgola presente tra un < e un > con un terzo carattere non utilizzato. Es: £.
3a- Attenzione, nella stringa ert,rty,<qwer>,<wert>,tyu,yui c'e' una virgola tra un < e un >, ma questa non sara' da considerare. La regola 3 estesa e' infatti: "Sostituisco ogni virgola presente tra un < e un > nella quale sono assenti altri < o > con un terzo carattere non utilizzato
4- posso risostituire indietro tutti i < e i > con i rispettivi ,' e ',
5- splitto la stringa sulle virgole, sicuro che non considerero' le virgole in mezzo ad una stringa (ora sono dei £)
6- passo ogni stringa splittata e sostituisco finalmente i £ con delle ,

Facile no?

Darecon
27-11-2009, 14:07
for (int i = 0; i < str.Length; i++)
{
if (str[i] == '\'' && !aperto && str[i-1]==',')//evito che nome con la struttura aaa'aaa incasinino il tutto
{
aperto = true;
continue;
}
if (str[i] == '\'' && aperto)
aperto = false;
if (aperto)
if (str[i] == ',')
str=str.Substring(0,i)+"€"+str.Substring(i+1,str.Length-i-1);

}
string[] spl = str.Split(',');
for (int j = 0; j < spl.Length; j++)
{
string r = spl[j];
for (int i = 0; i < r.Length; i++)
if (r[i] == '€')
spl[j] = r.Replace('€', ',');
}

Oh yeah, grazie per l'input, e' servito molto, ho adottato circa il tuo schema.. :D

bottomap
27-11-2009, 17:01
Ciao,

Se poi hai la facoltà di modificare la stringa a priori in fase di generazione, potresti scegliere un separatore (è da vedere se esiste) che sei sicuro non possa comparire nei vari elementi.
In questo modo elimineresti il problema direttamente alla radice... se non puoi farlo, la soluzione proposta da gugoXX è comunque ottimale.

Ciaociao :)

gugoXX
27-11-2009, 17:08
Bene.
Pero' fra 6 mesi, se devo rileggere, mi viene mal di testa.

Edit: Ripropongo, visto che ogni tanto pensare 1 minuto in piu' e' meglio.
Propongo la seguente, con una modifica variante dell'originale, sostanzialmetne identico alla tua


static void Main(string[] args)
{
string mstr = "1,-400,400,3,243834,'AAAAAA',52895,'BBBBB',660,'CCC,CCC,¬',2";

mstr = Regex.Replace(mstr, "'[^']*'", str => str.Value.Replace(',', '£'));

var res = mstr
.Split(',')
.Select(str => str.Replace('£', ','))
.ToArray();
}


Per la Regex, e' da leggersi cosi':
Cerco tutte le sottosequenze che cominciano con ', terminano con ' e in mezzo hanno un qualsiasi set di caratteri (Eventualmente vuoto) NON composto '
sostituisco ciascuna di queste occorrenze con una nuova stringa, identica a ciascuna di quelle trovate, nelle quali sostituisco ciascun ',' con un '£'

L'ultimo invece e' una sequenza che serve solo per splittare su ',' rimpiazzare i '£' in ciascuna sottostringa e restituire l'array delle sottostringhe.

Occhio.
Il tuio primo ciclo cambia il dominio del for all'interno del ciclo stesso, e non e' mai troppo bello.
E la tua ultima parte e' poco effciente.
Le stringhe sono immutabili in C#. Ogni volta che scrivi
spl[j] = r.Replace('€', ','); //Basterebbe mettere spl[j]=','; no?
viene fatta una copia integrale della stringa, dove viene rimpiazzato solo l'elemento scelto...

Darecon
28-11-2009, 09:31
Bene.
Pero' fra 6 mesi, se devo rileggere, mi viene mal di testa.

Edit: Ripropongo, visto che ogni tanto pensare 1 minuto in piu' e' meglio.
Propongo la seguente, con una modifica variante dell'originale, sostanzialmetne identico alla tua


static void Main(string[] args)
{
string mstr = "1,-400,400,3,243834,'AAAAAA',52895,'BBBBB',660,'CCC,CCC,¬',2";

mstr = Regex.Replace(mstr, "'[^']*'", str => str.Value.Replace(',', '£'));

var res = mstr
.Split(',')
.Select(str => str.Replace('£', ','))
.ToArray();
}


Per la Regex, e' da leggersi cosi':
Cerco tutte le sottosequenze che cominciano con ', terminano con ' e in mezzo hanno un qualsiasi set di caratteri (Eventualmente vuoto) NON composto '
sostituisco ciascuna di queste occorrenze con una nuova stringa, identica a ciascuna di quelle trovate, nelle quali sostituisco ciascun ',' con un '£'

L'ultimo invece e' una sequenza che serve solo per splittare su ',' rimpiazzare i '£' in ciascuna sottostringa e restituire l'array delle sottostringhe.

Occhio.
Il tuio primo ciclo cambia il dominio del for all'interno del ciclo stesso, e non e' mai troppo bello.
E la tua ultima parte e' poco effciente.
Le stringhe sono immutabili in C#. Ogni volta che scrivi
spl[j] = r.Replace('€', ','); //Basterebbe mettere spl[j]=','; no?
viene fatta una copia integrale della stringa, dove viene rimpiazzato solo l'elemento scelto...
Wow.. Si puo' fare quello cyhe ho fatto in cosi' poche righe?
Avresti una guida sulle regex che mi faccia capire bene come usarle?

EDIT: e se la stringa fosse string mstr = "1,-400,400,3,243834,'AAA'''AAA',52895,'BBBBB',660,'CCC,CCC,¬',2";

funzionerebbe?

In quanto la stringa da me postata ora e' da ritenersi valida.

gugoXX
28-11-2009, 10:29
Wow.. Si puo' fare quello cyhe ho fatto in cosi' poche righe?
Avresti una guida sulle regex che mi faccia capire bene come usarle?

EDIT: e se la stringa fosse string mstr = "1,-400,400,3,243834,'AAA'''AAA',52895,'BBBBB',660,'CCC,CCC,¬',2";

funzionerebbe?

In quanto la stringa da me postata ora e' da ritenersi valida.

Ciao.
Occorre modificare un pochino.
Con le Regex si comincia sempre cosi'. Si scrive la parte di base, e poi si comincia a raffinare fino a che si ottiene il risultato.
Alla fine purtroppo la maggior parte delle volte la RegEx risultera' illeggibile.

Finora ce l'abbiamo fatta senza renderla troppo brutta.


static void Main(string[] args)
{
string mstr = "1,-400,400,3,243834,'AAA'''AAA',52895,'BBBBB',660,'CCC,CCC,¬',2";

mstr = Regex.Replace(mstr, ",'[^']*',", str => {
string subStr = str.Value;
string senzaInitFin = subStr.Substring(1,subStr.Length-2);
return string.Format(",{0},",senzaInitFin);
});

var res = mstr
.Split(',')
.Select(str => str.Replace('£', ','))
.ToArray();
}


Come vedi modificando il codice di rimpiazzo.
E' probabile che giocando con i gruppi, una delle parti fondamentali delle RegEx, ce la si sarebbe fatta anche senza allungare troppo il codice di rimpiazzo, ma e' comunque ancora abbastanza leggibile e non troppo verboso.

Ma ora bisogna includere "forse" alcuni pezzi che non abbiamo considerato.
Neppure tu penso.

Questa, e' una stringa valida?

'werwer,qeqeq'

Ovvero se all'inizio (o alla fine) abbiamo una stringa come questa, che non comincia quindi con una , o non termina con una ,
(Addirittura penso che tu vada in segmentation fault)

E poi c'e' ancora questa, che penso sia valida

asdf,123,'qwrw''r,w'ewr',424,323

Dove l'algoritmo dovrebbe considerare 'qwrw''r,w'ewr' come tutta una stringa, e quindi non sostituire la (le) , in mezzo.
E qui sono ceci...

Sulle regex Online c'e' parecchio. Da leggersi ovviamente la reference dell MSDN, che pero' parte gia' dando per scontato come funzionano le RegEx
Puoi provare con Wikipedia.
Ma io sono un fan delle letture sul libro. Relativamente alle Regex mi sono trovato bene con un libro della O'Reilly (Quelli economici)
http://oreilly.com/catalog/9780596528126/

Darecon
28-11-2009, 10:44
Giuste osservazioni..

Gli input li prendo in un file di testo, ho letto circa un 20k righe ed e' andato perfetto, pero' effettivamente c'e' la possibilita' che possa accadere, devo studiermelo un po'.. :)

Per quanto riguarda il libro sembra ottimo, speriamo non parta da troppi preconcetti, perche' essendo anche in inglese mi sarebbe difficile.. pero' possiamo provare.. :D

gugoXX
28-11-2009, 15:31
Facciamo cosi'.
Per evitare i PVT (nessuno si arrabbiera' se comincerai a postare dubbi sulle RegEx)
ti propongo la seguente:

Usando le fonti di informazione che hai trovato sulle Regular Expressions,
supponendo che questo successivo possa funzionare anche con le ultime considerazioni, prova a spiegare il perche'.


static void Main(string[] args)
{
string mstr = "1,-400,400,3,243834,'AAA'''B,AAA',52895,'BBBBB',660,'CCC,CCC,¬',2,'poi,'";

mstr = string.Format(",{0},", mstr);

mstr = Regex.Replace(mstr, ",'.*?',", str => {
string subStr = str.Value;
string senzaInitFin = subStr.Substring(1, subStr.Length - 2).Replace(',', '£');
return string.Format(",{0},",senzaInitFin);
});

var res = mstr
.Split(',')
.Where(str => !string.IsNullOrEmpty(str))
.Select(str => str.Replace('£', ','))
.ToArray();
}

Darecon
28-11-2009, 16:52
Bella domanda..

Allora, iniziamo..

Prendo le stringhe che iniziano con ,' e terminano con ',.

Il carattere . e' un metacarattere che e' diciamo una wildcard, cioe' ha il valore di qualsiasi carattere.

L'asterisco indica che qualsiasi carattere e' presente 0 o piu' volte.
Il punto iterrogativo dice che puo' esserci o no..

Non capisco cosa sta a significare ? in questo caso.. Qualche aiuto?

gugoXX
28-11-2009, 20:45
Bella domanda..

Allora, iniziamo..

Prendo le stringhe che iniziano con ,' e terminano con ',.

Il carattere . e' un metacarattere che e' diciamo una wildcard, cioe' ha il valore di qualsiasi carattere.

L'asterisco indica che qualsiasi carattere e' presente 0 o piu' volte.
Il punto iterrogativo dice che puo' esserci o no..

Non capisco cosa sta a significare ? in questo caso.. Qualche aiuto?

qui c'e' una pagina riassuntiva.
http://www.dijksterhuis.org/csharp-regular-expression-operator-cheat-sheet/
*? e' un quantificatore a se stante, particolare...

Darecon
30-11-2009, 19:04
qui c'e' una pagina riassuntiva.
http://www.dijksterhuis.org/csharp-regular-expression-operator-cheat-sheet/
*? e' un quantificatore a se stante, particolare...

Ciao, scusami se ti rispondo solo ora, potresti spiegarmi il significato di quell'operatore? non ho ben capito il funzionamento..

Grazie.. :)