View Full Version : [C#] Conversione delle stringhe
Mr_Paulus
20-11-2009, 10:37
Help ragazzi, è la prima volta che mi imbatto nel problema della conversione delle stringhe.
In pratica devo estrarre delle stringhe da un file xml (premetto che non ho usato la system.xml per leggerlo perchè mi veniva più comodo leggerlo come testo), solo che in queste stringhe i caratteri come "&" ecc.. sono rappresentati come "&" ecc.. e inoltre nei nodi dove sono scritti dei percorsi di files gli spazi sono rappresentati come %20 e via discorrendo.
Il file è codificato in utf-8, come faccio per ottenere una stringa senza simboli strani? (non ditemi che bastava usare la system.xml e che le conversioni le facevo mediante qualche funzione in quello spazio dei nomi altrimenti mi sparo :D)
^TiGeRShArK^
20-11-2009, 10:39
posta un pezzo di quel file..
Mr_Paulus
20-11-2009, 10:52
<dict>
<key>Track ID</key><integer>496</integer>
<key>Name</key><string>Cowboys & Kisses</string>
<key>Artist</key><string>Anastacia</string>
<key>Album Artist</key><string>Anastacia</string>
<key>Composer</key><string>Charlie Pennachio/Jive</string>
<key>Album</key><string>Pieces of a Dream</string>
<key>Genre</key><string>Rock</string>
<key>Kind</key><string>File audio MPEG</string>
<key>Size</key><integer>5616674</integer>
<key>Total Time</key><integer>278804</integer>
<key>Track Number</key><integer>3</integer>
<key>Year</key><integer>2005</integer>
<key>Date Modified</key><date>2009-10-17T10:19:59Z</date>
<key>Date Added</key><date>2008-03-01T11:36:21Z</date>
<key>Bit Rate</key><integer>160</integer>
<key>Sample Rate</key><integer>44100</integer>
<key>Comments</key><string> 0000406B 00000860 00027606</string>
<key>Play Count</key><integer>6</integer>
<key>Play Date</key><integer>3320240666</integer>
<key>Play Date UTC</key><date>2009-03-18T16:04:26Z</date>
<key>Rating</key><integer>80</integer>
<key>Album Rating</key><integer>100</integer>
<key>Artwork Count</key><integer>1</integer>
<key>Persistent ID</key><string>2ADF91DD3121755A</string>
<key>Track Type</key><string>File</string>
<key>Location</key><string>file://localhost/D:/Paolo/Musica/iTunes/iTunes%20Music/Anastacia/Pieces%20of%20a%20Dream/03%20Cowboys%20&%20Kisses.mp3</string>
<key>File Folder Count</key><integer>4</integer>
<key>Library Folder Count</key><integer>1</integer>
</dict>
eccolo..
il file è l'xml di libreria di iTunes.
adesso il browser me lo converte in parte, fate che al posto dei "&" c'è il loro codice ascii.
mentre ho notato che per le lettere accentate non mi mette l'ascii ma un altro codice, ad esempio per la "ù" mette "%C3%B9" e lo mette solo nella stringa in <key>location</key>:
<dict>
<key>Track ID</key><integer>2310</integer>
<key>Name</key><string>La Tribù Della Notte</string>
<key>Artist</key><string>Karisma feat. Yuri N-Joy</string>
<key>Album Artist</key><string>Artisti vari</string>
<key>Album</key><string>Discoradio Compilation 2003</string>
<key>Genre</key><string>Electronica/Dance</string>
<key>Kind</key><string>File audio MPEG</string>
<key>Size</key><integer>4138765</integer>
<key>Total Time</key><integer>205792</integer>
<key>Track Number</key><integer>19</integer>
<key>Year</key><integer>2003</integer>
<key>Date Modified</key><date>2009-07-20T16:38:01Z</date>
<key>Date Added</key><date>2008-03-01T11:37:48Z</date>
<key>Bit Rate</key><integer>160</integer>
<key>Sample Rate</key><integer>44100</integer>
<key>Rating</key><integer>60</integer>
<key>Album Rating</key><integer>60</integer>
<key>Album Rating Computed</key><true/>
<key>Artwork Count</key><integer>1</integer>
<key>Sort Name</key><string>Tribù Della Notte</string>
<key>Persistent ID</key><string>2ADF91DD31217927</string>
<key>Track Type</key><string>File</string>
<key>Location</key><string>file://localhost/D:/Paolo/Musica/iTunes/iTunes%20Music/Artisti%20vari/Discoradio%20Compilation%202003/19%20La%20Trib%C3%B9%20Della%20Notte.mp3</string>
<key>File Folder Count</key><integer>4</integer>
<key>Library Folder Count</key><integer>1</integer>
</dict>
Mr_Paulus
21-11-2009, 10:47
uppete :cry:
^TiGeRShArK^
21-11-2009, 11:17
mi ero dimenticato completamente.. :stordita:
questo che ho appena scritto converte da UTF16 ad ascii, però il problema è che ho visto che alcune lettere (tipo quelle accentate) vengono codificate come due doppiette a 16 bit e non so in base a quale logica.. :stordita:
cmq ecco il codice:
Dictionary<string, string> toReplace = new Dictionary<string, string>();
string filename = "file://localhost/D:/Paolo/Musica/iTunes/iTunes%20Music/Artisti%20vari/Discoradio%20Compilation%202003/19%20La%20Trib%C3%B9%20Della%20Notte.mp3";
for (int i = 0; i < filename.Length; i++)
{
if (filename[i] == '%')
{
string asciiValue = "" + filename[i + 1] + filename[i + 2];
if (!toReplace.ContainsKey("%" + asciiValue))
{
toReplace.Add("%" + asciiValue, "" + (char)Convert.ToInt32(asciiValue, 16));
}
}
}
foreach (string key in toReplace.Keys)
{
filename = filename.Replace(key, toReplace[key]);
}
Console.WriteLine(filename);
Console.ReadLine();
Mr_Paulus
21-11-2009, 12:08
mi ero dimenticato completamente.. :stordita:
questo che ho appena scritto converte da UTF16 ad ascii, però il problema è che ho visto che alcune lettere (tipo quelle accentate) vengono codificate come due doppiette a 16 bit e non so in base a quale logica.. :stordita:
cmq ecco il codice:
Dictionary<string, string> toReplace = new Dictionary<string, string>();
string filename = "file://localhost/D:/Paolo/Musica/iTunes/iTunes%20Music/Artisti%20vari/Discoradio%20Compilation%202003/19%20La%20Trib%C3%B9%20Della%20Notte.mp3";
for (int i = 0; i < filename.Length; i++)
{
if (filename[i] == '%')
{
string asciiValue = "" + filename[i + 1] + filename[i + 2];
if (!toReplace.ContainsKey("%" + asciiValue))
{
toReplace.Add("%" + asciiValue, "" + (char)Convert.ToInt32(asciiValue, 16));
}
}
}
foreach (string key in toReplace.Keys)
{
filename = filename.Replace(key, toReplace[key]);
}
Console.WriteLine(filename);
Console.ReadLine();
grazie mille tiger :)
per gli altri caratteri ti posto tutti quelli che ho trovato:
%5B [
%5D ]
%C3%A8 ù
%C3%A9 é
%C3%A0 à
%C3%B2 ò
%C3%AC ì
%25 %
%C3%88 È
%23 #
%C3%B3 ó
%C3%BA ú
%C3%A1 á
%C2%B0 °
fin ora per sostituirli man mano che li trovavo ho fatto una funzione con una serie di if, però non è un metodo molto efficente :fagiano:.
ne approfitto per un altra domanda, devo copiare grosse quantità di files, ma quando lo faccio il programma si impalla finchè ha finito la copia (e poi ritorna a rispondere), per evitare che faccio?faccio fare la copia a un altro thread?
^TiGeRShArK^
21-11-2009, 12:28
grazie mille tiger :)
per gli altri caratteri ti posto tutti quelli che ho trovato:
%5B [
%5D ]
%C3%A8 ù
%C3%A9 é
%C3%A0 à
%C3%B2 ò
%C3%AC ì
%25 %
%C3%88 È
%23 #
%C3%B3 ó
%C3%BA ú
%C3%A1 á
%C2%B0 °
fin ora per sostituirli man mano che li trovavo ho fatto una funzione con una serie di if, però non è un metodo molto efficente :fagiano:.
ne approfitto per un altra domanda, devo copiare grosse quantità di files, ma quando lo faccio il programma si impalla finchè ha finito la copia (e poi ritorna a rispondere), per evitare che faccio?faccio fare la copia a un altro thread?
Yes, per la copia devi assolutamente usare un altro thread, oppure puoi lanciare il metodo in modalità asincrona con beginInvoke.
Ricordati che se devi fare un update della gui non puoi farlo assolutamente da un altro thread, ma devi farlo dal thread del dispatcher degli eventi (o come minGhia si chiama in C# :p ).
||ElChE||88
21-11-2009, 13:08
Per quei caratteri prova
System.Web.HttpUtility.HtmlDecode
Mr_Paulus
21-11-2009, 14:38
Yes, per la copia devi assolutamente usare un altro thread, oppure puoi lanciare il metodo in modalità asincrona con beginInvoke.
Ricordati che se devi fare un update della gui non puoi farlo assolutamente da un altro thread, ma devi farlo dal thread del dispatcher degli eventi (o come minGhia si chiama in C# :p ).
Per quei caratteri prova
System.Web.HttpUtility.HtmlDecode
grazie a tutti e due, ||ElChE||88 in System.Web non mi trova HttpUtility, dove devo andare a pescarla?
comunque penso di aver risolto:
ho trovato questa funzione per codificare da utf-8:
public static String unescape(String s)
{
StringBuilder sbuf = new StringBuilder();
int l = s.Length;
int ch = -1;
int b, sumb = 0;
for (int i = 0, more = -1; i < l; i++)
{
/* Get next byte b from URL segment s */
switch (ch = s[i])
{
case '%':
ch = s[++i];
int hb = (Char.IsDigit((char)ch)
? ch - '0'
: 10 + Char.ToLower((char)ch) - 'a') & 0xF;
ch = s[++i];
int lb = (Char.IsDigit((char)ch)
? ch - '0'
: 10 + Char.ToLower((char)ch) - 'a') & 0xF;
b = (hb << 4) | lb;
break;
case '+':
b = ' ';
break;
default:
b = ch;
break;
}
/* Decode byte b as UTF-8, sumb collects incomplete chars */
if ((b & 0xc0) == 0x80)
{ // 10xxxxxx (continuation byte)
sumb = (sumb << 6) | (b & 0x3f); // Add 6 bits to sumb
if (--more == 0) sbuf.Append((char)sumb); // Add char to sbuf
}
else if ((b & 0x80) == 0x00)
{ // 0xxxxxxx (yields 7 bits)
sbuf.Append((char)b); // Store in sbuf
}
else if ((b & 0xe0) == 0xc0)
{ // 110xxxxx (yields 5 bits)
sumb = b & 0x1f;
more = 1; // Expect 1 more byte
}
else if ((b & 0xf0) == 0xe0)
{ // 1110xxxx (yields 4 bits)
sumb = b & 0x0f;
more = 2; // Expect 2 more bytes
}
else if ((b & 0xf8) == 0xf0)
{ // 11110xxx (yields 3 bits)
sumb = b & 0x07;
more = 3; // Expect 3 more bytes
}
else if ((b & 0xfc) == 0xf8)
{ // 111110xx (yields 2 bits)
sumb = b & 0x03;
more = 4; // Expect 4 more bytes
}
else /*if ((b & 0xfe) == 0xfc)*/
{ // 1111110x (yields 1 bit)
sumb = b & 0x01;
more = 5; // Expect 5 more bytes
}
/* We don't test if the UTF-8 encoding is well-formed */
}
return sbuf.ToString();
}
ho fatto qualche prova e sembra che funzioni, rimaneva solo il problema dei caratteri ascii tipo "&" che è rappresentato come "& # 3 8 ;" (ho messo uno spazio tra un carattere e l'altro altrimenti il browser me lo converte automaticamente).
ora io ho modificato la funzione che mi ha scritto prima tiger così:
Dictionary<string, string> toReplace = new Dictionary<string, string>();
for (int i = 0; i < a.Length; i++)
{
if ((a[i] == '&') && (a[i+1] == '#'))
{
string asciiValue = "" + a[i + 2] + a[i + 3];
if (!toReplace.ContainsKey("&#" + asciiValue))
{
toReplace.Add("&#" + asciiValue, "" + (char)Convert.ToInt32(asciiValue));
}
}
}
foreach (string key in toReplace.Keys)
{
a = a.Replace(key + ';', toReplace[key]);
}
e sembra funzionare (comunque adesso provo bene e nel caso posto ancora).
grazie ancora a tutti e due :), se ho problemi con i thread per copiare i file chiedo ancora.
Yes, per la copia devi assolutamente usare un altro thread, oppure puoi lanciare il metodo in modalità asincrona con beginInvoke.
Ricordati che se devi fare un update della gui non puoi farlo assolutamente da un altro thread, ma devi farlo dal thread del dispatcher degli eventi (o come minGhia si chiama in C# :p ).
:asd:
^TiGeRShArK^
21-11-2009, 15:02
:asd:
:p
visto che ci sei come si chiama in C# il corrispettivo dell'EDT in java? :asd:
:p
visto che ci sei come si chiama in C# il corrispettivo dell'EDT in java? :asd:
Sotto WPF si chiama Dispatcher.
Sotto Winform si chiama "this". Nel senso che il sincronizzatore della finestra e' la finestra stessa, che espone direttamente Invoke per sincronizzare e aspettare, e BeginInvoke per sincronizzare ma dimenticarsi dell'effettivo risultato.
Invoke da usarsi quindi quando si vuole eseguire qualcosa sul thread della finestra che restituira' un dato che mi serve (Quando leggo una qualche proprieta' grafica della finestra)
BeginInvoke quando invece voglio solo accodare un messaggio nel bacino della pompa, e non mi interessa il risultato (Quando scrivo una qualche proprieta' grafica della finestra)
vBulletin® v3.6.4, Copyright ©2000-2025, Jelsoft Enterprises Ltd.