|
|
|
![]() |
|
Strumenti |
![]() |
#1 |
Bannato
Iscritto dal: Jan 2003
Città:
Messaggi: 4421
|
...Java...codifica dei caratteri...
...esiste una maniera veloce per formattare il testo permettendo solo determinati caratteri?...vorrei evitare l'uso di indexOf charAt etc...
...grazie ciao... Ultima modifica di ally : 18-06-2007 alle 17:21. Motivo: ...titolo inesatto...grazie andbin... |
![]() |
![]() |
![]() |
#2 |
Senior Member
Iscritto dal: Nov 2005
Città: TO
Messaggi: 5206
|
Cioè? Puoi fare un esempio?
__________________
Andrea, SCJP 5 (91%) - SCWCD 5 (94%) |
![]() |
![]() |
![]() |
#3 |
Bannato
Iscritto dal: Jan 2003
Città:
Messaggi: 4421
|
...certamente...
Codice:
Prendimi così ...grazie ciao... |
![]() |
![]() |
![]() |
#4 |
Bannato
Iscritto dal: Jan 2003
Città:
Messaggi: 4421
|
...dovrei formattare il contenuto di un db mal importato...nei limiti del possibile naturalmente...
...grazie ciao... |
![]() |
![]() |
![]() |
#5 |
Senior Member
Iscritto dal: Nov 2005
Città: TO
Messaggi: 5206
|
Beh, allora non mi sembra tanto una questione di "formattazione" ma un problema legato alla codifica dei caratteri!
__________________
Andrea, SCJP 5 (91%) - SCWCD 5 (94%) |
![]() |
![]() |
![]() |
#6 |
Bannato
Iscritto dal: Jan 2003
Città:
Messaggi: 4421
|
...si scusami...hai ragione...come è possibile risalire alla codifica di appartenenza?...e come è possibile ricodificare i caratteri?...
...grazie ciao... |
![]() |
![]() |
![]() |
#7 | |
Senior Member
Iscritto dal: Nov 2005
Città: TO
Messaggi: 5206
|
Quote:
Così ... ad occhio nella stringa "ì" i caratteri che ho marcato in rosso sembrano tanto il byte iniziale di una codifica UTF-8. Il resto però non mi quadra molto ....
__________________
Andrea, SCJP 5 (91%) - SCWCD 5 (94%) |
|
![]() |
![]() |
![]() |
#8 |
Bannato
Iscritto dal: Jan 2003
Città:
Messaggi: 4421
|
...queste stringhe sono derivate da una migrazione di in un db Sql Server a mySql...di piu' non so dirti sull'origine dei dati...
Codice:
à => à ò => ò è => è |
![]() |
![]() |
![]() |
#9 |
Bannato
Iscritto dal: Jan 2003
Città:
Messaggi: 4421
|
...in altre tabelle pero sembra che ci sia una diversa codifica...
Codice:
Più => piu' Non È => non è Amerò => amerò |
![]() |
![]() |
![]() |
#10 |
Senior Member
Iscritto dal: Nov 2005
Città: TO
Messaggi: 5206
|
Partiamo da questo caso che è più semplice:
In Più ci sono 2 caratteri per codificare la 'ù': 'Ã' ha codice U+00C3 e '¹' ha codice U+00B9. Nella codifica UTF-8 la sequenza C3h B9h codifica il carattere unicode U+00F9, cioè proprio la lettera 'ù'. Le altre due parole sono allo stesso modo. Questo è più tosto ... non sono ancora riuscito a capire bene. Credo che siano avvenute diverse transcodifiche in sequenza, altrimenti non riuscirei a capire come una 'è' sia diventata ben 8 caratteri. Che tra l'altro, presi a coppie, "sembrano" pure loro in UTF-8 (ma il secondo carattere di ogni coppia comunque mi sembra strano).
__________________
Andrea, SCJP 5 (91%) - SCWCD 5 (94%) |
![]() |
![]() |
![]() |
#11 |
Bannato
Iscritto dal: Jan 2003
Città:
Messaggi: 4421
|
...mh...penso cha la sostituzione delle stringhe in un carattere specifico sia la strada migliore per sistemare la questione...formattero' prima l'ipotetica utf-8 per poi sistemare il caso piu' semplice...tutto questo dovrebbe riguardare solo le lettere accentuate alla fine vero?...
...grazie ciao... |
![]() |
![]() |
![]() |
Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 14:51.