PDA

View Full Version : [java]Conversione stringa in UTF-8


ferris
30-05-2007, 14:06
Ciao a tutti!
sto cercando di codificare una stringa con il charset UTF-8 (la stringa è un parametro che mi arriva da una pagina jsp). Fino ad ora ho provato questi tre modi:

1)
String stringNew = new String(oldString.getByte(), "UTF-8");

Questo funziona nel mio pc windows ma non nella macchina linux dove deve girare l'applicazione

2)
request.setCharacterEncoding("UTF-8");

Questo sembra non funzionare

3)
Charset cs = Charset.forName("UTF-8");
CharsetDecoder decoder = cs.newDecoder();
ByteBuffer bbUser = ByteBuffer.allocate(username.getBytes().length);
bbUser.put(username.getBytes());
try {
bbUser.rewind();
cbUser = decoder.decode(bbUser);
} catch (CharacterCodingException e1) {
e1.printStackTrace();
}
Questo, come il primo, funziona nel mio pc windows ma non nella macchina linux dove deve girare l'applicazione.

Sembra quindi che la codifca della stringa non abbia lo stesso comportamento da ambiente windows a linux... Qualcuno sa cortesemente in cosa consiste questa differenza oppure sa indicarmi un metodo alternativo da provare?

Ringrazio tutti anticipatamente!

andbin
30-05-2007, 14:32
Una stringa contiene caratteri Unicode (UTF-16 per la precisione). Quindi è abbastanza inutile da una stringa ottenere i byte (in qualunque charset) e poi ricreare una nuova stringa da quei byte.

Quindi fare:

String stringNew = new String(oldString.getByte(), "UTF-8");

serve a poco e potrebbe anche non funzionare visto che il getBytes() senza argomenti usa il charset di default della piattaforma, che quindi non è affatto detto che sia UTF-8.

Spiega meglio cosa devi fare.

ferris
30-05-2007, 15:00
Una stringa contiene caratteri Unicode (UTF-16 per la precisione). Quindi è abbastanza inutile da una stringa ottenere i byte (in qualunque charset) e poi ricreare una nuova stringa da quei byte.

Quindi fare:

String stringNew = new String(oldString.getByte(), "UTF-8");

serve a poco e potrebbe anche non funzionare visto che il getBytes() senza argomenti usa il charset di default della piattaforma, che quindi non è affatto detto che sia UTF-8.

Spiega meglio cosa devi fare.

Mi spiego meglio:
io ho una username del tipo: cøciao
Nel realm utilizzato per effettuare l'autenticazione questa username non viene codificata nella maniera corretta (ossia UTF-8), e viene interpretata in questo modo: cøciao
e quindi l'autenticazione non va a buon fine.
Il mio probelma è riuscire a codificare in maniera corretta questo username in modo da permettere che l'autenticazione vada a buon fine (quindi riuscire a codificare in utf-8 la stringa contenente lo username...)

andbin
30-05-2007, 15:19
Mi spiego meglio:
io ho una username del tipo: cøciao
Nel realm utilizzato per effettuare l'autenticazione questa username non viene codificata nella maniera corretta (ossia UTF-8), e viene interpretata in questo modo: cøciaoUhm ... purtroppo scusa ma non mi è chiaro da cosa parti e/o che cosa devi ottenere.

Cioè ho capito la questione: ø è la sequenza (in hex C3 B8) che codifica in UTF-8 il carattere ø (in Unicode U+00F8). E fin qui nulla di strano. Vorrei capire meglio cosa devi leggere e/o scrivere e come.

ferris
30-05-2007, 15:38
Uhm ... purtroppo scusa ma non mi è chiaro da cosa parti e/o che cosa devi ottenere.

Cioè ho capito la questione: ø è la sequenza (in hex C3 B8) che codifica in UTF-8 il carattere ø (in Unicode U+00F8). E fin qui nulla di strano. Vorrei capire meglio cosa devi leggere e/o scrivere e come.

Il giro che ho io è questo:

ho una form per l'autenticazione in una pagina jsp, nel campo username metto: cøciao
quando faccio il submit viene invocata la action j_security_check ed entra in gioco il JDBCRealm per effettuare l'autenticazione.
Il problema è che nel realm, lo username viene ovviamente recuperato come parametro dalla request e memorizzato all'interno di una stringa che codifica il parametro in questo modo: cøciao piuttosto che cøciao.
Io devo fare in modo che il parametro recuperato dalla request (ossia lo username) venga codificato in modo corretto, cioè così: cøciao
Aggiungo inoltre che per tutte le altre componenti in gioco (dalle pagine jsp al DBMS) come charset di riferimento è impostato UTF-8, e infatti non ci sono problemi tranne nella fase di autenticazione, dove appunto entra in gioco il realm che sto cercando di modificare.

andbin
30-05-2007, 16:03
ho una form per l'autenticazione in una pagina jsp, nel campo username metto: cøciao
quando faccio il submit viene invocata la action j_security_check ed entra in gioco il JDBCRealm per effettuare l'autenticazione.
Il problema è che nel realm, lo username viene ovviamente recuperato come parametro dalla request e memorizzato all'interno di una stringa che codifica il parametro in questo modo: cøciao piuttosto che cøciao.Premetto subito che le pagine JSP non le conosco (è uno degli argomenti che approfondirò in futuro ... :p ) ma da quello che dici deduco quindi che sia il modo di prelevare i parametri della request che non gestisce correttamente il charset.
Probabilmente devi configurare o dichiarare il charset da qualche parte ... ma non ti so dire di più. :boh: