[Java] Caratteri UTF8 [Archivio] - Hardware Upgrade Forum

View Full Version : [Java] Caratteri UTF8

rayman2

04-01-2010, 17:32

Ciao a tutti. Vado dritto al sodo e vi espongo il mio problema.
Devo manipolare un file di testo che contiene, invece dei caratteri della tastiera italiana 'è', 'à', ... degli altri caratteri speciali tipo 'Ã¨', 'Ã'...
C'è qualche modo per tradurre qualcosa tipo 'Ã¨' in 'è', 'Ã' in 'à' e così via?

fero86

04-01-2010, 19:05

tradurre secondo quale schema? cioé, quale carattere deve diventare à, quale deve diventare è, e via dicendo?

rayman2

04-01-2010, 20:27

Dunque, provo a spiegarmi meglio. Non è che qualcuno mi ha fatto uno scherzo sostituendo caratteri a caso, si tratta di un software per salvare i messaggi per il cellulare in file di testo, che funziona a meno dell'errore dei caratteri accentati.

Se apro il file esportato da questo software, al posto dei caratteri accentati mi compaiono altri caratteri (non a casaccio, ma non so dire con quale codifica esatta). Un esempio è appunto quello del primo post.

Il mio programma vuole leggere questo file di testo e stampare in una pagina html il contenuto dei messaggi.

La cosa strana è che se stampo il testo di un messaggio con una System.out.println() gli accenti vengono gestiti in modo corretto.
Se invece stampo con un buffered writer su file, questi vengono scritti come sul file di testo originale (cioè sbagliati) e di conseguenza la mia pagina html ha le lettere con accento sbagliate.

wizard1993

04-01-2010, 21:28

ma hai controllato che il tuo browser non parta usi di default un charset che non sia l'utf?

rayman2

04-01-2010, 21:50

In effetti avevi ragione...non avevo specificato nel sorgente html che si trattava di un file con codifica utf8 :)

<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xml:lang="it" lang="it" xmlns="http://www.w3.org/1999/xhtml">

fero86

04-01-2010, 22:04

[...] Se invece stampo con un buffered writer su file, questi vengono scritti come sul file di testo originale (cioè sbagliati) non é che vengono scritti sbagliati, é che probabilmente quel file di testo lo apri con Blocco Note il quale non trova il BOM (Byte Order Mark) all'inizio visto che non ce l'hai messo* e quindi non capisce che la codifica é UTF8. prova ad aprirlo con un editor di testo nel quale sia possibile impostare la decodifica (prova con Notepad2 o Notepad++).

* non ce l'hai messo perché il BOM é uno standard Microsoft; é uno standard piu che sensato ma a quanto pare il resto del mondo non l'ha accettato e quindi il resto del mondo continua ottusamente a confondere i files ASCII, ANSI, Unicode e UTF8. Java fa parte del resto del mondo e quindi i FileWriter di Java non mettono Byte Order Marks.

e di conseguenza la mia pagina html ha le lettere con accento sbagliate. 2 osservazioni:

1) HTML? nell'HTML i caratteri accentati non si scrivono direttamente, si usano le entities predefinite: "à", "è", ecc.

2) scrivi la pagina in XHTML, non HTML, cosi puoi iniziarla con la seguente linea di codice che specifica anche la codifica:
<?xml version="1.0" encoding="UTF-8"?>

Mixmar

05-01-2010, 21:02

Aggiungo che forse, se il tuo problema è quello di decodificare / codificare i caratteri in base alla codifica, e qualora tu conosca la codifica utilizzata dal tuo sistema per i dati, puoi utilizzare CharsetDecoder per convertire l'input in UTF-16 e CharsetEncoder per il contrario.

||ElChE||88

05-01-2010, 21:11

* non ce l'hai messo perché il BOM é uno standard Microsoft; é uno standard piu che sensato ma a quanto pare il resto del mondo non l'ha accettato e quindi il resto del mondo continua ottusamente a confondere i files ASCII, ANSI, Unicode e UTF8. Java fa parte del resto del mondo e quindi i FileWriter di Java non mettono Byte Order Marks.
Il BOM UTF8 non è uno standard Microsoft, fa parte dallo standard Unicode (Capitolo 2.6 (http://www.unicode.org/versions/Unicode5.2.0/ch02.pdf)).