PDA

View Full Version : [Java] Caratteri "estesi" e la console di Windows


Mixmar
16-10-2006, 21:24
Buonasera a tutti,

questa volta mi è capitata una cosa davvero strana...

Mi hanno chiesto di risolvere un problema: bisogna costruire una applicazione Java che scriva l'output sulla console, e che giri sotto Windows. Bene, nessun problema, qualche System.out e la cosa si risolve lì... poi però ci si accorge che i caratteri "estesi" (per intenderci, le nostre "èéòàù") vengono sostituite da altri caratteri.

A questo punto interpellato, penso ad un problema di pagina codici della console, e la reimposto con "mode con: select cp=850" (prima era 437, US). Niente.

Poi provo a cambiare l'encoding dei caratteri, "imbustando" lo stream in questo modo:


System.setOut(new PrintStream(System.out, false, "UTF-8"));


Ancora niente, però i caratteri estesi cambiano in maniera carina ( :rolleyes: ). Un po' innervosito, mi faccio dare dal sistema la lista dei character encoding supportati e quello delle pagine caratteri disponibili, e faccio diverse prove, incrociando i risultati: ancora niente di niente (però le variazioni dei caratteri estesi sono creative).

Per curiosità, dirigo l'output su un FileOutputStream, che apro con il blocco note successivamente: magia, i caratteri sono quelli giusti!

Naturalmente, sia la console interna di Eclipse (che non deve essere una "vera" console), che il terminale di Linux funzionano...

Avete qualche idea?

E non mi venite a dire di guardare ciò che viene scritto byte per byte, non ne ho voglia... :Prrr:

PGI-Bis
16-10-2006, 21:57
Usa la code page 1252

chcp 1252

"dovrebbe" funzionare (quanta sicurezza :D)

andbin
16-10-2006, 22:10
questa volta mi è capitata una cosa davvero strana...

Mi hanno chiesto di risolvere un problema: bisogna costruire una applicazione Java che scriva l'output sulla console, e che giri sotto Windows. Bene, nessun problema, qualche System.out e la cosa si risolve lì... poi però ci si accorge che i caratteri "estesi" (per intenderci, le nostre "èéòàù") vengono sostituite da altri caratteri.Beh, il problema del set di caratteri, specialmente per quanto riguarda le console "testuali", è un bel problema. E vale tanto per i programmi nativi (Win32, ecc...) tanto per Java.

Ci sono due punti da mettere a fuoco:
- Quale è il set di caratteri impostato nella console.
- Come è stato scritto il carattere speciale nel sorgente (o da dove viene preso, se altrove).

Immaginando che la console sia impostata per usare il CP-850, il seguente codice:
System.setOut (new PrintStream (System.out, true, "CP850"));
System.out.println ("\u00e8");stampa correttamente una è sulla console. Notare che ho usato \u00e8 che è la corretta codifica in standard Unicode per la 'è'.
Avrebbe funzionato anche se avessi scritto direttamente "è" nella println, ma solo perché ho scritto il codice con un editor su Windows e Windows usa il set WIN-1252. Il WIN-1252 è un superset del ISO-8859-1 e quest'ultimo mappa in modo uguale i caratteri del blocco Latin-1 del Unicode.

In definitiva: si dovrebbero mettere nelle stringhe literal gli escape Unicode per scrivere dei caratteri speciali (questo in generale ... non c'entra la console).
Per scrivere sulla console, si deve impostare il corretto charset.

PGI-Bis
16-10-2006, 22:33
Ritiro il mio cp1252. Ho provato a usare il codice per il simbolo dell'euro ("\u20ac") con un sorgente UTF-16 e non me lo stampa :confused:

Mixmar
17-10-2006, 21:52
Beh, il problema del set di caratteri, specialmente per quanto riguarda le console "testuali", è un bel problema. E vale tanto per i programmi nativi (Win32, ecc...) tanto per Java.

Ci sono due punti da mettere a fuoco:
- Quale è il set di caratteri impostato nella console.
- Come è stato scritto il carattere speciale nel sorgente (o da dove viene preso, se altrove).

Immaginando che la console sia impostata per usare il CP-850, il seguente codice:
System.setOut (new PrintStream (System.out, true, "CP850"));
System.out.println ("\u00e8");stampa correttamente una è sulla console. Notare che ho usato \u00e8 che è la corretta codifica in standard Unicode per la 'è'.
Avrebbe funzionato anche se avessi scritto direttamente "è" nella println, ma solo perché ho scritto il codice con un editor su Windows e Windows usa il set WIN-1252. Il WIN-1252 è un superset del ISO-8859-1 e quest'ultimo mappa in modo uguale i caratteri del blocco Latin-1 del Unicode.

In definitiva: si dovrebbero mettere nelle stringhe literal gli escape Unicode per scrivere dei caratteri speciali (questo in generale ... non c'entra la console).
Per scrivere sulla console, si deve impostare il corretto charset.

Grazie della risposta andbin, proverò quanto prima (non appena metto le mani su di una Windows-Box). Certo che utilizzare gli escape Unicode è una bella scocciatura, specilamente per caratteri comuni come "è": mi chiedo se esista un'alternativa "pratica", oltre a dichiarare tante belle costanti stringa, l'unica che mi viene in mente ora: oppure di serializzare le risorse in file XML con la "codifica carattere" dichiarata esplicitamente.

Un'altra cosa: la codifica con cui il file di testo Java (e quindi, il compilato prodotto dal compilatore) viene salvata dipende dal S.O. e in particolare dalla sua "pagina codice", quindi dovrei aspettarmi byte diversi per lo stesso carattere in sistemi diversi: esiste la possibilità di dichiarare la mappatura utilizzata, un po' come fa XML in testa ai file?

Cioè, è possibile infilare una specie di metadato con la codifica del testo, in maniera da rendere sensate le operazioni di lettura/scrittura?

Mi rendo conto che la cosa è più sistemistica che programmativa, però mi incuriosisce...

andbin
19-10-2006, 22:09
Un'altra cosa: la codifica con cui il file di testo Java (e quindi, il compilato prodotto dal compilatore) viene salvata dipende dal S.O. e in particolare dalla sua "pagina codice", quindi dovrei aspettarmi byte diversi per lo stesso carattere in sistemi diversi:Se ti riferisci a come le stringhe "letterali" sono memorizzate nel file .class, sappi che sono memorizzate con la codifica UTF-8. Un file .class è indipendente dalla piattaforma. ;)

esiste la possibilità di dichiarare la mappatura utilizzata, un po' come fa XML in testa ai file?

Cioè, è possibile infilare una specie di metadato con la codifica del testo, in maniera da rendere sensate le operazioni di lettura/scrittura?Dove??? In un file di testo qualunque?? Certo .... però poi lo devi gestire tu.