Unicode è la codifica più utilizzata sul Web
Sul Web il tasso d'adozione della codifica Unicode ha superato quello dello standard ASCII, parola di Google
di Fabio Gozzo pubblicata il 08 Maggio 2008, alle 11:45 nel canale Web









50 anni e non sentirli, SAS innova su IA, digital twin e quantum computing
Tesla Model 3 dopo 5 anni di utilizzo e 158.000km
DJI Mic Mini 2: audio 48 kHz / 24-bit e protocollo OsmoAudio sotto i 100 Euro
Motorola porta in Italia i nuovi Moto G37 e G37 Power: due nuove opzioni per la fascia bassa
Le 10 migliori offerte Amazon, ora: gli sconti improvvisi cambiano tutto sul podio, al 4 e 7 SSD e hard disk, gran ritorno al 5
Samsung Galaxy S26 Ultra a prezzo bomba su Amazon: fino a 251€ di sconto al checkout + coupon da 200€, è il prezzo più basso di sempre
Apple non realizzerà un iPad Ultra ed è colpa degli iPad Pro
4 accessori auto su Amazon che non sapevi di volere: aspiratore, compressore e CarPlay wireless fino al 40% di sconto
La Scopa elettrica da 48.000 Pa e 550W crolla a 88€ su Amazon: l'offerta con coupon che non ti aspetti
L'AI in azienda funziona, ma il MIT ha trovato cosa nessuno stava misurando
I 3 robot aspirapolvere più convenienti ora su Amazon: come i top di gamma ma a partire da 329€
14.000 MB/s su Amazon a 249€: il Lexar ARES PRO Gen5 da 2TB è l'SSD per le migliori prestazioni per PC Gaming e PS5
Un Galaxy Book con Android: Samsung crede in Aluminium OS e sta lavorando al progetto
5TB in tasca a soli 139€: l'Hard Disk portatile di Seagate crolla di prezzo su Amazon e ora costa solo 28€ al terabyte
realme 16 Pro+ 5G a prezzo shock su Amazon: batteria da 7000mAh, 200MP e IP69K a meno di 400€
Motorola Edge 70 Pro arriva in Italia: completo ma con un prezzo di listino impegnativo
Commodore 64 e ZX Spectrum come non li avete mai visti: per la prima volta in versione portatile









24 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoil primo si comporta come dice II Arrows, il secondo è alla casua del raddoppio del file quando salvi in "unicode".
Il che è coerente con quanto scritto nell'articolo...
il primo si comporta come dice II Arrows, il secondo è alla casua del raddoppio del file quando salvi in "unicode".
Il che è coerente con quanto scritto nell'articolo...
Ah, ecco, mi pareva! Grazie della puntualizzazione. Mi sembrava di ricordare che UTF-16 usasse sempre una parola di 16 bit come unità minima ma l'affermazione di II Arrows mi ha mandato in confusione.
Ma quindi che vantaggio c'è ad usare UTF-16 rispetto ad UTF-8? Il secondo non dovrebbe essere sempre più efficiente? O ci sono caratteri per cui UTF-16 usa una singola parola mentre UTF-8 richiede 3 o 4 bytes?
Questi sistemi definiscono il "simbolo" internamente come 16 bit, rendendo di fatto impossibile rappresentare qualcosa che sta al di fuori della BMP (basic multilingual plane, ovvero tutte le rappresentazioni contenute all'interno dei 16 bit) con un singolo simbolo.
Questo viene fatto proprio perchè le lingue contenute nella BMP sono generalmente più che sufficienti a fare una localizzazione, e si ha contemporaneamente il vantaggio di rappresentare un carattere con una lunghezza fissa. Questo tipo di codifica tuttavia, non è UTF-16, ma UCS-2.
Il tutto nel mondo reale andrebbe anche bene, se non fosse che nella parte alta di unicode (dopo i famosi 16 bit), detta SMP vengono rappresentati simboli non fonetici delle lingue moderni, per lo più kanji che quindi con UCS-2 non si possono rappresentare.
In un modo o nell'altro si rompe la conformità con uno dei due standard.
La soluzione sarebbe quella di adottare una rappresentazione a 32 bit (UTF-32/UCS-4), cosa che unix, se la memoria non mi tradisce, fa.
xp per i file NON usa l'unicode ma un proprio standard windows-qualcosa
XP internamente supporta UTF-16 fino alla BMP, poi ha degli stratagemmi per supportare la SMP.
Sono i programmatori pigri che non scomodano le funzioni che supportano le wide string e i wide char, ma utilizzano char a 8 bit.
Sono i programmatori pigri che non scomodano le funzioni che supportano le wide string e i wide char, ma utilizzano char a 8 bit.
scusa ma per il nome dei file che colpa ne hanno i programmatori (se non quelli microsoft)? ogni volta che sn su linux i nomi dei file cn lettere accentate sn tutti strani
nn mi pare....cmq sapevo che windows come codifica dei caratteri usava Windows-1252.....verificherò...
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".