Unicode è la codifica più utilizzata sul Web [Archivio]

Redazione di Hardware Upg

08-05-2008, 10:45

Link alla notizia: http://www.hwupgrade.it/news/software/unicode-e-la-codifica-piu-utilizzata-sul-web_25231.html

Sul Web il tasso d'adozione della codifica Unicode ha superato quello dello standard ASCII, parola di Google

Click sul link per visualizzare la notizia.

gian21391

08-05-2008, 11:00

ma bensì :doh:

Aryan

08-05-2008, 11:03

Che strano! Pensavo utilizzassero il 437 o l'850... :asd:

Così poi servivano 20 versione del sito...

ekerazha

08-05-2008, 11:17

Il sito di hwupgrade.it usa "ancora" iso-8859-1 :D

Pentema

08-05-2008, 11:27

Sono molto interessanti questi dati, e molto significativo è il fatto che solo una compagnia come Google può analizzarli e farne statistiche precise su vasta scala.

MiKeLezZ

08-05-2008, 11:45

allora w unicode
quando è che ci passa anche hwupgrade?

II ARROWS

08-05-2008, 12:17

Ma direi anche normale... L'ascii va bene solo in USA che non hanno niente. E parliamo solo di testo, niente simboli matematici.

Tutte le altre lingue hanno gli accenti, e lettere "strane" per non parlare delle lingue con scrittura diversa dai caratteri romani...
Per me sono pochi i siti che usano Unicode...

II ARROWS

08-05-2008, 12:27

Una cosa: chi ha scritto l'articolo sa come funziona la codifica UTF??

Occupa più byte solo quando si passa dal 128° carattere in poi, prima occupa 1B. In base al valore dei bit più significativi si sa quanti byte formano il prossimo carattere.
Se usiamo solo caratteri presenti in ASCII standard la dimensione del testo sarà identica. Se usiamo solo caratteri NON presenti sarà almeno il doppio.

Non è uno svantaggio la dimensione dei caratteri perchè non c'è altro modo per rappresentare i caratteri se non aumentando la quantità di bit necessari per descriverli. Il vantaggio è invece l'eliminazione dei byte non necessari alla rappresentazione.
UTF-32 contiene caratteri lunghi 8, 16, 24 E 32bit.

Motosauro

08-05-2008, 13:10

Una cosa: chi ha scritto l'articolo sa come funziona la codifica UTF??

Occupa più byte solo quando si passa dal 128° carattere in poi, prima occupa 1B. In base al valore dei bit più significativi si sa quanti byte formano il prossimo carattere.
Se usiamo solo caratteri presenti in ASCII standard la dimensione del testo sarà identica. Se usiamo solo caratteri NON presenti sarà almeno il doppio.

Non è uno svantaggio la dimensione dei caratteri perchè non c'è altro modo per rappresentare i caratteri se non aumentando la quantità di bit necessari per descriverli. Il vantaggio è invece l'eliminazione dei byte non necessari alla rappresentazione.
UTF-32 contiene caratteri lunghi 8, 16, 24 E 32bit.

*
UTF Rulezz :)

LZar

08-05-2008, 14:41

Una cosa: chi ha scritto l'articolo sa come funziona la codifica UTF??

Occupa più byte solo quando si passa dal 128° carattere in poi, prima occupa 1B. In base al valore dei bit più significativi si sa quanti byte formano il prossimo carattere.
Se usiamo solo caratteri presenti in ASCII standard la dimensione del testo sarà identica. Se usiamo solo caratteri NON presenti sarà almeno il doppio.

Non è uno svantaggio la dimensione dei caratteri perchè non c'è altro modo per rappresentare i caratteri se non aumentando la quantità di bit necessari per descriverli. Il vantaggio è invece l'eliminazione dei byte non necessari alla rappresentazione.
UTF-32 contiene caratteri lunghi 8, 16, 24 E 32bit.

Interessante. Visto che sembri ferrato in materia, ti faccio una domanda: apro un documento di testo in formato ANSI con Notepad (sono su una macchina con Windows XP), lo salvo in Unicode e la dimensione del file raddoppia. Il file contiene solo caratteri ASCII standard (ho fatto una prova scrivendo una serie di aaaaaaaaaaaaaa bbbbbbbbbbbbb cccccccccccc copiata ed incollata n volte per renderlo un po' corposo). Colpa di come Notepad / Windows gestiscono Unicode o dipende da qualcos'altro?

zephyr83

08-05-2008, 14:47

sbaglio o windows usa un sistema di codifica tutto suo??

sonic_xp

08-05-2008, 16:51

ehm, una cosa è l'unicode, un'altra l'UTF-8 o l'UTF-16, che sono due modalità diverse per memorizzare l'unicode:
il primo si comporta come dice II Arrows, il secondo è alla casua del raddoppio del file quando salvi in "unicode".

Il che è coerente con quanto scritto nell'articolo...

LZar

08-05-2008, 17:35

ehm, una cosa è l'unicode, un'altra l'UTF-8 o l'UTF-16, che sono due modalità diverse per memorizzare l'unicode:
il primo si comporta come dice II Arrows, il secondo è alla casua del raddoppio del file quando salvi in "unicode".

Il che è coerente con quanto scritto nell'articolo...

Ah, ecco, mi pareva! Grazie della puntualizzazione. Mi sembrava di ricordare che UTF-16 usasse sempre una parola di 16 bit come unità minima ma l'affermazione di II Arrows mi ha mandato in confusione.

Ma quindi che vantaggio c'è ad usare UTF-16 rispetto ad UTF-8? Il secondo non dovrebbe essere sempre più efficiente? O ci sono caratteri per cui UTF-16 usa una singola parola mentre UTF-8 richiede 3 o 4 bytes?

share_it

08-05-2008, 17:38

se solo windows si decidesse a usare utf di default

peppepz

08-05-2008, 21:19

Io sono la persona più convinta del mondo che Microsoft sia il male - ma non addossiamogli colpe che non ha :-) . Non è vero che windows non usa l'unicode: proprio Windows NT ha scelto coraggiosamente (nei primi anni novanta!) di utilizzare l'unicode al posto dell'"ascii", in tutte le sue chiamate di sistema. Se ancora ci troviamo ad avere problemi con molti applicativi, è colpa dei programmatori "pigri", che tardano ad adattare il proprio codice, o che magari preferiscono mantenere la compatibilità con Windows 9x...

Bearpower

08-05-2008, 21:58

Windows, Symbian e Apple utilizzano una rappresentazione di un singolo simbolo che non è conforme allo standar che definisce il "wide char" (wchar_t) che dice che un singolo simbolo deve poter essere rappresentato da un singolo wchar_t.

Questi sistemi definiscono il "simbolo" internamente come 16 bit, rendendo di fatto impossibile rappresentare qualcosa che sta al di fuori della BMP (basic multilingual plane, ovvero tutte le rappresentazioni contenute all'interno dei 16 bit) con un singolo simbolo.

Questo viene fatto proprio perchè le lingue contenute nella BMP sono generalmente più che sufficienti a fare una localizzazione, e si ha contemporaneamente il vantaggio di rappresentare un carattere con una lunghezza fissa. Questo tipo di codifica tuttavia, non è UTF-16, ma UCS-2.

Il tutto nel mondo reale andrebbe anche bene, se non fosse che nella parte alta di unicode (dopo i famosi 16 bit), detta SMP vengono rappresentati simboli non fonetici delle lingue moderni, per lo più kanji che quindi con UCS-2 non si possono rappresentare.

In un modo o nell'altro si rompe la conformità con uno dei due standard.

La soluzione sarebbe quella di adottare una rappresentazione a 32 bit (UTF-32/UCS-4), cosa che unix, se la memoria non mi tradisce, fa.

zephyr83

08-05-2008, 21:58

Io sono la persona più convinta del mondo che Microsoft sia il male - ma non addossiamogli colpe che non ha :-) . Non è vero che windows non usa l'unicode: proprio Windows NT ha scelto coraggiosamente (nei primi anni novanta!) di utilizzare l'unicode al posto dell'"ascii", in tutte le sue chiamate di sistema. Se ancora ci troviamo ad avere problemi con molti applicativi, è colpa dei programmatori "pigri", che tardano ad adattare il proprio codice, o che magari preferiscono mantenere la compatibilità con Windows 9x...
xp per i file NON usa l'unicode ma un proprio standard windows-qualcosa

Bearpower

08-05-2008, 22:08

xp per i file NON usa l'unicode ma un proprio standard windows-qualcosa

XP internamente supporta UTF-16 fino alla BMP, poi ha degli stratagemmi per supportare la SMP.

Sono i programmatori pigri che non scomodano le funzioni che supportano le wide string e i wide char, ma utilizzano char a 8 bit.

zephyr83

08-05-2008, 22:47

XP internamente supporta UTF-16 fino alla BMP, poi ha degli stratagemmi per supportare la SMP.

Sono i programmatori pigri che non scomodano le funzioni che supportano le wide string e i wide char, ma utilizzano char a 8 bit.
scusa ma per il nome dei file che colpa ne hanno i programmatori (se non quelli microsoft)? ogni volta che sn su linux i nomi dei file cn lettere accentate sn tutti strani :muro:

Bearpower

08-05-2008, 23:15

Probabilmente su linux non stai usando unicode, ma una codepage.

zephyr83

08-05-2008, 23:37

Probabilmente su linux non stai usando unicode, ma una codepage.
nn mi pare....cmq sapevo che windows come codifica dei caratteri usava Windows-1252.....verificherò...

digitalsound

09-05-2008, 07:49

Evviva l'UTF-8!

Bearpower

09-05-2008, 07:59

La 1252 è la codepage latin di windows mantenuta per retrocompatibilità. Dovrebbe essere usata su windows 98 o precedenti.

peppepz

09-05-2008, 12:42

@zephyr83

Su linux c'è un po' da sbattersi per avere le accentate come si deve...
La cosa giusta da fare è usare l'utf8 come codifica di sistema e specificare le opzioni di mount corrette per transcodificare i nomi dei file dalla codifica utilizzata in ogni file system all'utf8.
Putrtroppo le opzioni variano da file system a file system :mad: .
Se le accentate non ti funzionano prova un po' a sperimentare opzioni tipo "iocharset", "utf8" eccetera. Di solito un -o iocharset=utf8 aiuta :-) .

Lucas Malor

26-05-2008, 22:04

Windows, Symbian e Apple utilizzano una rappresentazione di un singolo simbolo che non è conforme allo standar che definisce il "wide char" (wchar_t) che dice che un singolo simbolo deve poter essere rappresentato da un singolo wchar_t. [...] Questo tipo di codifica tuttavia, non è UTF-16, ma UCS-2.

Il tutto nel mondo reale andrebbe anche bene, se non fosse che nella parte alta di unicode (dopo i famosi 16 bit), detta SMP vengono rappresentati simboli non fonetici delle lingue moderni, per lo più kanji che quindi con UCS-2 non si possono rappresentare.

In un modo o nell'altro si rompe la conformità con uno dei due standard.

E non solo quella....