PDA

View Full Version : [Python] Encoding di una stringa letta da file


avastreg
12-12-2008, 09:52
Ciao a tutti,

mi sto avvicinando pian piano a Python facendo vari script e test; sono su windows e uso SPE.

Stavo testando un po' la lettura da file e la successiva elaborazione delle stringhe ottenute, ma ho un problema con l'encoding.

Per maggior chiarezza posto il (poco) codice e l'output che vorrei encodare/decodare (ancora non l'ho capito)


import os.path

f = open("C:\\inferno.txt","r")

print f.encoding # risulta none
canti = [[] for i in range(100)] #forse questa è inutile ma vabbè

i = 0

for line in f.readlines():
if line.find("CANTO") != -1:
i = i + 1
canti[i].append(line)
line.encode("ascii")
print canti[3]

f.close()


l'output è questo

['CANTO III\n', "[Canto terzo, nel quale tratta de la porta e de l'entrata de l'inferno e del fiume d'Acheronte, de la pena di coloro che vissero sanza opere di fama degne, e come il demonio Caron li trae in sua nave e come elli parl\xc3\xb2 a l'auttore; e tocca qui questo vizio ne la persona di papa Cilestino.]\n", "'Per me si va ne la citt\xc3\xa0 dolente,\n", ......

etc etc.

Il problema sono le lettere strane/accentate che non capisco come debbano essere trattate :)

Ho tentato con un line.encode('utf_8') ma ottengo questo errore:

line.encode("utf_8")
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 138: ordinal not in range(128)

Perchè dice 'ascii'? :muro: googlando non sono giunto a conclusioni utili

Grazie in anticipo

DanieleC88
12-12-2008, 12:45
canti[i].append(line)
Prova ad usare canti[i].append(unicode(line)), anche se non sono sicuro che faccia al caso tuo.

ciao ;)

avastreg
12-12-2008, 13:40
Prova ad usare canti[i].append(unicode(line)), anche se non sono sicuro che faccia al caso tuo.

ciao ;)

grazie,

purtroppo mi da lo stesso errore :(


canti[i].append(unicode(line))
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 138: ordinal not in range(128)

Mindflyer
12-12-2008, 14:16
Ho tentato con un line.encode('utf_8') ma ottengo questo errore:


Prova con:
line.encode('latin-1')

avastreg
12-12-2008, 16:15
Prova con:
line.encode('latin-1')

stesso errore anche con latin-1.. ma come è possibile! è strano..

banryu79
12-12-2008, 17:35
utf_16 ?

cdimauro
14-12-2008, 07:50
Ciao a tutti,

mi sto avvicinando pian piano a Python facendo vari script e test; sono su windows e uso SPE.

Stavo testando un po' la lettura da file e la successiva elaborazione delle stringhe ottenute, ma ho un problema con l'encoding.

Per maggior chiarezza posto il (poco) codice e l'output che vorrei encodare/decodare (ancora non l'ho capito)


import os.path

f = open("C:\\inferno.txt","r")

print f.encoding # risulta none
canti = [[] for i in range(100)] #forse questa è inutile ma vabbè

i = 0

for line in f.readlines():
if line.find("CANTO") != -1:
i = i + 1
canti[i].append(line)
line.encode("ascii")
print canti[3]

f.close()


l'output è questo

['CANTO III\n', "[Canto terzo, nel quale tratta de la porta e de l'entrata de l'inferno e del fiume d'Acheronte, de la pena di coloro che vissero sanza opere di fama degne, e come il demonio Caron li trae in sua nave e come elli parl\xc3\xb2 a l'auttore; e tocca qui questo vizio ne la persona di papa Cilestino.]\n", "'Per me si va ne la citt\xc3\xa0 dolente,\n", ......

etc etc.

Il problema sono le lettere strane/accentate che non capisco come debbano essere trattate :)

Ho tentato con un line.encode('utf_8') ma ottengo questo errore:

line.encode("utf_8")
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 138: ordinal not in range(128)

Perchè dice 'ascii'? :muro: googlando non sono giunto a conclusioni utili

Grazie in anticipo
Con le codifiche bisogna stare molto attenti perché è facile confondersi e perdersi fra cosa è codificato in quale tipo di codifica e quale codifica vorrei ottenere da un'altra. Visto che c'ho sbattuto non poco la testa, rispondo riportando la mia esperienza in merito.

Python ha due tipi di stringhe (tranne con la versione 3.0, ma per il momento non ne parliamo): sequenze di byte e unicode. Nel primo caso possiamo manipolare "buffer" senza occuparci della codifica: sono byte "grezzi". Nel secondo caso gli unici caratteri supportati sono quelli che hanno una codifica Unicode corretta.

Fortunatamente in Python il problema della codifica e decodifica è stato risolto molto bene grazie a un sistema di codec da e verso i quali è possibile effettuate le conversioni.

Vi risparmio la teoria e passiamo subito alla pratica col caso sollevato qui, in modo da capire immediatamente come sfruttare questi strumenti.

Innanzitutto bisogna capire bene qual è la codifica del file letto. Dall'output incollato:
"[Canto terzo, nel quale tratta de la porta e de l'entrata de l'inferno e del fiume d'Acheronte, de la pena di coloro che vissero sanza opere di fama degne, e come il demonio Caron li trae in sua nave e come elli parl\xc3\xb2 a l'auttore; e tocca qui questo vizio ne la persona di papa Cilestino.]\n"
facendo qualche prova ho capito che si trattava di utf8.

Questo significa che se prendo la stringa così com'è e la stampo a video, ottengo dei caratteri strani a video, perché Python di default imposta la codifica di sistema. Quindi se prendo quella stringa e la codifica di default è latin1, eseguendo un print mi aspetto che i byte C3 e B2 in esadecimale rappresentino dei validi caratteri latin1, cp1252 o altro (a seconda del codepage impostato).

Questo non è vero, perché, appunto si tratta di una codifica utf8. Cosa dobbiamo fare quindi per poter stampare correttamente quei dati? Bisogna convertire lo stream di byte utf8 in una stringa unicode, e questo lo si fa col metodo decode della stringhe, specificando qual è l'encoding dello stream che si vuole convertire:
s.decode('utf-8')
dove s è la stringa di byte e 'utf-8' è il suo encoding attuale.

In questo modo otteniamo una stringa unicode, che Python può gestire tranquillamente a seconda della codifica di default impostata nel sistema. Questo significa che se cercate di stamparla Python provvederà automaticamente a effettuare le opportune conversioni per ottenere un output corretto.

A parte questo se, ad esempio, volessimo ricodificare la stringa in latin1, ad esempio, l'operazione da fare è semplicissima:
u.encode('latin1')
posto che u sia la stringa unicode (ottenuta con s.decode('utf-8')) e che latin1 sia l'encoding finale che si vuol ottenere.

Dopo quest'operazione, se tutto va bene (spiego dopo il perché), siamo sicuri che lo stream di byte ottenuto sia codificato in latin1.

Dicevo prima se tutto va bene, perché non è detto che una codifica (ma anche una decodifica) possa essere eseguita correttamente. Basti provare a convertire la stringa di cui sopra in ascii, ad esempio:
>>> print s.decode('utf-8').encode('ascii')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode character u'\xf2' in position 216: ordinal not in range(128)
Questo perché la codifica ascii NON prevede nessun simbolo per il carattere "ò".

In questi casi Python prevede il sollevamento di un'eccezione, ma è possibile modificarne il comportamento (ad esempio ignorando o rimpiazzando i caratteri non codificabili) specificando cosa fare col secondo parametro (opzionale) di encode o decode.

E' tutto. Se ci sono dubbi chiedete pure.

avastreg
15-12-2008, 08:33
grazie cdimauro, si aspettava un (tuo) intervento chiarificatore! :D

nel weekend ho poi risolto proprio con s.decode('utf_8'), ma facendo vari tentativi pseudo a caso.

Il perchè dell'errore l'ho letto qui (http://www.amk.ca/python/howto/unicode), documento interessante.

cdimauro
15-12-2008, 08:36
Figurati: è un piacere dare una mano, quando posso. :)

Quel link l'avevo letto tempo fa ed è proprio quello che mi ha illuminato sulla questione. :D