Torna indietro   Hardware Upgrade Forum > Software > Programmazione

Motorola edge 70: lo smartphone ultrasottile che non rinuncia a batteria e concretezza
Motorola edge 70: lo smartphone ultrasottile che non rinuncia a batteria e concretezza
Motorola edge 70 porta il concetto di smartphone ultrasottile su un terreno più concreto e accessibile: abbina uno spessore sotto i 6 mm a una batteria di capacità relativamente elevata, un display pOLED da 6,7 pollici e un comparto fotografico triplo da 50 MP. Non punta ai record di potenza, ma si configura come alternativa più pragmatica rispetto ai modelli sottili più costosi di Samsung e Apple
Display, mini PC, periferiche e networking: le novità ASUS al CES 2026
Display, mini PC, periferiche e networking: le novità ASUS al CES 2026
Sono molte le novità che ASUS ha scelto di presentare al CES 2026 di Las Vegas, partendo da una gamma di soluzioni NUC con varie opzioni di processore passando sino agli schermi gaming con tecnologia OLED. Il tutto senza dimenticare le periferiche di input della gamma ROG e le soluzioni legate alla connettività domestica
Le novità ASUS per il 2026 nel settore dei PC desktop
Le novità ASUS per il 2026 nel settore dei PC desktop
Molte le novità anticipate da ASUS per il 2026 al CES di Las Vegas: da schede madri per processori AMD Ryzen top di gamma a chassis e ventole, passando per i kit di raffreddamento all in one integrati sino a una nuova scheda video GeForce RTX 5090. In sottofondo il tema dell'intelligenza artificiale con una workstation molto potente per installazioni non in datacenter
Tutti gli articoli Tutte le news

Vai al Forum
Rispondi
 
Strumenti
Old 12-12-2008, 10:52   #1
avastreg
Senior Member
 
L'Avatar di avastreg
 
Iscritto dal: Sep 2007
Messaggi: 316
[Python] Encoding di una stringa letta da file

Ciao a tutti,

mi sto avvicinando pian piano a Python facendo vari script e test; sono su windows e uso SPE.

Stavo testando un po' la lettura da file e la successiva elaborazione delle stringhe ottenute, ma ho un problema con l'encoding.

Per maggior chiarezza posto il (poco) codice e l'output che vorrei encodare/decodare (ancora non l'ho capito)

Codice:
import os.path

f = open("C:\\inferno.txt","r")

print f.encoding # risulta none
canti = [[] for i in range(100)] #forse questa è inutile ma vabbè

i = 0

for line in f.readlines():
    if line.find("CANTO") != -1:
        i = i + 1
    canti[i].append(line)
line.encode("ascii")
print canti[3]

f.close()
l'output è questo

Codice:
['CANTO III\n', "[Canto terzo, nel quale tratta de la porta e de l'entrata de l'inferno e del fiume d'Acheronte, de la pena di coloro che vissero sanza opere di fama degne, e come il demonio Caron li trae in sua nave e come elli parl\xc3\xb2 a l'auttore; e tocca qui questo vizio ne la persona di papa Cilestino.]\n", "'Per me si va ne la citt\xc3\xa0 dolente,\n", ......
etc etc.

Il problema sono le lettere strane/accentate che non capisco come debbano essere trattate

Ho tentato con un line.encode('utf_8') ma ottengo questo errore:

Codice:
line.encode("utf_8")
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 138: ordinal not in range(128)
Perchè dice 'ascii'? googlando non sono giunto a conclusioni utili

Grazie in anticipo
avastreg è offline   Rispondi citando il messaggio o parte di esso
Old 12-12-2008, 13:45   #2
DanieleC88
Senior Member
 
L'Avatar di DanieleC88
 
Iscritto dal: Jun 2002
Città: Dublin
Messaggi: 5989
Quote:
Originariamente inviato da avastreg Guarda i messaggi
Codice:
    canti[i].append(line)
Prova ad usare canti[i].append(unicode(line)), anche se non sono sicuro che faccia al caso tuo.

ciao
__________________

C'ho certi cazzi Mafa' che manco tu che sei pratica li hai visti mai!
DanieleC88 è offline   Rispondi citando il messaggio o parte di esso
Old 12-12-2008, 14:40   #3
avastreg
Senior Member
 
L'Avatar di avastreg
 
Iscritto dal: Sep 2007
Messaggi: 316
Quote:
Originariamente inviato da DanieleC88 Guarda i messaggi
Prova ad usare canti[i].append(unicode(line)), anche se non sono sicuro che faccia al caso tuo.

ciao
grazie,

purtroppo mi da lo stesso errore

Codice:
canti[i].append(unicode(line))
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 138: ordinal not in range(128)
avastreg è offline   Rispondi citando il messaggio o parte di esso
Old 12-12-2008, 15:16   #4
Mindflyer
Member
 
L'Avatar di Mindflyer
 
Iscritto dal: Nov 2007
Messaggi: 88
Quote:
Originariamente inviato da avastreg Guarda i messaggi
Ho tentato con un line.encode('utf_8') ma ottengo questo errore:
Prova con:
Codice:
line.encode('latin-1')
__________________
PC: Windows Vista SP2 Home Premium & Ubuntu Karmic Koala 9.10 | Intel DP35DP | Intel Core 2 Quad Q6600 | 2x2048 Kingston DDR2 667mhz DualChannel | XFX Nvidia GeForce 8500GT | Seagate Barracuda 7200.10 & 7200.12 500GB SataII | Acer AL1916W
Mindflyer è offline   Rispondi citando il messaggio o parte di esso
Old 12-12-2008, 17:15   #5
avastreg
Senior Member
 
L'Avatar di avastreg
 
Iscritto dal: Sep 2007
Messaggi: 316
Quote:
Originariamente inviato da Mindflyer Guarda i messaggi
Prova con:
Codice:
line.encode('latin-1')
stesso errore anche con latin-1.. ma come è possibile! è strano..
avastreg è offline   Rispondi citando il messaggio o parte di esso
Old 12-12-2008, 18:35   #6
banryu79
Senior Member
 
L'Avatar di banryu79
 
Iscritto dal: Oct 2007
Città: Padova
Messaggi: 4131
utf_16 ?
__________________

As long as you are basically literate in programming, you should be able to express any logical relationship you understand.
If you don’t understand a logical relationship, you can use the attempt to program it as a means to learn about it.
(Chris Crawford)
banryu79 è offline   Rispondi citando il messaggio o parte di esso
Old 14-12-2008, 08:50   #7
cdimauro
Senior Member
 
L'Avatar di cdimauro
 
Iscritto dal: Jan 2002
Città: Germania
Messaggi: 26110
Quote:
Originariamente inviato da avastreg Guarda i messaggi
Ciao a tutti,

mi sto avvicinando pian piano a Python facendo vari script e test; sono su windows e uso SPE.

Stavo testando un po' la lettura da file e la successiva elaborazione delle stringhe ottenute, ma ho un problema con l'encoding.

Per maggior chiarezza posto il (poco) codice e l'output che vorrei encodare/decodare (ancora non l'ho capito)

Codice:
import os.path

f = open("C:\\inferno.txt","r")

print f.encoding # risulta none
canti = [[] for i in range(100)] #forse questa è inutile ma vabbè

i = 0

for line in f.readlines():
    if line.find("CANTO") != -1:
        i = i + 1
    canti[i].append(line)
line.encode("ascii")
print canti[3]

f.close()
l'output è questo

Codice:
['CANTO III\n', "[Canto terzo, nel quale tratta de la porta e de l'entrata de l'inferno e del fiume d'Acheronte, de la pena di coloro che vissero sanza opere di fama degne, e come il demonio Caron li trae in sua nave e come elli parl\xc3\xb2 a l'auttore; e tocca qui questo vizio ne la persona di papa Cilestino.]\n", "'Per me si va ne la citt\xc3\xa0 dolente,\n", ......
etc etc.

Il problema sono le lettere strane/accentate che non capisco come debbano essere trattate

Ho tentato con un line.encode('utf_8') ma ottengo questo errore:

Codice:
line.encode("utf_8")
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 138: ordinal not in range(128)
Perchè dice 'ascii'? googlando non sono giunto a conclusioni utili

Grazie in anticipo
Con le codifiche bisogna stare molto attenti perché è facile confondersi e perdersi fra cosa è codificato in quale tipo di codifica e quale codifica vorrei ottenere da un'altra. Visto che c'ho sbattuto non poco la testa, rispondo riportando la mia esperienza in merito.

Python ha due tipi di stringhe (tranne con la versione 3.0, ma per il momento non ne parliamo): sequenze di byte e unicode. Nel primo caso possiamo manipolare "buffer" senza occuparci della codifica: sono byte "grezzi". Nel secondo caso gli unici caratteri supportati sono quelli che hanno una codifica Unicode corretta.

Fortunatamente in Python il problema della codifica e decodifica è stato risolto molto bene grazie a un sistema di codec da e verso i quali è possibile effettuate le conversioni.

Vi risparmio la teoria e passiamo subito alla pratica col caso sollevato qui, in modo da capire immediatamente come sfruttare questi strumenti.

Innanzitutto bisogna capire bene qual è la codifica del file letto. Dall'output incollato:
Codice:
"[Canto terzo, nel quale tratta de la porta e de l'entrata de l'inferno e del fiume d'Acheronte, de la pena di coloro che vissero sanza opere di fama degne, e come il demonio Caron li trae in sua nave e come elli parl\xc3\xb2 a l'auttore; e tocca qui questo vizio ne la persona di papa Cilestino.]\n"
facendo qualche prova ho capito che si trattava di utf8.

Questo significa che se prendo la stringa così com'è e la stampo a video, ottengo dei caratteri strani a video, perché Python di default imposta la codifica di sistema. Quindi se prendo quella stringa e la codifica di default è latin1, eseguendo un print mi aspetto che i byte C3 e B2 in esadecimale rappresentino dei validi caratteri latin1, cp1252 o altro (a seconda del codepage impostato).

Questo non è vero, perché, appunto si tratta di una codifica utf8. Cosa dobbiamo fare quindi per poter stampare correttamente quei dati? Bisogna convertire lo stream di byte utf8 in una stringa unicode, e questo lo si fa col metodo decode della stringhe, specificando qual è l'encoding dello stream che si vuole convertire:
Codice:
s.decode('utf-8')
dove s è la stringa di byte e 'utf-8' è il suo encoding attuale.

In questo modo otteniamo una stringa unicode, che Python può gestire tranquillamente a seconda della codifica di default impostata nel sistema. Questo significa che se cercate di stamparla Python provvederà automaticamente a effettuare le opportune conversioni per ottenere un output corretto.

A parte questo se, ad esempio, volessimo ricodificare la stringa in latin1, ad esempio, l'operazione da fare è semplicissima:
Codice:
u.encode('latin1')
posto che u sia la stringa unicode (ottenuta con s.decode('utf-8')) e che latin1 sia l'encoding finale che si vuol ottenere.

Dopo quest'operazione, se tutto va bene (spiego dopo il perché), siamo sicuri che lo stream di byte ottenuto sia codificato in latin1.

Dicevo prima se tutto va bene, perché non è detto che una codifica (ma anche una decodifica) possa essere eseguita correttamente. Basti provare a convertire la stringa di cui sopra in ascii, ad esempio:
Codice:
>>> print s.decode('utf-8').encode('ascii')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode character u'\xf2' in position 216: ordinal not in range(128)
Questo perché la codifica ascii NON prevede nessun simbolo per il carattere "ò".

In questi casi Python prevede il sollevamento di un'eccezione, ma è possibile modificarne il comportamento (ad esempio ignorando o rimpiazzando i caratteri non codificabili) specificando cosa fare col secondo parametro (opzionale) di encode o decode.

E' tutto. Se ci sono dubbi chiedete pure.
__________________
Per iniziare a programmare c'è solo Python con questo o quest'altro (più avanzato) libro
@LinkedIn Non parlo in alcun modo a nome dell'azienda per la quale lavoro
Ho poco tempo per frequentare il forum; eventualmente, contattatemi in PVT o nel mio sito. Fanboys

Ultima modifica di cdimauro : 14-12-2008 alle 08:52.
cdimauro è offline   Rispondi citando il messaggio o parte di esso
Old 15-12-2008, 09:33   #8
avastreg
Senior Member
 
L'Avatar di avastreg
 
Iscritto dal: Sep 2007
Messaggi: 316
grazie cdimauro, si aspettava un (tuo) intervento chiarificatore!

nel weekend ho poi risolto proprio con s.decode('utf_8'), ma facendo vari tentativi pseudo a caso.

Il perchè dell'errore l'ho letto qui, documento interessante.
avastreg è offline   Rispondi citando il messaggio o parte di esso
Old 15-12-2008, 09:36   #9
cdimauro
Senior Member
 
L'Avatar di cdimauro
 
Iscritto dal: Jan 2002
Città: Germania
Messaggi: 26110
Figurati: è un piacere dare una mano, quando posso.

Quel link l'avevo letto tempo fa ed è proprio quello che mi ha illuminato sulla questione.
__________________
Per iniziare a programmare c'è solo Python con questo o quest'altro (più avanzato) libro
@LinkedIn Non parlo in alcun modo a nome dell'azienda per la quale lavoro
Ho poco tempo per frequentare il forum; eventualmente, contattatemi in PVT o nel mio sito. Fanboys
cdimauro è offline   Rispondi citando il messaggio o parte di esso
 Rispondi


Motorola edge 70: lo smartphone ultrasottile che non rinuncia a batteria e concretezza Motorola edge 70: lo smartphone ultrasottile che...
Display, mini PC, periferiche e networking: le novità ASUS al CES 2026 Display, mini PC, periferiche e networking: le n...
Le novità ASUS per il 2026 nel settore dei PC desktop Le novità ASUS per il 2026 nel settore de...
Le novità MSI del 2026 per i videogiocatori Le novità MSI del 2026 per i videogiocato...
I nuovi schermi QD-OLED di quinta generazione di MSI, per i gamers I nuovi schermi QD-OLED di quinta generazione di...
NASA: l'equipaggio di Crew-11 rientrer&a...
CoopVoce lancia le sue prime offerte 5G:...
Rivoluzione The Elder Scrolls Online: un...
Lo strapotere cinese è evidente c...
GeForce RTX 6000: niente SUPER e attesa ...
Anche gli Stati Uniti puntano il dito co...
È cinese la prima (enorme) pala e...
A Pechino è record di giorni con ...
Lenovo al CES 2026: Qira, IA ambientale ...
Le sette startup italiane che ridefinisc...
Philips Hue SpatialAware: la configurazi...
Sport & Lifestyle: performance, dati...
Le novità HP al CES 2026 tra AI P...
Gigabyte propone OLED per tutti con lumi...
Musk contro OpenAI, la guerra arriva in ...
Chromium
GPU-Z
OCCT
LibreOffice Portable
Opera One Portable
Opera One 106
CCleaner Portable
CCleaner Standard
Cpu-Z
Driver NVIDIA GeForce 546.65 WHQL
SmartFTP
Trillian
Google Chrome Portable
Google Chrome 120
VirtualBox
Tutti gli articoli Tutte le news Tutti i download

Strumenti

Regole
Non Puoi aprire nuove discussioni
Non Puoi rispondere ai messaggi
Non Puoi allegare file
Non Puoi modificare i tuoi messaggi

Il codice vB è On
Le Faccine sono On
Il codice [IMG] è On
Il codice HTML è Off
Vai al Forum


Tutti gli orari sono GMT +1. Ora sono le: 00:48.


Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2026, Jelsoft Enterprises Ltd.
Served by www3v