Torna indietro   Hardware Upgrade Forum > Software > Linux, Unix, OS alternativi

Wind Tre 'accende' il 5G Standalone in Italia: si apre una nuova era basata sui servizi
Wind Tre 'accende' il 5G Standalone in Italia: si apre una nuova era basata sui servizi
Con la prima rete 5G Standalone attiva in Italia, WINDTRE compie un passo decisivo verso un modello di connettività intelligente che abilita scenari avanzati per imprese e pubbliche amministrazioni, trasformando la rete da infrastruttura a piattaforma per servizi a valore aggiunto
OPPO Find X9 Pro: il camera phone con teleobiettivo da 200MP e batteria da 7500 mAh
OPPO Find X9 Pro: il camera phone con teleobiettivo da 200MP e batteria da 7500 mAh
OPPO Find X9 Pro punta a diventare uno dei riferimenti assoluti nel segmento dei camera phone di fascia alta. Con un teleobiettivo Hasselblad da 200 MP, una batteria al silicio-carbonio da 7500 mAh e un display da 6,78 pollici con cornici ultra ridotte, il nuovo flagship non teme confronti con la concorrenza, e non solo nel comparto fotografico mobile. La dotazione tecnica include il processore MediaTek Dimensity 9500, certificazione IP69 e un sistema di ricarica rapida a 80W
DJI Romo, il robot aspirapolvere tutto trasparente
DJI Romo, il robot aspirapolvere tutto trasparente
Anche DJI entra nel panorama delle aziende che propongono una soluzione per la pulizia di casa, facendo leva sulla propria esperienza legata alla mappatura degli ambienti e all'evitamento di ostacoli maturata nel mondo dei droni. Romo è un robot preciso ed efficace, dal design decisamente originale e unico ma che richiede per questo un costo d'acquisto molto elevato
Tutti gli articoli Tutte le news

Vai al Forum
Rispondi
 
Strumenti
Old 11-04-2008, 16:05   #1
Lorekon
Senior Member
 
L'Avatar di Lorekon
 
Iscritto dal: May 2002
Città: Pavia.. a volte Milano o Como...talora Buccinasco! Firenze fino al 15/7
Messaggi: 2143
Aprire un GROSSO file di testo (2,2 Gb!)

cioa a tutti


devo aprire un GROSSO (o meglio... COLOSSSALE!! ) file di testo... 2,2 Gb...

si tratta di un file che contiene un gran numero di sequenze di DNA di circa 100mila basi ciascuna.
all'inizio di ciascuna sequenza c'è una intestazione che inizia col simbolo ">" (che compare solo all'inizio di ciascuna sequenza).

lo apro proprio per farlo a pezzi più piccoli (pensavo 300 mb) che sono più maneggevoli.
il problema è che devo "farlo a pezzi" per forza a mano, non posso farlo in automatico, perchè è necessario che ogni file risultante inizi con una sequenzze, quindi che il primo carattere di ogni file risultante sia ">".


è possibile fare il lavoro con GREP?
ci sono altri modi?

non trovo un editor di testo che mi apra un file così grosso (Xemacs arriva a 2 Gb se non sbaglio, mentre Emacs lo può fare ma bisogna smanettarlo, normalmente mi dà un errore di "buffer overflow"...)

ringrazio in anticipo che vorrà aiutarmi
__________________
"Le masse sono abbagliate più facilmente da una grande bugia che da una piccola". (Adolf Hitler)
"Se sei bello ti tirano le pietre, se sei brutto ti tirano le pietre. se sei al duomo ti tirano il duomo". (cit. un mio amico )
Lorekon è offline   Rispondi citando il messaggio o parte di esso
Old 11-04-2008, 16:59   #2
arara
Senior Member
 
L'Avatar di arara
 
Iscritto dal: Aug 2007
Messaggi: 1270
Se hai una sequenza per ogni riga prova con qualcosa del genere:

index=0
for i in 'cat input.txt';
do echo $i > out${index}.txt;
index=((index+1))
done

seno usa uno script simile a questo:

Codice:
#!/usr/bin/python

input = open("/file/da/aprire", "r")
dest = "/cartella/di/destinazione/"
index=0

for line in input.readline():
  if ">" in line:
    if out: out.close()
    out = open(dest + str(index) +".txt")
    index=index+1
  out.writeline(line)

in.close()
out.close()


sono pieni di errori da sistemare, siccome sono su win non posso neanche provarli... è solo per dare un'idea.

Ultima modifica di arara : 11-04-2008 alle 17:06.
arara è offline   Rispondi citando il messaggio o parte di esso
Old 11-04-2008, 17:07   #3
Lorekon
Senior Member
 
L'Avatar di Lorekon
 
Iscritto dal: May 2002
Città: Pavia.. a volte Milano o Como...talora Buccinasco! Firenze fino al 15/7
Messaggi: 2143
ma questo mi divide il file grosso in N file piccoli, ciascuno per sequenza, giusto?

a me servirebbe di "impacchettarli" a pezzi più grossi...


cmq adesso provo, al max poi potrei ri-accorparli in file della dimensione giusta.

grazie, per intanto
__________________
"Le masse sono abbagliate più facilmente da una grande bugia che da una piccola". (Adolf Hitler)
"Se sei bello ti tirano le pietre, se sei brutto ti tirano le pietre. se sei al duomo ti tirano il duomo". (cit. un mio amico )
Lorekon è offline   Rispondi citando il messaggio o parte di esso
Old 11-04-2008, 17:09   #4
Lorekon
Senior Member
 
L'Avatar di Lorekon
 
Iscritto dal: May 2002
Città: Pavia.. a volte Milano o Como...talora Buccinasco! Firenze fino al 15/7
Messaggi: 2143
ah, cmq non so programmare
quindi se non fungono sarà difficile che riesca a sistemarli
(faccio già fatica a fare "./configure", "make", "make install" e "make clean" )
__________________
"Le masse sono abbagliate più facilmente da una grande bugia che da una piccola". (Adolf Hitler)
"Se sei bello ti tirano le pietre, se sei brutto ti tirano le pietre. se sei al duomo ti tirano il duomo". (cit. un mio amico )
Lorekon è offline   Rispondi citando il messaggio o parte di esso
Old 11-04-2008, 17:38   #5
patel45
Senior Member
 
Iscritto dal: Oct 2007
Messaggi: 2971
Come sei messo a ram ? Potresti provare a editarlo con Ultraedit sotto Windows. Oppure spezzarlo con una delle tante utility in circolazione (splitter per es.) e poi ricostruire i record nelle zone di divisione.

Ultima modifica di patel45 : 11-04-2008 alle 17:41.
patel45 è offline   Rispondi citando il messaggio o parte di esso
Old 11-04-2008, 18:25   #6
Lorekon
Senior Member
 
L'Avatar di Lorekon
 
Iscritto dal: May 2002
Città: Pavia.. a volte Milano o Como...talora Buccinasco! Firenze fino al 15/7
Messaggi: 2143
ram 1 giga.
centrino 2 GHz.
la partizione di swap è circa 3 giga.


come faccio a ricostruire i record se non aprendo il file "grosso"?
ho provato con Kate, Kwrite, Kedit... niente da fare.. si bloccano tutti.
__________________
"Le masse sono abbagliate più facilmente da una grande bugia che da una piccola". (Adolf Hitler)
"Se sei bello ti tirano le pietre, se sei brutto ti tirano le pietre. se sei al duomo ti tirano il duomo". (cit. un mio amico )
Lorekon è offline   Rispondi citando il messaggio o parte di esso
Old 11-04-2008, 18:29   #7
Lorekon
Senior Member
 
L'Avatar di Lorekon
 
Iscritto dal: May 2002
Città: Pavia.. a volte Milano o Como...talora Buccinasco! Firenze fino al 15/7
Messaggi: 2143
ma non ptrei, con GREP, greppare tipo "dalla riga X alla riga Y"?
essendo strutturato così
>nome sequenza
ACATGATGACGAT......etc....

tutti i nomi sono nella riga dispari, tutte le sequenze nella riga pari.

potrei greppare fino alla dispari in modo da avere tutti i file risultanti ch einiziano con un ">nome sequenza".

o no?
__________________
"Le masse sono abbagliate più facilmente da una grande bugia che da una piccola". (Adolf Hitler)
"Se sei bello ti tirano le pietre, se sei brutto ti tirano le pietre. se sei al duomo ti tirano il duomo". (cit. un mio amico )
Lorekon è offline   Rispondi citando il messaggio o parte di esso
Old 11-04-2008, 18:36   #8
Lorekon
Senior Member
 
L'Avatar di Lorekon
 
Iscritto dal: May 2002
Città: Pavia.. a volte Milano o Como...talora Buccinasco! Firenze fino al 15/7
Messaggi: 2143
scusate se insisto (non vorrei intasarvi la sezione... )

ho trovato questo nella sintassi di GREP

-m NUM, --max-count=NUM
Stop reading a file after NUM matching lines. If the input is
standard input from a regular file, and NUM matching lines are
output, grep ensures that the standard input is positioned to
just after the last matching line before exiting, regardless of
the presence of trailing context lines. This enables a calling
process to resume a search. When grep stops after NUM matching
lines, it outputs any trailing context lines. When the -c or
--count option is also used, grep does not output a count
greater than NUM. When the -v or --invert-match option is also
used, grep stops after outputting NUM non-matching lines.

da http://maxint.dynalias.org/index.php/Grep


potrei fare del GREP per linee a blocchi di 1000 e vedere il size del file che esce.
è plausibile?
__________________
"Le masse sono abbagliate più facilmente da una grande bugia che da una piccola". (Adolf Hitler)
"Se sei bello ti tirano le pietre, se sei brutto ti tirano le pietre. se sei al duomo ti tirano il duomo". (cit. un mio amico )
Lorekon è offline   Rispondi citando il messaggio o parte di esso
Old 11-04-2008, 18:37   #9
patel45
Senior Member
 
Iscritto dal: Oct 2007
Messaggi: 2971
Quello che intendo è dividere il file in 10 parti uguali con il comando split http://www.techiecorner.com/107/how-...r-files-linux/
Poi editando ogni parte ricostruisci il record che sarà tagliato casualmente dalla divisione in parti uguali.
patel45 è offline   Rispondi citando il messaggio o parte di esso
Old 11-04-2008, 19:03   #10
arara
Senior Member
 
L'Avatar di arara
 
Iscritto dal: Aug 2007
Messaggi: 1270
Quote:
Originariamente inviato da Lorekon Guarda i messaggi
essendo strutturato così
>nome sequenza
ACATGATGACGAT......etc....


tutti i nomi sono nella riga dispari, tutte le sequenze nella riga pari.
Potevi dirlo subito che aveva quella struttura, in questo caso è molto semplice da fare.
sto codice funziona, salvalo nel file split ed esegui:

python split InputFile X

che crea tanti file con ognuno X sequenze al suo interno.


(occhio alle tabulazioni!!! devono essere uguali)

Codice:
import sys

inputFile = open(sys.argv[1], "r")
numeroFile=0
sequenzeCopiate=0
sequenzePerFile=int(sys.argv[2])*2

outputFile = open(str(numeroFile)+".txt", "w")

for linea in inputFile:
	if sequenzeCopiate == sequenzePerFile:
		outputFile.close()
		numeroFile = numeroFile+1
		outputFile = open(str(numeroFile)+".txt", "w")
		sequenzeCopiate=0
	outputFile.write(linea)
	sequenzeCopiate = sequenzeCopiate+1

inputFile.close()
outputFile.close()
arara è offline   Rispondi citando il messaggio o parte di esso
Old 11-04-2008, 19:04   #11
Lorekon
Senior Member
 
L'Avatar di Lorekon
 
Iscritto dal: May 2002
Città: Pavia.. a volte Milano o Como...talora Buccinasco! Firenze fino al 15/7
Messaggi: 2143
mò provo.

il punto è i file di output vanno analizzati (è DNA) e ho paura di introdurre involontariamente errori splittando il file grosso.

dovrei farlo con due size diversi, poi analizzare le sequenze "interrotte e sostituirle con le stesse, intere, copiate dai file ottenuto splittando con l'altro size ("taglierà" in punti diversi).


così può andare secondo voi?
__________________
"Le masse sono abbagliate più facilmente da una grande bugia che da una piccola". (Adolf Hitler)
"Se sei bello ti tirano le pietre, se sei brutto ti tirano le pietre. se sei al duomo ti tirano il duomo". (cit. un mio amico )
Lorekon è offline   Rispondi citando il messaggio o parte di esso
Old 11-04-2008, 19:22   #12
patel45
Senior Member
 
Iscritto dal: Oct 2007
Messaggi: 2971
Quote:
Originariamente inviato da Lorekon Guarda i messaggi
dovrei farlo con due size diversi, poi analizzare le sequenze "interrotte e sostituirle con le stesse, intere, copiate dai file ottenuto splittando con l'altro size ("taglierà" in punti diversi).
così può andare secondo voi?
Proprio quello che volevo aggiungere io !
patel45 è offline   Rispondi citando il messaggio o parte di esso
Old 11-04-2008, 20:32   #13
Lorekon
Senior Member
 
L'Avatar di Lorekon
 
Iscritto dal: May 2002
Città: Pavia.. a volte Milano o Como...talora Buccinasco! Firenze fino al 15/7
Messaggi: 2143
perfetto!


l'ho fatto con split, specificando il numero di linee

split -l 1000 NOMEFILE

mi sono usciti file di circa 80 mb... decisamente più abbordabili!

grazie a tutti
__________________
"Le masse sono abbagliate più facilmente da una grande bugia che da una piccola". (Adolf Hitler)
"Se sei bello ti tirano le pietre, se sei brutto ti tirano le pietre. se sei al duomo ti tirano il duomo". (cit. un mio amico )
Lorekon è offline   Rispondi citando il messaggio o parte di esso
 Rispondi


Wind Tre 'accende' il 5G Standalone in Italia: si apre una nuova era basata sui servizi Wind Tre 'accende' il 5G Standalone in Italia: s...
OPPO Find X9 Pro: il camera phone con teleobiettivo da 200MP e batteria da 7500 mAh OPPO Find X9 Pro: il camera phone con teleobiett...
DJI Romo, il robot aspirapolvere tutto trasparente DJI Romo, il robot aspirapolvere tutto trasparen...
DJI Osmo Nano: la piccola fotocamera alla prova sul campo DJI Osmo Nano: la piccola fotocamera alla prova ...
FUJIFILM X-T30 III, la nuova mirrorless compatta FUJIFILM X-T30 III, la nuova mirrorless compatta
WhatsApp introduce le passkey per sempli...
L'offerta finisce alle 20 di oggi: Xiaom...
Lefant M330 da 6000Pa è imperdibi...
La Corea del Sud si mette nelle mani di ...
Addio console: Just Dance Now trasforma ...
Driver Radeon Adrenalin 25.10: perch&egr...
Oltre le GPU: NVIDIA annuncia NVQLink, ...
Samsung lancia il Team Galaxy Italia per...
Magic Leap: indistinguibili dai normali ...
Aruba Cloud: trasparenza sui costi e str...
Quando il cloud si blocca e resti al fre...
Integrare per competere, la sfida digita...
Leggenda del rally e modernità: S...
La Python Software Foundation rinuncia a...
Full HD e QLED, è in offerta un TV da 32...
Chromium
GPU-Z
OCCT
LibreOffice Portable
Opera One Portable
Opera One 106
CCleaner Portable
CCleaner Standard
Cpu-Z
Driver NVIDIA GeForce 546.65 WHQL
SmartFTP
Trillian
Google Chrome Portable
Google Chrome 120
VirtualBox
Tutti gli articoli Tutte le news Tutti i download

Strumenti

Regole
Non Puoi aprire nuove discussioni
Non Puoi rispondere ai messaggi
Non Puoi allegare file
Non Puoi modificare i tuoi messaggi

Il codice vB è On
Le Faccine sono On
Il codice [IMG] è On
Il codice HTML è Off
Vai al Forum


Tutti gli orari sono GMT +1. Ora sono le: 09:05.


Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Served by www3v