|
|
|
![]() |
|
Strumenti |
![]() |
#1 |
Senior Member
Iscritto dal: May 2002
Città: Pavia.. a volte Milano o Como...talora Buccinasco! Firenze fino al 15/7
Messaggi: 2143
|
Aprire un GROSSO file di testo (2,2 Gb!)
cioa a tutti
![]() devo aprire un GROSSO (o meglio... COLOSSSALE!! ![]() si tratta di un file che contiene un gran numero di sequenze di DNA di circa 100mila basi ciascuna. all'inizio di ciascuna sequenza c'è una intestazione che inizia col simbolo ">" (che compare solo all'inizio di ciascuna sequenza). lo apro proprio per farlo a pezzi più piccoli (pensavo 300 mb) che sono più maneggevoli. il problema è che devo "farlo a pezzi" per forza a mano, non posso farlo in automatico, perchè è necessario che ogni file risultante inizi con una sequenzze, quindi che il primo carattere di ogni file risultante sia ">". è possibile fare il lavoro con GREP? ci sono altri modi? non trovo un editor di testo che mi apra un file così grosso (Xemacs arriva a 2 Gb se non sbaglio, mentre Emacs lo può fare ma bisogna smanettarlo, normalmente mi dà un errore di "buffer overflow"...) ringrazio in anticipo che vorrà aiutarmi ![]()
__________________
"Le masse sono abbagliate più facilmente da una grande bugia che da una piccola". (Adolf Hitler) "Se sei bello ti tirano le pietre, se sei brutto ti tirano le pietre. se sei al duomo ti tirano il duomo". (cit. un mio amico ![]() |
![]() |
![]() |
![]() |
#2 |
Senior Member
Iscritto dal: Aug 2007
Messaggi: 1270
|
Se hai una sequenza per ogni riga prova con qualcosa del genere:
index=0 for i in 'cat input.txt'; do echo $i > out${index}.txt; index=((index+1)) done seno usa uno script simile a questo: Codice:
#!/usr/bin/python input = open("/file/da/aprire", "r") dest = "/cartella/di/destinazione/" index=0 for line in input.readline(): if ">" in line: if out: out.close() out = open(dest + str(index) +".txt") index=index+1 out.writeline(line) in.close() out.close() sono pieni di errori da sistemare, siccome sono su win non posso neanche provarli... è solo per dare un'idea. Ultima modifica di arara : 11-04-2008 alle 16:06. |
![]() |
![]() |
![]() |
#3 |
Senior Member
Iscritto dal: May 2002
Città: Pavia.. a volte Milano o Como...talora Buccinasco! Firenze fino al 15/7
Messaggi: 2143
|
ma questo mi divide il file grosso in N file piccoli, ciascuno per sequenza, giusto?
a me servirebbe di "impacchettarli" a pezzi più grossi... cmq adesso provo, al max poi potrei ri-accorparli in file della dimensione giusta. grazie, per intanto ![]()
__________________
"Le masse sono abbagliate più facilmente da una grande bugia che da una piccola". (Adolf Hitler) "Se sei bello ti tirano le pietre, se sei brutto ti tirano le pietre. se sei al duomo ti tirano il duomo". (cit. un mio amico ![]() |
![]() |
![]() |
![]() |
#4 |
Senior Member
Iscritto dal: May 2002
Città: Pavia.. a volte Milano o Como...talora Buccinasco! Firenze fino al 15/7
Messaggi: 2143
|
ah, cmq non so programmare
![]() quindi se non fungono sarà difficile che riesca a sistemarli ![]() (faccio già fatica a fare "./configure", "make", "make install" e "make clean" ![]()
__________________
"Le masse sono abbagliate più facilmente da una grande bugia che da una piccola". (Adolf Hitler) "Se sei bello ti tirano le pietre, se sei brutto ti tirano le pietre. se sei al duomo ti tirano il duomo". (cit. un mio amico ![]() |
![]() |
![]() |
![]() |
#5 |
Senior Member
Iscritto dal: Oct 2007
Messaggi: 2971
|
Come sei messo a ram ? Potresti provare a editarlo con Ultraedit sotto Windows. Oppure spezzarlo con una delle tante utility in circolazione (splitter per es.) e poi ricostruire i record nelle zone di divisione.
Ultima modifica di patel45 : 11-04-2008 alle 16:41. |
![]() |
![]() |
![]() |
#6 |
Senior Member
Iscritto dal: May 2002
Città: Pavia.. a volte Milano o Como...talora Buccinasco! Firenze fino al 15/7
Messaggi: 2143
|
ram 1 giga.
centrino 2 GHz. la partizione di swap è circa 3 giga. come faccio a ricostruire i record se non aprendo il file "grosso"? ho provato con Kate, Kwrite, Kedit... niente da fare.. si bloccano tutti.
__________________
"Le masse sono abbagliate più facilmente da una grande bugia che da una piccola". (Adolf Hitler) "Se sei bello ti tirano le pietre, se sei brutto ti tirano le pietre. se sei al duomo ti tirano il duomo". (cit. un mio amico ![]() |
![]() |
![]() |
![]() |
#7 |
Senior Member
Iscritto dal: May 2002
Città: Pavia.. a volte Milano o Como...talora Buccinasco! Firenze fino al 15/7
Messaggi: 2143
|
ma non ptrei, con GREP, greppare tipo "dalla riga X alla riga Y"?
essendo strutturato così >nome sequenza ACATGATGACGAT......etc.... tutti i nomi sono nella riga dispari, tutte le sequenze nella riga pari. potrei greppare fino alla dispari in modo da avere tutti i file risultanti ch einiziano con un ">nome sequenza". o no?
__________________
"Le masse sono abbagliate più facilmente da una grande bugia che da una piccola". (Adolf Hitler) "Se sei bello ti tirano le pietre, se sei brutto ti tirano le pietre. se sei al duomo ti tirano il duomo". (cit. un mio amico ![]() |
![]() |
![]() |
![]() |
#8 |
Senior Member
Iscritto dal: May 2002
Città: Pavia.. a volte Milano o Como...talora Buccinasco! Firenze fino al 15/7
Messaggi: 2143
|
scusate se insisto (non vorrei intasarvi la sezione... )
ho trovato questo nella sintassi di GREP -m NUM, --max-count=NUM Stop reading a file after NUM matching lines. If the input is standard input from a regular file, and NUM matching lines are output, grep ensures that the standard input is positioned to just after the last matching line before exiting, regardless of the presence of trailing context lines. This enables a calling process to resume a search. When grep stops after NUM matching lines, it outputs any trailing context lines. When the -c or --count option is also used, grep does not output a count greater than NUM. When the -v or --invert-match option is also used, grep stops after outputting NUM non-matching lines. da http://maxint.dynalias.org/index.php/Grep potrei fare del GREP per linee a blocchi di 1000 e vedere il size del file che esce. è plausibile?
__________________
"Le masse sono abbagliate più facilmente da una grande bugia che da una piccola". (Adolf Hitler) "Se sei bello ti tirano le pietre, se sei brutto ti tirano le pietre. se sei al duomo ti tirano il duomo". (cit. un mio amico ![]() |
![]() |
![]() |
![]() |
#9 |
Senior Member
Iscritto dal: Oct 2007
Messaggi: 2971
|
Quello che intendo è dividere il file in 10 parti uguali con il comando split http://www.techiecorner.com/107/how-...r-files-linux/
Poi editando ogni parte ricostruisci il record che sarà tagliato casualmente dalla divisione in parti uguali. |
![]() |
![]() |
![]() |
#10 | |
Senior Member
Iscritto dal: Aug 2007
Messaggi: 1270
|
Quote:
sto codice funziona, salvalo nel file split ed esegui: python split InputFile X che crea tanti file con ognuno X sequenze al suo interno. (occhio alle tabulazioni!!! devono essere uguali) Codice:
import sys inputFile = open(sys.argv[1], "r") numeroFile=0 sequenzeCopiate=0 sequenzePerFile=int(sys.argv[2])*2 outputFile = open(str(numeroFile)+".txt", "w") for linea in inputFile: if sequenzeCopiate == sequenzePerFile: outputFile.close() numeroFile = numeroFile+1 outputFile = open(str(numeroFile)+".txt", "w") sequenzeCopiate=0 outputFile.write(linea) sequenzeCopiate = sequenzeCopiate+1 inputFile.close() outputFile.close() |
|
![]() |
![]() |
![]() |
#11 |
Senior Member
Iscritto dal: May 2002
Città: Pavia.. a volte Milano o Como...talora Buccinasco! Firenze fino al 15/7
Messaggi: 2143
|
mò provo.
il punto è i file di output vanno analizzati (è DNA) e ho paura di introdurre involontariamente errori splittando il file grosso. dovrei farlo con due size diversi, poi analizzare le sequenze "interrotte e sostituirle con le stesse, intere, copiate dai file ottenuto splittando con l'altro size ("taglierà" in punti diversi). così può andare secondo voi?
__________________
"Le masse sono abbagliate più facilmente da una grande bugia che da una piccola". (Adolf Hitler) "Se sei bello ti tirano le pietre, se sei brutto ti tirano le pietre. se sei al duomo ti tirano il duomo". (cit. un mio amico ![]() |
![]() |
![]() |
![]() |
#12 |
Senior Member
Iscritto dal: Oct 2007
Messaggi: 2971
|
Proprio quello che volevo aggiungere io !
|
![]() |
![]() |
![]() |
#13 |
Senior Member
Iscritto dal: May 2002
Città: Pavia.. a volte Milano o Como...talora Buccinasco! Firenze fino al 15/7
Messaggi: 2143
|
perfetto!
![]() l'ho fatto con split, specificando il numero di linee split -l 1000 NOMEFILE mi sono usciti file di circa 80 mb... decisamente più abbordabili! grazie a tutti ![]()
__________________
"Le masse sono abbagliate più facilmente da una grande bugia che da una piccola". (Adolf Hitler) "Se sei bello ti tirano le pietre, se sei brutto ti tirano le pietre. se sei al duomo ti tirano il duomo". (cit. un mio amico ![]() |
![]() |
![]() |
![]() |
Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 16:13.