[Java] convertire String --> String[] [Archivio]

Emaborsa

13-05-2010, 21:53

Ho usato PDF Box per convertire da PDF a String.
La String in questione è molto lunga e va a capo automatico.
Come faccio a convertirla in un String[]? di solito uso split(), però che ci metto come parametro? per la riga nuova esiste un parametro?

deadlyomen17

13-05-2010, 22:09

Ho usato PDF Box per convertire da PDF a String.
La String in questione è molto lunga e va a capo automatico.
Come faccio a convertirla in un String[]? di solito uso split(), però che ci metto come parametro? per la riga nuova esiste un parametro?

va benissimo split, come parametro basta passargli il carattere di fine linea \n

es:

String text = "prima riga\nseconda riga\nterza riga";
String[] strings = text.split("\n");
for( int i = 0; i < strings.length; i++ ) {
System.out.println( "string[" + i + "] = " + strings[i] );
}

output:
string[0] = prima riga
string[1] = seconda riga
string[2] = terza rigaa

Emaborsa

14-05-2010, 17:56

...sto riscrivendo gran parte del programma. Non ho ancora provato ma sono sicuro che funzioni. In effetti sapevo del "\n", ma non mi ricordavo.
Ti faccio sapere;
grazie.

Emaborsa

16-05-2010, 22:39

Come presumevo, funziona. Ora il problema è un altro. Dopo aver fatto il lavoro descritto sopra, con il metodo println() a video mi ritrovo parte dell'array:

[1] V. R. Basili, L. C. Briand, and W. L. Melo. A validation of
Trans. Softw. Eng., 22(10):751–761, 1996.

Usando poi JDomWriter per creare un Xml, lui mi scrive:

[1] V. R. Basili, L. C. Briand, and W. L. Melo. A validation ofTrans. Softw. Eng., 22(10):751–761, 1996.

QUesto  presumo sia l'interruzione di linea. C'è modo di eliminarlo?

deadlyomen17

16-05-2010, 23:31

Come presumevo, funziona. Ora il problema è un altro. Dopo aver fatto il lavoro descritto sopra, con il metodo println() a video mi ritrovo parte dell'array:

[1] V. R. Basili, L. C. Briand, and W. L. Melo. A validation of
Trans. Softw. Eng., 22(10):751–761, 1996.

Usando poi JDomWriter per creare un Xml, lui mi scrive:

[1] V. R. Basili, L. C. Briand, and W. L. Melo. A validation ofTrans. Softw. Eng., 22(10):751–761, 1996.

QUesto  presumo sia l'interruzione di linea. C'è modo di eliminarlo?

 è il carriage return

non ho ben capito cosa vuoi fare e cosa stai facendo.

spiega meglio e cercherò di aiutarti

Kenger

17-05-2010, 05:57

Immagino che il problema sia che sotto windows il ritorno a capo è \r\n mentre sotto linux è solo \n (o il contrario, non ricordo mai).
Io fossi in te farei un string.replace("\r", ""); e poi lo split.

Emaborsa

17-05-2010, 10:02

 è il carriage return

non ho ben capito cosa vuoi fare e cosa stai facendo.

spiega meglio e cercherò di aiutarti

OK,
ho parsato un PDF con PdfBox ed ho così ottenuto una Stringa con dentro (quasi) tutto il PDF. Essendo interessato alle referenze a fondo pagina, ho dovuto scrivere del codice che andasse a prendere solo determinate righe. Avendo una stringa unica, mi era difficile trovare ed estrarre le referenze, perciò ho prima fatto lo split come spiegato nei primi post per avere un array di stringhe e poi sono andato in cerca delle referenze in base all'inizio di ognuna stringa.

Emaborsa

17-05-2010, 10:26

Immagino che il problema sia che sotto windows il ritorno a capo è \r\n mentre sotto linux è solo \n (o il contrario, non ricordo mai).
Io fossi in te farei un string.replace("\r", ""); e poi lo split.

...dato che usavo lo "\n" per fare lo split...se faccio prima il replaceAll(), poi come faccio a fare lo split?

Kenger

17-05-2010, 13:44

...dato che usavo lo "\n" per fare lo split...se faccio prima il replaceAll(), poi come faccio a fare lo split?

Il replace lo fai sul \r non sul \n ;)

Emaborsa

17-05-2010, 13:52

Il replace lo fai sul \r non sul \n ;)

Funziona, però non ho capito perchè. Puoi spiegarmi con precisione?

deadlyomen17

17-05-2010, 13:53

OK,
ho parsato un PDF con PdfBox ed ho così ottenuto una Stringa con dentro (quasi) tutto il PDF. Essendo interessato alle referenze a fondo pagina, ho dovuto scrivere del codice che andasse a prendere solo determinate righe. Avendo una stringa unica, mi era difficile trovare ed estrarre le referenze, perciò ho prima fatto lo split come spiegato nei primi post per avere un array di stringhe e poi sono andato in cerca delle referenze in base all'inizio di ognuna stringa.

fin qui tutto chiaro.
Dopo ciò il tuo scopo è creare un XML in cui mettere soltanto le referenze?

Che struttura deve avere questo XML?

Per arrivare ad avere, a partire da un'unica stringa, soltanto l'ultima parte con le referenze, potresti usare un altro metodo:

ottieni l'indice della prima referenza tramite il metodo
int java.lang.String.indexOf(String str)
passandogli una stringa che identifica la prima referenza (nell'esempio che hai postato, puoi passargli "[1]")

salvi la sottostringa che va dall'indice appena trovato fino alla fine della stringa, tramite il metodo
String java.lang.String.substring(int beginIndex, int endIndex)

splitti questa stringa usando un parametro che identifica la fine di una referenza e l'inizio di un'altra (se per esempio dopo ogni referenza di sono due endline, come avviene di solito, puoi usare \n\n (o forse nel tuo caso \n\r\n\r) come parametro).

in questo modo ottieni un array di stringhe in cui ogni stringa è una referenza intera (con eventuali endline singoli, come nel tuo esempio)

a questo punto puoi rimuovere gli endline all'interno di ogni referenza usando il metodo:
String java.lang.String.replaceAll(String regex, String replacement)
a cui passi come regex "\n\r" e come replacement uno spazio " "

il risultato finale sarà un array in cui ogni stringa è esattamente una referenza, rappresentata come unica linea, che puoi inserire in un XML senza problemi.

Emaborsa

17-05-2010, 13:56

fin qui tutto chiaro.
Dopo ciò il tuo scopo è creare un XML in cui mettere soltanto le referenze?

Che struttura deve avere questo XML?

Per arrivare ad avere, a partire da un'unica stringa, soltanto l'ultima parte con le referenze, potresti usare un altro metodo:

ottieni l'indice della prima referenza tramite il metodo
int java.lang.String.indexOf(String str)
passandogli una stringa che identifica la prima referenza (nell'esempio che hai postato, puoi passargli "[1]")

salvi la sottostringa che va dall'indice appena trovato fino alla fine della stringa, tramite il metodo
String java.lang.String.substring(int beginIndex, int endIndex)

splitti questa stringa usando un parametro che identifica la fine di una referenza e l'inizio di un'altra (se per esempio dopo ogni referenza di sono due endline, come avviene di solito, puoi usare \n\n (o forse nel tuo caso \n\r\n\r) come parametro).

in questo modo ottieni un array di stringhe in cui ogni stringa è una referenza intera (con eventuali endline singoli, come nel tuo esempio)

a questo punto puoi rimuovere gli endline all'interno di ogni referenza usando il metodo:
String java.lang.String.replaceAll(String regex, String replacement)
a cui passi come regex "\n\r" e come replacement uno spazio " "

il risultato finale sarà un array in cui ogni stringa è esattamente una referenza, rappresentata come unica linea, che puoi inserire in un XML senza problemi.

Difatti il problema era proprio il togliere quel  Facendo come dice Kenger ho risolto.
Grazie ad entrambi.

Gold

17-05-2010, 13:59

Non sarebbe meglio usare System.getProperty("line.separator") invece di \n o \r\n??

deadlyomen17

17-05-2010, 13:59

Funziona, però non ho capito perchè. Puoi spiegarmi con precisione?

i sistemi Windows utilizzano CR+LF per rappresentare il "a capo" (newline)
mentre i sistemi unix e unix-like usano LF
apple utilizza solo CR

fonte: http://it.wikipedia.org/wiki/Newline

resta comunque il consiglio di prima.

Emaborsa

17-05-2010, 14:02

Non sarebbe meglio usare System.getProperty("line.separator") invece di \n o \r\n??

Immagino che dipenda su quale SO usi il programma. Ora facendo come descritto sopra su Win funziona, però potrebbe essere che su MAC o Linux non funziona. Come mi consigli di fare?

Il codice attuale:
private void parsePdf() throws IOException {
PDFTextStripper stripper = new PDFTextStripper();
String text = stripper.getText(this.pdfBoxDocument);
text = text.replace("\r", "");
this.parsedText = text.split("\n");
}

deadlyomen17

17-05-2010, 14:05

Non sarebbe meglio usare System.getProperty("line.separator") invece di \n o \r\n??

Assolutamente corretto. Non ci avevo pensato.

Immagino che dipenda su quale SO usi il programma. Ora facendo come descritto sopra su Win funziona, però potrebbe essere che su MAC o Linux non funziona. Come mi consigli di fare?

System.getProperty("line.separator") ti ritorna la stringa che nel tuo sistema rappresenta newline.

quindi \n per sistemi *nix, \r per sistemi Mac, \n\r per sistemi NT

deadlyomen17

17-05-2010, 14:07

Il codice attuale:
private void parsePdf() throws IOException {
PDFTextStripper stripper = new PDFTextStripper();
String text = stripper.getText(this.pdfBoxDocument);
text = text.replace("\r", "");
this.parsedText = text.split("\n");
}

a questo punto perchè non fare direttamente
this.parsedText = text.split("\n\r");

o ancora megliO:
this.parsedText = text.split(System.getProperty("line.separator"));

Emaborsa

17-05-2010, 14:08

...o così, per averlo più leggibile:
private void parsePdf() throws IOException {
PDFTextStripper stripper = new PDFTextStripper();
String text = stripper.getText(this.pdfBoxDocument);
String lineSeparator = System.getProperty("line.separator");
this.parsedText = text.split(lineSeparator);
}

Kenger

17-05-2010, 14:21

Perfetto, sono niubbissimo in java e non sapevo si potesse fare così. Grazie.

Emaborsa

17-05-2010, 14:23

Perfetto, sono niubbissimo in java e non sapevo si potesse fare così. Grazie.

Io più che altro non sapevo di questo lineseparator...
:)

Kenger

17-05-2010, 16:58

Io più che altro non sapevo di questo lineseparator...
:)

Esatto, neanche io :)