PDA

View Full Version : [Java] convertire String --> String[]


Emaborsa
13-05-2010, 22:53
Ho usato PDF Box per convertire da PDF a String.
La String in questione è molto lunga e va a capo automatico.
Come faccio a convertirla in un String[]? di solito uso split(), però che ci metto come parametro? per la riga nuova esiste un parametro?

deadlyomen17
13-05-2010, 23:09
Ho usato PDF Box per convertire da PDF a String.
La String in questione è molto lunga e va a capo automatico.
Come faccio a convertirla in un String[]? di solito uso split(), però che ci metto come parametro? per la riga nuova esiste un parametro?

va benissimo split, come parametro basta passargli il carattere di fine linea \n

es:

String text = "prima riga\nseconda riga\nterza riga";
String[] strings = text.split("\n");
for( int i = 0; i < strings.length; i++ ) {
System.out.println( "string[" + i + "] = " + strings[i] );
}

output:
string[0] = prima riga
string[1] = seconda riga
string[2] = terza rigaa

Emaborsa
14-05-2010, 18:56
...sto riscrivendo gran parte del programma. Non ho ancora provato ma sono sicuro che funzioni. In effetti sapevo del "\n", ma non mi ricordavo.
Ti faccio sapere;
grazie.

Emaborsa
16-05-2010, 23:39
Come presumevo, funziona. Ora il problema è un altro. Dopo aver fatto il lavoro descritto sopra, con il metodo println() a video mi ritrovo parte dell'array:

[1] V. R. Basili, L. C. Briand, and W. L. Melo. A validation of
Trans. Softw. Eng., 22(10):751–761, 1996.

Usando poi JDomWriter per creare un Xml, lui mi scrive:

[1] V. R. Basili, L. C. Briand, and W. L. Melo. A validation of&#xD;Trans. Softw. Eng., 22(10):751–761, 1996.

QUesto &#xD; presumo sia l'interruzione di linea. C'è modo di eliminarlo?

deadlyomen17
17-05-2010, 00:31
Come presumevo, funziona. Ora il problema è un altro. Dopo aver fatto il lavoro descritto sopra, con il metodo println() a video mi ritrovo parte dell'array:

[1] V. R. Basili, L. C. Briand, and W. L. Melo. A validation of
Trans. Softw. Eng., 22(10):751–761, 1996.

Usando poi JDomWriter per creare un Xml, lui mi scrive:

[1] V. R. Basili, L. C. Briand, and W. L. Melo. A validation of&#xD;Trans. Softw. Eng., 22(10):751–761, 1996.

QUesto &#xD; presumo sia l'interruzione di linea. C'è modo di eliminarlo?

&#xD; è il carriage return

non ho ben capito cosa vuoi fare e cosa stai facendo.

spiega meglio e cercherò di aiutarti

Kenger
17-05-2010, 06:57
Immagino che il problema sia che sotto windows il ritorno a capo è \r\n mentre sotto linux è solo \n (o il contrario, non ricordo mai).
Io fossi in te farei un string.replace("\r", ""); e poi lo split.

Emaborsa
17-05-2010, 11:02
&#xD; è il carriage return

non ho ben capito cosa vuoi fare e cosa stai facendo.

spiega meglio e cercherò di aiutarti

OK,
ho parsato un PDF con PdfBox ed ho così ottenuto una Stringa con dentro (quasi) tutto il PDF. Essendo interessato alle referenze a fondo pagina, ho dovuto scrivere del codice che andasse a prendere solo determinate righe. Avendo una stringa unica, mi era difficile trovare ed estrarre le referenze, perciò ho prima fatto lo split come spiegato nei primi post per avere un array di stringhe e poi sono andato in cerca delle referenze in base all'inizio di ognuna stringa.

Emaborsa
17-05-2010, 11:26
Immagino che il problema sia che sotto windows il ritorno a capo è \r\n mentre sotto linux è solo \n (o il contrario, non ricordo mai).
Io fossi in te farei un string.replace("\r", ""); e poi lo split.

...dato che usavo lo "\n" per fare lo split...se faccio prima il replaceAll(), poi come faccio a fare lo split?

Kenger
17-05-2010, 14:44
...dato che usavo lo "\n" per fare lo split...se faccio prima il replaceAll(), poi come faccio a fare lo split?

Il replace lo fai sul \r non sul \n ;)

Emaborsa
17-05-2010, 14:52
Il replace lo fai sul \r non sul \n ;)

Funziona, però non ho capito perchè. Puoi spiegarmi con precisione?

deadlyomen17
17-05-2010, 14:53
OK,
ho parsato un PDF con PdfBox ed ho così ottenuto una Stringa con dentro (quasi) tutto il PDF. Essendo interessato alle referenze a fondo pagina, ho dovuto scrivere del codice che andasse a prendere solo determinate righe. Avendo una stringa unica, mi era difficile trovare ed estrarre le referenze, perciò ho prima fatto lo split come spiegato nei primi post per avere un array di stringhe e poi sono andato in cerca delle referenze in base all'inizio di ognuna stringa.

fin qui tutto chiaro.
Dopo ciò il tuo scopo è creare un XML in cui mettere soltanto le referenze?

Che struttura deve avere questo XML?

Per arrivare ad avere, a partire da un'unica stringa, soltanto l'ultima parte con le referenze, potresti usare un altro metodo:

ottieni l'indice della prima referenza tramite il metodo
int java.lang.String.indexOf(String str)
passandogli una stringa che identifica la prima referenza (nell'esempio che hai postato, puoi passargli "[1]")

salvi la sottostringa che va dall'indice appena trovato fino alla fine della stringa, tramite il metodo
String java.lang.String.substring(int beginIndex, int endIndex)

splitti questa stringa usando un parametro che identifica la fine di una referenza e l'inizio di un'altra (se per esempio dopo ogni referenza di sono due endline, come avviene di solito, puoi usare \n\n (o forse nel tuo caso \n\r\n\r) come parametro).

in questo modo ottieni un array di stringhe in cui ogni stringa è una referenza intera (con eventuali endline singoli, come nel tuo esempio)

a questo punto puoi rimuovere gli endline all'interno di ogni referenza usando il metodo:
String java.lang.String.replaceAll(String regex, String replacement)
a cui passi come regex "\n\r" e come replacement uno spazio " "

il risultato finale sarà un array in cui ogni stringa è esattamente una referenza, rappresentata come unica linea, che puoi inserire in un XML senza problemi.

Emaborsa
17-05-2010, 14:56
fin qui tutto chiaro.
Dopo ciò il tuo scopo è creare un XML in cui mettere soltanto le referenze?

Che struttura deve avere questo XML?

Per arrivare ad avere, a partire da un'unica stringa, soltanto l'ultima parte con le referenze, potresti usare un altro metodo:

ottieni l'indice della prima referenza tramite il metodo
int java.lang.String.indexOf(String str)
passandogli una stringa che identifica la prima referenza (nell'esempio che hai postato, puoi passargli "[1]")

salvi la sottostringa che va dall'indice appena trovato fino alla fine della stringa, tramite il metodo
String java.lang.String.substring(int beginIndex, int endIndex)

splitti questa stringa usando un parametro che identifica la fine di una referenza e l'inizio di un'altra (se per esempio dopo ogni referenza di sono due endline, come avviene di solito, puoi usare \n\n (o forse nel tuo caso \n\r\n\r) come parametro).

in questo modo ottieni un array di stringhe in cui ogni stringa è una referenza intera (con eventuali endline singoli, come nel tuo esempio)

a questo punto puoi rimuovere gli endline all'interno di ogni referenza usando il metodo:
String java.lang.String.replaceAll(String regex, String replacement)
a cui passi come regex "\n\r" e come replacement uno spazio " "

il risultato finale sarà un array in cui ogni stringa è esattamente una referenza, rappresentata come unica linea, che puoi inserire in un XML senza problemi.

Difatti il problema era proprio il togliere quel &#xD; Facendo come dice Kenger ho risolto.
Grazie ad entrambi.

Gold
17-05-2010, 14:59
Non sarebbe meglio usare System.getProperty("line.separator") invece di \n o \r\n??

deadlyomen17
17-05-2010, 14:59
Funziona, però non ho capito perchè. Puoi spiegarmi con precisione?

i sistemi Windows utilizzano CR+LF per rappresentare il "a capo" (newline)
mentre i sistemi unix e unix-like usano LF
apple utilizza solo CR

fonte: http://it.wikipedia.org/wiki/Newline

resta comunque il consiglio di prima.

Emaborsa
17-05-2010, 15:02
Non sarebbe meglio usare System.getProperty("line.separator") invece di \n o \r\n??

Immagino che dipenda su quale SO usi il programma. Ora facendo come descritto sopra su Win funziona, però potrebbe essere che su MAC o Linux non funziona. Come mi consigli di fare?

Il codice attuale:
private void parsePdf() throws IOException {
PDFTextStripper stripper = new PDFTextStripper();
String text = stripper.getText(this.pdfBoxDocument);
text = text.replace("\r", "");
this.parsedText = text.split("\n");
}

deadlyomen17
17-05-2010, 15:05
Non sarebbe meglio usare System.getProperty("line.separator") invece di \n o \r\n??

Assolutamente corretto. Non ci avevo pensato.

Immagino che dipenda su quale SO usi il programma. Ora facendo come descritto sopra su Win funziona, però potrebbe essere che su MAC o Linux non funziona. Come mi consigli di fare?

System.getProperty("line.separator") ti ritorna la stringa che nel tuo sistema rappresenta newline.

quindi \n per sistemi *nix, \r per sistemi Mac, \n\r per sistemi NT

deadlyomen17
17-05-2010, 15:07
Il codice attuale:
private void parsePdf() throws IOException {
PDFTextStripper stripper = new PDFTextStripper();
String text = stripper.getText(this.pdfBoxDocument);
text = text.replace("\r", "");
this.parsedText = text.split("\n");
}

a questo punto perchè non fare direttamente
this.parsedText = text.split("\n\r");

o ancora megliO:
this.parsedText = text.split(System.getProperty("line.separator"));

Emaborsa
17-05-2010, 15:08
...o così, per averlo più leggibile:
private void parsePdf() throws IOException {
PDFTextStripper stripper = new PDFTextStripper();
String text = stripper.getText(this.pdfBoxDocument);
String lineSeparator = System.getProperty("line.separator");
this.parsedText = text.split(lineSeparator);
}

Kenger
17-05-2010, 15:21
Perfetto, sono niubbissimo in java e non sapevo si potesse fare così. Grazie.

Emaborsa
17-05-2010, 15:23
Perfetto, sono niubbissimo in java e non sapevo si potesse fare così. Grazie.

Io più che altro non sapevo di questo lineseparator...
:)

Kenger
17-05-2010, 17:58
Io più che altro non sapevo di questo lineseparator...
:)

Esatto, neanche io :)