PDA

View Full Version : [SCRIPT/BASH] Script di ricerca parola in pagina web


vasilimaff
09-01-2013, 18:19
Buonasera a tutti, spero di aver dato un titolo corretto alla discussione.
Sono nuovo del forum e scrivo alla ricerca di aiuto per uno script.
Dunque io avrei bisogno di uno script che una volta lanciato ricerchi una parola all'interno del codice di una pagina (per intenderci a questo tipo di indirizzo view-source:http://www.nomesito.it)
Allora: nel codice della pagina, tra le tante informazioni, è presente una struttura ricorrente di questo tipo, esempio:
<div ....><a href=.... (Lombardia, 'Pavia', '27100') ...... </div>.
Ogni struttura ha il suo <div>.
Quello che lo script deve fare è: chiedermi una provincia (es. Pavia) e cercarla nel codice.
Ogni volta che la trova deve memorizzare in un file qualsiasi il cap corrispondente, in questo caso appunto 27100.
Se poi fosse presente un'altra riga fatta in questo modo:
<div ....><a href=.... (Lombardia, 'Pavia', '27150') ...... </div>
dovrà mettere nello stesso file dove aveva messo 27100 anche 27150.
Non riesco proprio ad arrivarci... spero che qualcuno, anche solo con qualche indicazione, possa mettermi sulla buona strada.
ciao a tutti e grazie!!

misterx
09-01-2013, 22:15
non so se ho capito ma ad esempio una cosa del tipo

scarico la pagina desiderata
wget "http://www.google.it"

la analizzo con findstr memorizzando quello che cerco in miofile.txt
findstr /c:"content" index* >> miofile.txt

vasilimaff
09-01-2013, 22:47
ma certo!!! wget!!! come ho fatto a non pensarci... ero concentrato sul fare la ricerca online senza pensare di scaricare la pagina ed analizzarla!! grazie mille! domani imposto lo script così. Dovrò studiarmi bene findstr perché penso di non averlo mai usato! grazie mille, sei stato gentilissimo e utilissimo!!

misterx
10-01-2013, 21:06
ci si potrebbe implementare anche uno spider o robot o crawler senza scomodare altri linguaggi :D

vasilimaff
15-01-2013, 18:01
ciao, ho fatto un pò di tentativi ma vi è un problema di fondo.
Io ho impostato lo script semplicemente così:

wget view-source\http://www.sito.it
echo "inserire la provincia"
read provincia
grep $provincia view-source\http://www.sito.it

Lo script salva la pagina correttamente, però quando fa la ricerca anziché visualizzare solo le righe interessate visualizza praticamente tutte le righe della pagina; come se fosse una riga sola. Mentre alcune righe, intervallate da righe vuote, non venivano visualizzate. Ciò, secondo te, vuol dire che chi ha fatto la pagina web ha praticamente unito quasi tutte le righe che compongono l'html? grazie ancora, ciao.

misterx
15-01-2013, 18:45
se lavori sotto unix con grep e cut puoi troncare la riga come e dove desideri, dovrei rispolverare un pò