|
|||||||
|
|
|
![]() |
|
|
Strumenti |
|
|
#1 |
|
Junior Member
Iscritto dal: Jan 2013
Messaggi: 12
|
[SCRIPT/BASH] Script di ricerca parola in pagina web
Buonasera a tutti, spero di aver dato un titolo corretto alla discussione.
Sono nuovo del forum e scrivo alla ricerca di aiuto per uno script. Dunque io avrei bisogno di uno script che una volta lanciato ricerchi una parola all'interno del codice di una pagina (per intenderci a questo tipo di indirizzo view-source:http://www.nomesito.it) Allora: nel codice della pagina, tra le tante informazioni, è presente una struttura ricorrente di questo tipo, esempio: <div ....><a href=.... (Lombardia, 'Pavia', '27100') ...... </div>. Ogni struttura ha il suo <div>. Quello che lo script deve fare è: chiedermi una provincia (es. Pavia) e cercarla nel codice. Ogni volta che la trova deve memorizzare in un file qualsiasi il cap corrispondente, in questo caso appunto 27100. Se poi fosse presente un'altra riga fatta in questo modo: <div ....><a href=.... (Lombardia, 'Pavia', '27150') ...... </div> dovrà mettere nello stesso file dove aveva messo 27100 anche 27150. Non riesco proprio ad arrivarci... spero che qualcuno, anche solo con qualche indicazione, possa mettermi sulla buona strada. ciao a tutti e grazie!! |
|
|
|
|
|
#2 |
|
Senior Member
Iscritto dal: Apr 2001
Città: Milano
Messaggi: 3739
|
non so se ho capito ma ad esempio una cosa del tipo
scarico la pagina desiderata wget "http://www.google.it" la analizzo con findstr memorizzando quello che cerco in miofile.txt findstr /c:"content" index* >> miofile.txt |
|
|
|
|
|
#3 |
|
Junior Member
Iscritto dal: Jan 2013
Messaggi: 12
|
ma certo!!! wget!!! come ho fatto a non pensarci... ero concentrato sul fare la ricerca online senza pensare di scaricare la pagina ed analizzarla!! grazie mille! domani imposto lo script così. Dovrò studiarmi bene findstr perché penso di non averlo mai usato! grazie mille, sei stato gentilissimo e utilissimo!!
|
|
|
|
|
|
#4 |
|
Senior Member
Iscritto dal: Apr 2001
Città: Milano
Messaggi: 3739
|
ci si potrebbe implementare anche uno spider o robot o crawler senza scomodare altri linguaggi
|
|
|
|
|
|
#5 |
|
Junior Member
Iscritto dal: Jan 2013
Messaggi: 12
|
ciao, ho fatto un pò di tentativi ma vi è un problema di fondo.
Io ho impostato lo script semplicemente così: wget view-source\http://www.sito.it echo "inserire la provincia" read provincia grep $provincia view-source\http://www.sito.it Lo script salva la pagina correttamente, però quando fa la ricerca anziché visualizzare solo le righe interessate visualizza praticamente tutte le righe della pagina; come se fosse una riga sola. Mentre alcune righe, intervallate da righe vuote, non venivano visualizzate. Ciò, secondo te, vuol dire che chi ha fatto la pagina web ha praticamente unito quasi tutte le righe che compongono l'html? grazie ancora, ciao. |
|
|
|
|
|
#6 |
|
Senior Member
Iscritto dal: Apr 2001
Città: Milano
Messaggi: 3739
|
se lavori sotto unix con grep e cut puoi troncare la riga come e dove desideri, dovrei rispolverare un pò
|
|
|
|
|
| Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 07:03.



















