PDA

View Full Version : [BASH] numero parole su pagina html


R.O.N.I
03-01-2013, 11:52
ciao ragazzi sto cercando di fare uno script che prenda un indirizzo (pagina web) e mi scriva in un file tutte le occorrenze delle parole scritte in essa, quello che dovrei fare sarebbe:

-scaricare la pagina html con wget
-filtrarla in un .txt cosė che siano presenti solo le parole visualizzate sulla pagina web (escludendo quindi la sintassi di html)
-analizzare il file e creare un .txt contenente il numero delle occorrenze di tutte le parole distinte nel file

il problema č che non riesco a filtrare l'html e lasciare solo quelle parole visibile nella pagina, ho provato con
sed -e 's/<[^>]*>//g' ${input_file} > ${output_file}

ma niente, qualche consiglio?