help: estrazione testi da web e analisi testuale [Archivio]

floydktm

30-08-2010, 17:52

ciao a tutti,
mi scuso inizialmente per la seguente richiesta che forse potrà sembrare un po' confusa e poco ragionata. Non ho esperienza di programmazione e gradirei moltissimo vs. aiuto per impostare un lavoro di mio interesse.

Vorrei essere in grado prima di tutto di estrarre il testo di un qualsiasi sito di cui conosco l'url. Dovrei quindi riuscire a scaricare l'intero contenuto di un url, anche delle sottopagine. Mi è stato suggerito di usare un Crawler; con HTTrack in effetti si scarica benissimo il contenuto intero di qualsiasi sito. Il problema rimane quello di estrarre solo il testo.
Come posso fare? meglio abbandonare HTTrack per usare qualcos'altro? oppure esiste un modo di sfruttare il testo "off line" che viene prodotto da HTTrack?

L'estrazione del testo è necessaria in quanto vorrei successivamente sottoporlo ad analisi testuale automatica.
Mi spego meglio: vorrei usufruire di un software che effettui un'analisi testuale in modo da poterne automaticamente valutare l'attinenza ad un certo argomento di mio interesse.
Immagino siano possibili molte e diverse analisi testuali; ciò che mi interessa è valutare (magari attraverso parole chiave o alcuni abbinamenti fra esse) in maniera più possibile precisa, se il testo scaricato tratta di un certo specifico argomento in modo da poter rintracciare automaticamente tutti e solo quelli di mio interesse.
Esistono software del genere?

Concludo dicendo che generalmente i siti di mio interesse tratteranno principalmente di argomenti scientifici e tecnico/applicativi; saranno quindi articoli su siti specializzati da me già conosciuti e/o siti di aziende produttrici di particolari manufatti.

Grazie mille e scusatwe ancora l'imprecisione della questione
ciao, floyd