Harvard rilascia un dataset di 1 milione di libri per l'addestramento dell'IA liberamente accessibile da tutti [Archivio]

Redazione di Hardware Upg

12-12-2024, 16:21

Link alla notizia: https://www.hwupgrade.it/news/web/harvard-rilascia-un-dataset-di-1-milione-di-libri-per-l-addestramento-dell-ia-liberamente-accessibile-da-tutti_133760.html

Il progetto è sostenuto da Microsoft e OpenAI, con la collaborazione di Alphabet per quanto riguarda Google Books. Si tratta di un insieme di libri e opere appartenenti a vari generi, epoche e lingue

Click sul link per visualizzare la notizia.

UtenteHD

13-12-2024, 08:16

Complimenti, rilasciare immensi dati per l'utilizzo di tutti, anche le piccole startup.

gparlav

13-12-2024, 08:31

Sono andato a guardare attraverso i links indicati nella notizia, ma sembra un progetto ancora "work in progress". Non capisco dove sono stati rilasciati questi libri e, sopratutto, cosa c'è dentro questo enorme DB

L'inizio della notizia è: "L'Università di Harvard ha annunciato quest'oggi il rilascio di un dataset contenente quasi un milione di libri di dominio pubblico, utilizzabile da chiunque per addestrare modelli linguistici di grandi dimensioni e altri strumenti di intelligenza artificiale"

Da tale inizio capisco che:
- Il DB è stato rilasciato al pubblico
- E' scaricabile e utilizzabile da parte di chiunque
- E' implicito il fatto che siano documenti di dominio pubblico, liberi da copyright e altri vincoli circa un libero utilizzo per qualsiasi scopo

io78bis

13-12-2024, 08:54

Sono andato a guardare attraverso i links indicati nella notizia, ma sembra un progetto ancora "work in progress". Non capisco dove sono stati rilasciati questi libri e, sopratutto, cosa c'è dentro questo enorme DB

L'inizio della notizia è: "L'Università di Harvard ha annunciato quest'oggi il rilascio di un dataset contenente quasi un milione di libri di dominio pubblico, utilizzabile da chiunque per addestrare modelli linguistici di grandi dimensioni e altri strumenti di intelligenza artificiale"

Da tale inizio capisco che:
- Il DB è stato rilasciato al pubblico
- E' scaricabile e utilizzabile da parte di chiunque
- E' implicito il fatto che siano documenti di dominio pubblico, liberi da copyright e altri vincoli circa un libero utilizzo per qualsiasi scopo

Direi che la risposta è in questa frase del sito IDI

We're currently refining datasets in collaboration with our community, with open releases slated for early 2025.

Quindi non ancora scaricabile. Il dataset di training per IA non so se è in formato DB. Sarebbe interessante però sapere il catalogo libri che ha alimentato il dataset

gparlav

13-12-2024, 11:41

...
Quindi non ancora scaricabile. Il dataset di training per IA non so se è in formato DB. Sarebbe interessante però sapere il catalogo libri che ha alimentato il dataset

Appunto: è un progetto ancora "Work in progress". Non hanno rilasciato nulla sinora.

Diciamo che la notizia, strutturata così, è fuorviante