Redazione di Hardware Upg
12-12-2024, 16:21
Link alla notizia: https://www.hwupgrade.it/news/web/harvard-rilascia-un-dataset-di-1-milione-di-libri-per-l-addestramento-dell-ia-liberamente-accessibile-da-tutti_133760.html
Il progetto è sostenuto da Microsoft e OpenAI, con la collaborazione di Alphabet per quanto riguarda Google Books. Si tratta di un insieme di libri e opere appartenenti a vari generi, epoche e lingue
Click sul link per visualizzare la notizia.
UtenteHD
13-12-2024, 08:16
Complimenti, rilasciare immensi dati per l'utilizzo di tutti, anche le piccole startup.
Sono andato a guardare attraverso i links indicati nella notizia, ma sembra un progetto ancora "work in progress". Non capisco dove sono stati rilasciati questi libri e, sopratutto, cosa c'è dentro questo enorme DB
L'inizio della notizia è: "L'Università di Harvard ha annunciato quest'oggi il rilascio di un dataset contenente quasi un milione di libri di dominio pubblico, utilizzabile da chiunque per addestrare modelli linguistici di grandi dimensioni e altri strumenti di intelligenza artificiale"
Da tale inizio capisco che:
- Il DB è stato rilasciato al pubblico
- E' scaricabile e utilizzabile da parte di chiunque
- E' implicito il fatto che siano documenti di dominio pubblico, liberi da copyright e altri vincoli circa un libero utilizzo per qualsiasi scopo
Sono andato a guardare attraverso i links indicati nella notizia, ma sembra un progetto ancora "work in progress". Non capisco dove sono stati rilasciati questi libri e, sopratutto, cosa c'è dentro questo enorme DB
L'inizio della notizia è: "L'Università di Harvard ha annunciato quest'oggi il rilascio di un dataset contenente quasi un milione di libri di dominio pubblico, utilizzabile da chiunque per addestrare modelli linguistici di grandi dimensioni e altri strumenti di intelligenza artificiale"
Da tale inizio capisco che:
- Il DB è stato rilasciato al pubblico
- E' scaricabile e utilizzabile da parte di chiunque
- E' implicito il fatto che siano documenti di dominio pubblico, liberi da copyright e altri vincoli circa un libero utilizzo per qualsiasi scopo
Direi che la risposta è in questa frase del sito IDI
We're currently refining datasets in collaboration with our community, with open releases slated for early 2025.
Quindi non ancora scaricabile. Il dataset di training per IA non so se è in formato DB. Sarebbe interessante però sapere il catalogo libri che ha alimentato il dataset
...
Quindi non ancora scaricabile. Il dataset di training per IA non so se è in formato DB. Sarebbe interessante però sapere il catalogo libri che ha alimentato il dataset
Appunto: è un progetto ancora "Work in progress". Non hanno rilasciato nulla sinora.
Diciamo che la notizia, strutturata così, è fuorviante
vBulletin® v3.6.4, Copyright ©2000-2025, Jelsoft Enterprises Ltd.