LongWriter, l’AI capace di generare testi fino a 10mila parole

Circa 33 pagine per ogni output: questa è la capacità di generazione testi dello straordinario modello LLM dell’Università di Tsinghua (Cina)

Redazione
app, amazon q, intelligenza artificiale, haiper, GenAI, AI, dream machine, agent ai, AI

Negli ultimi anni, i modelli di linguaggio di grandi dimensioni (LLM) sono diventati una presenza sempre più importante nel mondo dell’intelligenza artificiale. Tuttavia, nonostante i loro progressi, sono ancora abbastanza limitati nella capacità di generare testi molto lunghi, come ad esempio libri. Il limite massimo solitamente si aggira intorno alle 2.000 parole, e ciò è dovuto principalmente al fatto che questi modelli vengono addestrati su documenti brevi. Alcuni ricercatori cinesi hanno però ipotizzato che, modificando leggermente l’addestramento e utilizzando documenti più lunghi, sarebbe possibile superare questo ostacolo. E per certi versi ci sono riusciti, visto che il loro modello LLM, LongWriter, ora è in grado di generare testi fino a 10mila parole.

Dalla Cina il nuovo modello AI LongWriter

Racconta Techxplore, un gruppo di ricercatori dell’Università di Tsinghua (Cina) ha creato con LongWriter un modello LLM in grado di generare l’equivalente di 33 cartelle editoriali (circa 10mila parole), superando di gran lunga i limiti attuali dei modelli simili.

Ma come ci sono riusciti? In pratica il team ha inizialmente addestrato un modello LLM da 9 miliardi di parametri usando un dataset convenzionale, che conteneva documenti di piccole dimensioni, poco meno di 2.000 parole. Come previsto, il modello in questione non è stato in grado di generare testi più lunghi di tale limite.

Successivamente, il team ha modificato il modello utilizzando una pipeline chiamata AgentWrite, che suddivideva il materiale di addestramento in sottocompiti durante la sua elaborazione. Inoltre, il team ha creato un nuovo dataset, “LongWriter-6k”, composto da 6.000 documenti con dimensioni che variavano dalle 2.000 alle 32.000 parole.

Per saperne di più: Intelligenza artificiale: cos’è e come funziona, tutto sulla AI

Utilizzando questo nuovo dataset, i ricercatori hanno riaddestrato il modello, chiamato poi LongWriter, e hanno scoperto che era ora capace di produrre testi di circa 10.000 parole.

Dopo aver analizzato i testi generati dal nuovo modello LLM, il team ha riscontrato che erano coerenti e applicabili in diversi contesti. I risultati sono stati così incoraggianti che il gruppo ha deciso di condividere il codice open-source di LongWriter su GitHub, permettendo così ad altri di costruire e migliorare questo strumento.

Per dimostrare le potenzialità del modello, i ricercatori hanno pubblicato un video in cui LongWriter genera una guida turistica di 10.000 parole per i visitatori in Cina. Chissà se LongWriter sarà capace di generare interi documenti di ricerca, libri, manoscritti o forse anche sceneggiature di film!

Per saperne di più su questo modello LLM, vi consigliamo la lettura del paper integrale pubblicato su arXiv:

Yushi Bai et al, LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMsarXiv (2024). DOI: 10.48550/arxiv.2408.07055

Iscriviti alla newsletter

Non inviamo spam! Leggi la nostra Informativa sulla privacy per avere maggiori informazioni.