Non un paper né una presentazione scientifica, ma tutto fa brodo.
Qwen rilascia Qwen-32B. Usa GQA (Grouped Query Attention), dunque il consumo di VRAM è inferiore con contesti di lunga dimensione rispetto ad altri modelli della stessa famiglia. Più performante di MistralAI Mixtral 8x7B, a quanto pare:
https://qwenlm.github.io/blog/qwen1.5-32b/
https://huggingface.co/Qwen/Qwen1.5-32B-Chat-GGUF
Almeno in versione 72B, Qwen-Chat era fra i modelli migliori, almeno nei benchmark, ed il primo fra quelli open-weight (scaricabili):
https://huggingface.co/spaces/lmsys/...na-leaderboard