Qwen2.5-Max: Een nieuw tijdperk in de prestaties van grote taalmodellen

Qwen2.5-Max: Een nieuw tijdperk in de prestaties van grote taalmodellen
Image by Tung Nguyen from Pixabay

Key takeaways

  • Het LLM Qwen2.5-Max laat superieure prestaties zien in benchmarks zoals Arena-Hard, LiveBench, LiveCodeBench en GPQA-Diamond.
  • De basismodellen van het model laten significante voordelen zien in de meeste benchmarks, wat verdere vooruitgang suggereert door middel van post-training technieken.
  • Publieke toegang tot Qwen2.5-Max is nu beschikbaar via Qwen Chat, met een API (qwen-max-2025-01-25) die toegankelijk is via Alibaba Cloud Model Studio.

Vorderingen in AI

Op het gebied van artificiële intelligentie (AI) is er een golf van onderzoek geweest naar de invloed van het schalen van zowel gegevens als modelgrootte op de prestaties van modellen. Hoewel deze trend significante vooruitgang heeft opgeleverd, blijft de praktische ervaring met het schalen van extreem grote modellen, met name Mixture-of-Expert (MoE) modellen, beperkt. Recente onthullingen rond DeepSeek V3 hebben licht geworpen op cruciale aspecten van dit schaalproces.

Ontwikkeling van MoE-modellen

Tegelijkertijd hebben onderzoekers het LLM Qwen2.5-Max ontwikkeld, een grootschalig MoE-model dat is getraind op meer dan 20 biljoen tokens. Dit model is verder verfijnd door middel van supervised fine-tuning (SFT) en reinforcement learning from human feedback (RLHF). De prestaties van Qwen2.5-Max worden geëvalueerd ten opzichte van toonaangevende modellen, zowel eigen als open source, in een diverse reeks benchmarks. Deze omvatten beoordelingen van kennisbegrip (MMLU-Pro), codeervaardigheden (LiveCodeBench), algemene capaciteiten (LiveBench) en menselijke voorkeuren (Arena-Hard).

Vergelijkende prestatieanalyse

De eerste vergelijkingen richten zich op instructiemodellen, die zijn ontworpen voor downstream toepassingen zoals chatbots en het genereren van code. Qwen2.5-Max laat superieure prestaties zien in vergelijking met DeepSeek V3 in benchmarks zoals Arena-Hard, LiveBench, LiveCodeBench en GPQA-Diamond, terwijl het concurrerende resultaten laat zien in MMLU-Pro. Bij het vergelijken van basismodellen wordt gekeken naar DeepSeek V3, Llama-3.1-405B (het grootste open source model) en Qwen2.5-72B (een top open source model).

Toekomstige richtingen

De basismodellen van Qwen2.5-Max laten significante voordelen zien in de meeste benchmarks, wat suggereert dat verdere vooruitgang in post-training technieken de volgende iteratie van Qwen2.5-Max naar nieuwe hoogten zal stuwen. Publieke toegang tot Qwen2.5-Max is nu beschikbaar via Qwen Chat, zodat gebruikers kunnen communiceren met het model, de mogelijkheden kunnen verkennen en de API kunnen gebruiken. De API (qwen-max-2025-01-25) is toegankelijk via Alibaba Cloud Model Studio en biedt functionaliteiten die compatibel zijn met OpenAI-API. Toekomstige onderzoeksinspanningen zullen zich blijven richten op het schalen van gegevens en modelgrootte, waarbij de grenzen van de intelligentie van grote taalmodellen worden verlegd door middel van innovatieve technieken. Dit streven is gericht op het verbeteren van het redeneer- en denkvermogen, zodat modellen uiteindelijk de menselijke intelligentie kunnen overtreffen en onbekende gebieden van kennis en begrip kunnen verkennen.

Wil je toegang tot alle artikelen, geniet tijdelijk van onze promo en abonneer je hier!

Meer

Ontvang de Business AM nieuwsbrieven

De wereld verandert snel en voor je het weet, hol je achter de feiten aan. Wees mee met verandering, wees mee met Business AM. Schrijf je in op onze nieuwsbrieven en houd de vinger aan de pols.

03:00