Mixtral 8x7B: Uzdizanje jezičnog modeliranja s ekspertnom arhitekturom

Uvod u Mixtral 8x7B

Mixtral 8x7B predstavlja značajan iskorak na polju jezičnih modela. Razvio ga je Mistral AI, Mixtral je jezični model Sparse Mixture of Experts (SMoE), koji se temelji na arhitekturi Mistrala 7B. Ističe se svojom jedinstvenom strukturom gdje se svaki sloj sastoji od 8 feedforward blokova ili "stručnjaka". U svakom sloju, mreža usmjerivača odabire dva stručnjaka za obradu tokena, kombinirajući njihove izlaze za poboljšanje performansi. Ovaj pristup omogućuje modelu pristup 47B parametrima dok aktivno koristi samo 13B tijekom zaključivanja.

Ključne značajke i izvedba

Svestranost i učinkovitost: Mixtral se može nositi sa širokim spektrom zadataka, od matematike i generiranja koda do višejezičnog razumijevanja, nadmašujući Llama 2 70B i GPT-3.5 u ovim domenama.

Smanjene pristranosti i uravnotežen osjećaj: Mixtral 8x7B – Instruction varijanta, fino podešena za praćenje uputa, pokazuje smanjene pristranosti i uravnoteženiji profil raspoloženja, nadmašujući slične modele na mjerilima ljudske procjene​​.

Pristupačan i otvorenog koda: I osnovni i Instruct modeli objavljeni su pod licencom Apache 2.0, osiguravajući široku dostupnost za akademsku i komercijalnu upotrebu​​.

Iznimno rukovanje dugim kontekstom: Mixtral pokazuje izvanrednu sposobnost u rukovanju dugim kontekstima, postižući visoku točnost u dohvaćanju informacija iz opsežnih sekvenci.

maestral-8x7b.JPG

             Mixtral 8x7B, Izvor: Mixtral

Usporedna analiza

Mixtral 8x7B uspoređivan je s Llama 2 70B i GPT-3.5 u različitim mjerilima. Dosljedno odgovara ili nadmašuje te modele, osobito u matematici, generiranju koda i višejezičnim zadacima​.

Što se tiče veličine i učinkovitosti, Mixtral je učinkovitiji od Llame 2 70B, koristeći manje aktivnih parametara (13B), ali postižući superiorne performanse​​.

Obuka i fino podešavanje

Mixtral je unaprijed obučen s višejezičnim podacima, značajno nadmašujući Llama 2 70B na jezicima poput francuskog, njemačkog, španjolskog i talijanskog​​.

Varijanta Instruct trenira se pomoću nadziranog finog podešavanja i izravne optimizacije preferencija (DPO), postižući visoke rezultate na mjerilima poput MT-Bench​​.

Implementacija i pristupačnost

Mixtral 8x7B i njegova Instruct varijanta mogu se implementirati korištenjem vLLM projekta s Megablocks CUDA kernelima za učinkovito zaključivanje. Skypilot olakšava implementaciju oblaka.

Model podržava različite jezike, uključujući engleski, francuski, talijanski, njemački i španjolski​​​​​​.

Možete preuzeti Mixtral 8x7B na Huggingface.

Utjecaj industrije i budući izgledi

Inovativni pristup i vrhunske performanse Mixtral 8x7B čine ga značajnim napretkom u AI. Njegova učinkovitost, smanjena pristranost i višejezične mogućnosti pozicioniraju ga kao vodeći model u industriji. Otvorenost Mixtrala potiče različite primjene, potencijalno dovodeći do novih otkrića u AI i razumijevanju jezika.

Izvor slike: Shutterstock

Izvor: https://blockchain.news/analysis/mixtral-8x7b-revolutionizing-ai-with-sparse-mixture-of-experts-design