DeepSeek R1: kinų AI modelio apžvalga

Kas tas DeepSeek ir kodėl visi staiga apie jį kalba?

Jei pastarosiomis savaitėmis sekate technologijų naujienas, tikriausiai pastebėjote, kad internetas tiesiog sprogo nuo diskusijų apie vieną kinų kompanijos sukurtą AI modelį. DeepSeek R1 – tai ne tik dar vienas kalbos modelis, kuris moka rašyti eilėraščius ir atsakyti į klausimus apie receptus. Tai modelis, kuris rimtai sukrėtė visą AI industriją ir privertė net pačius rimčiausius Silicon Valley žmones susiraukti.

DeepSeek – tai Kinijos kompanija, įkurta 2023 metais Hangdžou mieste. Iš pradžių ji buvo žinoma kaip kiekybinio investavimo fondo High-Flyer dalis, tačiau greitai tapo savarankišku AI tyrimų centru. Ir štai 2025 metų pradžioje jie išleido R1 – modelį, kuris pagal daugelį testų lenkia arba bent jau lygiavertiškai konkuruoja su OpenAI o1, Anthropic Claude ir Google Gemini.

Bet tai dar ne viskas, kas čia įdomu. Įdomiausia dalis – kaip jiems tai pavyko padaryti.

Techniniai skaičiai, kurie privertė Wall Street nervintis

Kai OpenAI kūrė GPT-4, kalbėta apie šimtus milijonų dolerių investicijų į skaičiavimo infrastruktūrą. Meta į savo Llama modelius investavo panašias sumas. DeepSeek teigia, kad R1 modelio treniravimas jiems kainavo apie 5,6 milijono dolerių. Taip, jūs teisingai perskaitėte.

Šis skaičius iš karto sukėlė skepticizmą – daugelis ekspertų abejojo, ar tai tikslūs duomenys, ar tik rinkodaros triukas. Tačiau net jei tikroji suma yra du ar tris kartus didesnė, tai vis tiek yra astronomiškai mažiau nei tai, ką išleidžia Vakarų kompanijos. Nvidia akcijų kaina po šio paskelbimo krito apie 17 procentų per vieną dieną – investuotojai suprato, kad galbūt tų brangių H100 GPU nebūtina turėti tiek daug, kiek manyta.

Techniškai kalbant, DeepSeek R1 naudoja keletą inovatyvių architektūros sprendimų:

Mixture of Experts (MoE) – modelis turi 671 milijardą parametrų, tačiau kiekvienam užklausimui aktyvuoja tik apie 37 milijardus. Tai reiškia, kad jis yra daug efektyvesnis nei tradiciniai „dense” modeliai.
Multi-head Latent Attention (MLA) – specialus dėmesio mechanizmas, kuris sumažina atminties naudojimą inferavimo metu.
Reinforcement Learning be žmogiškų anotacijų – tai turbūt pats įdomiausias aspektas. R1 buvo treniruotas daugiausia naudojant reinforcement learning, kai modelis pats mokosi iš savo klaidų, o ne iš žmonių pateiktų pavyzdžių.

Šis paskutinis punktas yra ypač svarbus, nes tradiciškai labai kokybiškas AI modelis reikalauja tūkstančių žmonių, kurie rankiniu būdu vertina atsakymus ir teikia grįžtamąjį ryšį. DeepSeek sugebėjo šį procesą iš esmės automatizuoti.

Kaip R1 faktiškai veikia – mąstymo grandinės magija

DeepSeek R1 priklauso vadinamųjų „reasoning” modelių kategorijai – tai reiškia, kad prieš pateikdamas atsakymą, jis „galvoja”. Ir čia prasideda tikrai įdomūs dalykai.

Kai užduodate R1 sudėtingą matematikos uždavinį ar logikos galvosūkį, galite pamatyti jo mąstymo procesą – ilgą teksto srautą, kuriame modelis svarsto skirtingus sprendimo kelius, daro prielaidas, jas tikrina, grįžta atgal ir bando iš naujo. Tai labai primena tai, kaip žmogus galvoja balsu sprendžiant sudėtingą problemą.

Praktiškai tai atrodo taip: pateikiate klausimą, ir modelis prieš atsakydamas sugeneruoja kelis šimtus ar net tūkstančius žetonų „vidinio dialogo”. Šis procesas vadinamas chain-of-thought reasoning ir R1 jį atlieka ypač gerai.

Palyginkime su standartiniais modeliais: jei paklaustumėte GPT-3.5 apie sudėtingą matematikos uždavinį, jis tiesiog pateiktų atsakymą – teisingą arba ne. R1 pirmiausia išanalizuotų problemą, išskaidytų ją į žingsnius, patikrintų kiekvieną žingsnį ir tik tada pateiktų galutinį atsakymą. Tai daro jį žymiai patikimesniu sudėtingose užduotyse.

Vienas dalykas, kurį verta žinoti: šis mąstymo procesas kartais būna labai ilgas ir gali atrodyti šiek tiek chaotiškas. Modelis dažnai „galvoja” kinų kalba net tada, kai atsakymą pateikia angliškai ar lietuviškai – tai yra žinomas R1 bruožas, kuris kai kuriuos vartotojus stebina.

Testai ir lyginimas su konkurentais – kur R1 laimi, o kur ne

Gerai, bet kaip R1 faktiškai lyginti su tuo, ką mes jau žinome ir naudojame? Pažiūrėkime į konkrečius skaičius, nes jie čia tikrai kalba patys už save.

Standartiniuose matematikos testuose (AIME 2024) DeepSeek R1 pasiekė apie 79,8 procento tikslumą. OpenAI o1 pasiekė 79,2 procento. Tai praktiškai lygybė. MATH-500 teste R1 pasiekė 97,3 procento – vėlgi, beveik identiškai su o1.

Programavimo testuose (Codeforces) R1 pasiekė 2029 reitingo tašką, o o1 – 1891. Čia R1 faktiškai lenkia savo konkurentą. Tai ypač įspūdinga, nes programavimas yra viena iš sričių, kurioje OpenAI modeliai tradiciškai buvo labai stiprūs.

Tačiau yra sričių, kur R1 atsilieka:

Kūrybinis rašymas – Claude 3.5 Sonnet vis dar yra pranašesnis generuojant kokybišką kūrybinį turinį
Instrukcijų vykdymas – GPT-4o geriau supranta ir vykdo sudėtingas, daugiasluoksnes instrukcijas
Vaizdinė informacija – R1 yra tekstinis modelis, jis negali analizuoti paveikslėlių (nors DeepSeek turi atskirą multimodalų modelį)
Konteksto langas – 128K žetonų yra geras skaičius, bet kai kurie konkurentai siūlo daugiau

Svarbu paminėti, kad testai nėra viskas. Realaus naudojimo patirtis gali skirtis nuo to, ką rodo standartiniai benchmarkai. Asmeniškai išbandžius R1 su įvairiais klausimais – nuo techninių iki filosofinių – galima pastebėti, kad jis yra ypač stiprus ten, kur reikia nuoseklaus, žingsnis po žingsnio mąstymo.

Kaip išbandyti DeepSeek R1 – praktinis vadovas

Gerai, pakankamai teorijos. Kaip faktiškai galite naudoti šį modelį? Yra keletas būdų, ir kiekvienas turi savo privalumų bei trūkumų.

1. DeepSeek svetainė (chat.deepseek.com)

Paprasčiausias būdas – tiesiog eiti į jų svetainę ir pradėti kalbėtis. Registracija nemokama, o modelis prieinamas be jokių papildomų mokesčių. Sąsaja primena ChatGPT – paprasta, funkcionali, nieko perteklinio. Galite pasirinkti tarp „DeepSeek-V3” (greitesnis, bet mažiau analitiškas) ir „DeepSeek-R1” (lėtesnis, bet mąstantis). Rekomenduojama naudoti R1 sudėtingesniems klausimams.

2. API prieiga

Jei esate kūrėjas ir norite integruoti R1 į savo projektus, DeepSeek siūlo API, kurio kaina yra dramatiškai mažesnė nei OpenAI. Įvesties žetonai kainuoja apie 0,55 USD už milijoną, o išvesties – 2,19 USD. Palyginimui, OpenAI o1 kainuoja atitinkamai 15 USD ir 60 USD. Tai yra maždaug 27 kartus pigiau.

3. Vietinis paleidimas per Ollama

Tai turbūt įdomiausia galimybė tiems, kurie nori visiškos privatumo kontrolės. Kadangi DeepSeek R1 yra atviro kodo modelis, galite jį paleisti savo kompiuteryje. Štai kaip tai padaryti:


# Įdiekite Ollama iš ollama.ai
# Tada terminale paleiskite:
ollama pull deepseek-r1:7b  # Mažesnis modelis, veikia net be GPU
ollama pull deepseek-r1:14b # Vidutinis modelis
ollama pull deepseek-r1:70b # Didelis modelis, reikia stipraus GPU

7B versija veiks net ant vidutinio MacBook ar Windows kompiuterio su 16GB RAM. Kokybė bus mažesnė nei pilno modelio, bet vis tiek įspūdinga. 70B versijai jums reikės bent 40GB VRAM – tai jau rimtos GPU stotys arba Mac su M2 Ultra/M3 Max.

4. Per trečiųjų šalių platformas

Perplexity, Together.ai ir kitos platformos taip pat siūlo prieigą prie DeepSeek modelių, dažnai su papildomais funkcionalumais kaip interneto paieška ar dokumentų analizė.

Privatumo klausimai ir geopolitinis kontekstas

Negalima kalbėti apie DeepSeek nepalietę šio klausimo, nes jis yra tikrai svarbus. Ir čia reikia būti sąžiningam – situacija yra sudėtinga ir nėra vienareikšmio atsakymo.

DeepSeek yra Kinijos kompanija, ir pagal Kinijos įstatymus kompanijos privalo bendradarbiauti su valstybės saugumo institucijomis, jei to pareikalaujama. Tai yra faktas, kurio negalima ignoruoti. Jų privatumo politika nurodo, kad duomenys saugomi Kinijoje esančiuose serveriuose.

Keletas konkrečių pastebėjimų:

Italija ir kai kurios kitos Europos šalys jau pradėjo tyrimus dėl GDPR atitikties
Kai kurios JAV vyriausybinės institucijos jau uždraudė DeepSeek naudojimą darbo įrenginiuose
Modelis atsisako atsakyti į klausimus apie Tiananmenio aikštės įvykius, Taivano nepriklausomybę ir kitas politiškai jautrias Kinijai temas

Tačiau yra ir kita perspektyva: jei naudojate vietinį modelį per Ollama, jūsų duomenys niekur nekeliauja – viskas vyksta jūsų kompiuteryje. Tai iš esmės eliminuoja privatumo riziką. Atviro kodo modelis taip pat reiškia, kad mokslininkai visame pasaulyje gali tikrinti kodą ir ieškoti galimų problemų.

Praktinė rekomendacija: jei dirbate su konfidencialiais verslo duomenimis ar jautriais projektais, naudokite vietinę versiją arba apskritai laikykitės patikrintų Vakarų kompanijų sprendimų. Jei tiesiog eksperimentuojate ar naudojate nekonfidencialiai – rizika yra panaši kaip naudojant bet kurį kitą debesijos AI paslaugą.

Ką DeepSeek R1 reiškia AI industrijai – ir mums visiems

Pabandykime žiūrėti į didesnį paveikslą, nes čia yra kai kas tikrai svarbaus, kas peržengia vieną modelį ar vieną kompaniją.

Pirmiausia – DeepSeek parodė, kad aukščiausio lygio AI nebūtinai reikalauja aukščiausio lygio resursų. Tai yra fundamentaliai svarbu. Jei iki šiol AI raida buvo oligopolija, kurioje galėjo dalyvauti tik kompanijos su milijardiniais biudžetais, dabar tas barjeras žymiai sumažėjo. Tai reiškia, kad ateityje galime tikėtis daugiau konkurentų iš netikėtų vietų.

Antra – atviro kodo strategija. DeepSeek išleido savo modelį kaip atvirą – kiekvienas gali jį parsisiųsti, modifikuoti, treniruoti toliau. Tai yra esminis skirtumas nuo OpenAI ar Anthropic strategijos. Ir tai sukuria savotišką paradoksą: Kinijos kompanija yra atviresnė nei daugelis Vakarų demokratijų kompanijų.

Trečia – efektyvumo revoliucija. Jei DeepSeek metodai bus plačiai pritaikyti, tai gali reikšti, kad AI treniravimas taps prieinamesnis mažesnėms kompanijoms ir net universitetams. Tai galėtų paspartinti inovacijas ir diversifikuoti AI tyrimus.

Ketvirtai – tai yra rimtas signalas, kad AI lenktynės nebėra tik JAV ir Europos reikalas. Kinija investuoja milžiniškas sumas į AI tyrimus, ir DeepSeek yra vienas iš pirmų tikrai apčiuopiamų rezultatų, kuris pasiekė pasaulinę auditoriją.

Kai AI tampa demokratiškesnis – ar tai tikrai gerai?

Taigi kur mes esame dabar? DeepSeek R1 yra tikrai įspūdingas techninis pasiekimas – tai neabejotina. Jis yra greitas, protingas, pigus naudoti ir prieinamas kiekvienam, kas turi interneto ryšį. Matematikoje ir programavime jis faktiškai lenkia arba lygiavertiškai konkuruoja su geriausiais Vakarų modeliais, ir tai yra faktas, kurį sunku ginčyti.

Tačiau „geriausias” modelis nėra tas, kuris laimi visus testus. Tai tas, kuris geriausiai tinka jūsų konkretiems poreikiams. Jei jums reikia spręsti sudėtingus matematinius ar loginius uždavinius – R1 yra puikus pasirinkimas. Jei rašote kūrybinį turinį – Claude vis dar gali būti geresnis. Jei dirbate su vaizdiniais duomenimis – reikia kitų įrankių.

Praktinė išvada, kurią galima padaryti čia ir dabar: išbandykite DeepSeek R1. Tai nemokama, tai greita, ir tai suteiks jums asmeninę perspektyvą, kuri yra svarbesnė nei bet kuris straipsnis ar testas. Paleiskite jį per Ollama savo kompiuteryje, jei rūpi privatumas. Naudokite jų svetainę, jei norite greito eksperimento. Integruokite API į savo projektą, jei ieškote pigesnės alternatyvos OpenAI.

AI industrija 2025 metais yra tokia, kad kiekvieną ketvirtį atsiranda kažkas, kas „keičia viską”. Kartais tai yra perdėta. Bet DeepSeek R1 atveju – čia tikrai yra kažkas, kas keičia bent jau ekonomiką ir prieinamumą. O tai, ilgainiui, gali keisti viską.

Windows 11 įdiegimas senesniame kompiuteryje