Понеділок, 27 січня, став воістину «чорним» для визнаних лідерів технологічної індустрії. Публікація даних про роботу китайського сервісу DeepSeek призвела до падіння акцій Nvidia і обвалення вартості ШІ-токенів на крипторинку. Що відбувається?
DeepSeek змушує експертів говорити про себе вже кілька тижнів. Китайська велика мовна модель створена начебто за образом і подобою ChatGPT від OpenAI, вона працює швидше і її застосунок абсолютно безкоштовний. Не дивно, що застосунок DeepSeek почав випереджати ChatGPT за кількістю завантажень в Apple App Store.
Але найдивовижніше сталося, коли дані про роботу китайського стартапу з’явилися у відкритому доступі лише за кілька днів після того, як Дональд Трамп тріумфально оголосив про план забезпечити лідерство США в галузі ШІ за чотири роки і $500 млрд.
Тут-то і з’ясувалося, що китайський стартап DeepSeek, що налічує близько 200 співробітників, лише за $10 млн створив потужну ШІ-модель, яка багато в чому перевершує ChatGPT.
Виявилося, що DeepSeek витрачає $2,19 за 1 млн токенів (одиниць тексту, які ШІ обробляє, щоб розуміти користувача і відповідати йому), а OpenAI — $60 за 1 млн токенів.
До того ж DeepSeek розробила ШІ, який працює автономно на смартфонах без участі серверів компанії. І тут криється ще одна величезна небезпека для американської hi-tech індустрії. Адже приклад DeepSeek показує, що ШІ може розвиватися без дорогих відеокарт. Моментальне падіння вартості акцій Nvidia стало цілком прогнозованою реакцією.
Отже, DeepSeek пропонує дивовижний продукт (до того ж, ще й з відкритим вихідним кодом), який становить загрозу для індустрії високих технологій США.
Генеральний директор компанії Curai Ніл Хосла навіть вважає, що загроза виникла не сама по собі, а є психологічною операцією Китаю. Хосла припускає, що DeepSeek «симулює низьку вартість, щоб виправдати встановлення низької ціни та сподівається, що всі перейдуть на неї, щоб завдати шкоди конкурентоспроможності ШІ в США».
Наскільки серйозна ця загроза і чи є у DeepSeek якісь підводні камені, які можуть перешкодити китайському тріумфу в галузі ШІ?
Давайте розбиратися.
Що таке DeepSeek?

DeepSeek: як працює китайська ІІ і в чому вона краща, ніж ChatGPT / Фото: NV via Midjourney
Заснована в травні 2023 року Лян Веньфеном, відомим діячем китайської індустрії ШІ, компанія DeepSeek фінансується виключно коштом хедж-фонду, також заснованого Веньфеном.
Завдяки цьому DeepSeek не має прямих зовнішніх інвесторів, які нав’язували б проєкту волю.
Команда DeepSeek складається здебільшого з молодих, талановитих випускників провідних китайських університетів, що сприяє розвитку культури інновацій та глибокому розумінню китайської мови і культури.
Оглядач Forbes Джанакірам Мсв зазначає, що відмінною рисою DeepSeek стало те, що під час приймання на роботу компанія віддає перевагу технічним здібностям, а не традиційному досвіду роботи, внаслідок чого в команді працюють висококваліфіковані фахівці зі свіжим поглядом на розвиток ШІ.
Перший проєкт було реалізовано в листопаді 2023 року. Це була модель DeepSeek Coder з відкритим вихідним кодом, призначена для розв’язання завдань програмування.
Потім було представлено DeepSeek LLM, модель із 67 параметрами, націлену на конкуренцію з іншими великими мовними моделями, такими як ChatGPT.
Модель DeepSeek-V2, випущена в травні 2024 року, привернула велику увагу завдяки своїй високій продуктивності і низькій вартості, викликавши цінову війну на китайському ринку моделей ШІ.
Ця руйнівна цінова стратегія змусила інших великих китайських технологічних гігантів, таких як ByteDance, Tencent, Baidu і Alibaba, знизити ціни на свої моделі ШІ, щоб зберегти конкурентоспроможність.
Усе це пройшло фактично поза увагою західних користувачів та інвесторів. Все-таки китайський ринок досить щільно закритий від сторонніх очей. Крім того, на думку деяких експертів, західні розробники довгий час зарозуміло вважали, що їхній відрив від Китаю настільки великий, що їм нічого не загрожує.
Ну а потім пішли нові розробки китайського стартапу.
Такі як DeepSeek-Coder-V2, більш просунута модель із 236 мільярдами параметрів. Вона призначена для вирішення складних завдань кодування і вирізняється високою довжиною контексту — до 128 тисяч токенів. Ціни на API-доступ до цієї моделі надзвичайно низькі – $0,14 за мільйон вхідних токенів і $0,28 за мільйон вихідних токенів.
Дві останні моделі компанії і зовсім «рвуть» шаблони.
DeepSeek-V3 може похвалитися вражаючою продуктивністю в різних бенчмарках, вимагаючи при цьому значно менше ресурсів, ніж аналоги.
А DeepSeek-R1, випущена в січні 2025 року, орієнтована на завдання міркування і своїми розширеними можливостями кидає виклик моделі o1 від OpenAI. Саме її успіх і призвів до тотальної істерії навколо DeepSeek після того, як компанія виклала в App Store безплатний застосунок, що дає доступ до моделі.
Великий венчурний інвестор Марк Андреессен назвав DeepSeek «одним із найбільш приголомшливих технологічних проривів, які він коли-небудь бачив».
«Ідея недорогої китайської версії не завжди була на першому плані, тому вона застала ринок зненацька», — каже Фіона Цинкотта, старший аналітик ринку City Index.
При цьому важливо зазначити, що у китайського стартапу поки немає чіткої комерційної ідеології. DeepSeek у короткі терміни домоглася вражаючих успіхів, але акцент у компанії, як і раніше, на дослідженнях. Поки не зрозуміло, як китайці мають намір монетизувати свій тріумф.
У чому революційність технологій DeepSeek?
Давайте подивимося, що такого унікального створив китайський стартап, щоб навести стільки галасу в індустрії ШІ.
Почати можна з того, що на відміну від традиційних методів, які значною мірою покладаються на контрольоване тонке налаштування, DeepSeek використовує чисте навчання з підкріпленням. Це — доволі складна система, яка дає мовним моделям навчатися методом проб і помилок. А самовдосконалення досягається за рахунок алгоритмічної винагороди.
По суті, моделі DeepSeek вчаться, взаємодіючи з навколишнім середовищем і отримуючи зворотний зв’язок про свої дії, подібно до того, як людина вчиться через досвід.
За рахунок цього моделі отримують нові здібності до міркування та ефективно адаптуються до нових ситуацій.
Саме таким чином натренувала модель DeepSeek-R1, найширші можливості якої призвели до вибухового успіху китайського стартапу.
Але запорукою неймовірної ресурсної ефективності DeepSeek є архітектура MoE, яка вміє задіяти лише мінімально необхідну частину своїх параметрів для вирішення будь-якого завдання.
Простіше кажучи, китайський ШІ не «стріляє з гармати по горобцях».
Вибіркова активація потужностей значно знижує обчислювальні витрати і підвищує ефективність.
А ще в DeepSeek використовуються методи дистиляції для перенесення знань і можливостей більших моделей у менші, ефективніші. Менші моделі успадковують передові можливості міркувань від старших моделей, і вся система працює ефективніше. З огляду на те, що тут активно використовується відкритий вихідний код, проєкт загалом можна назвати найбільш передовим у сфері створення великих мовних моделей.
У принципі, наведені вище технології вже самі по собі є відповіддю на запитання, чому доступ до DeepSeek за API коштує в 20−30 разів дешевше, ніж ChatGPT.
Але це ще не все.
Використання програмних рішень з відкритим вихідним кодом дає змогу відмовитися від ліцензійних платежів. Крім того, розробники можуть з легкістю модифікувати моделі DeepSeek під себе.
Чому DeepSeek становить серйозну загрозу для конкурентів?
Те, що трапилося на китайському ринку ШІ торік — маленька репетиція того, що може трапитися на світовому ринку.
Поява DeepSeek з його високою продуктивністю та ефективністю і низькими цінами може спровокувати справжню цінову війну. І призвести до зниження цін на доступ до великих мовних моделей.
У OpenAI, Google, xAI і Meta витрати на навчання моделей незрівнянно вищі. І через те, що вони поки що не володіють такими технологіями, і через те, що це величезні компанії з великими штатами і роздутими бюджетами.
Але що трапиться, якщо люди почнуть масово відмовлятися від 20-доларової підписки на ChatGPT, якщо DeepSeek пропонує те саме безкоштовно?
Або бізнеси почнуть перемикатися на API китайської компанії, щоб платити $2−3 за 1 млн токенів замість $60 у того ж ChatGPT?
Масштабні плани гігантів Кремнієвої долини з розвитку, в які закладалися мільярдні обороти, будуть під загрозою.
А є ж ще й індустрія «заліза».
Величезні вимоги великих мовних моделей до продуктивності призвели до підвищеного попиту на відеокарти, що дало змогу Nvidia стати найдорожчою компанією світу, випереджаючи Apple і Microsoft.
Однак, DeepSeek показує, що обчислювальні ресурси — далеко не головне. І існують технології, які дають змогу обійти це обмеження.
Щойно такі технології стануть масовими, попит на топові рішення Nvidia спаде.
А ще є питання відкритого вихідного коду. Вільний доступ до технологій DeepSeek дає змогу невеликим компаніям і стартапам працювати з найпередовішими АІ-рішеннями.
Не можна обійти стороною і позитивний вплив таких технологій на екологію. За меншого апаратного навантаження DeepSeek виробляє менший вуглецевий слід, виконуючи ті самі завдання.
Що може завадити китайцям на шляху до тріумфу?
Втім, ховати американські компанії поки що рано. У них є парочка козирів у рукаві.
Наприклад, ті самі обчислювальні потужності. Незважаючи на вищу ефективність, DeepSeek все ж потребує сучасних технологій і великих потужностей.
Але це — китайська компанія. Через американські експортні обмеження, DeepSeek не має доступу до топового «заліза», яке безумовно знадобиться для розвитку моделей наступного покоління.
Так, ефективність DeepSeek зараз вкрай висока, але не виключено, що в якийсь момент розробка, яка потребує масштабування, все ж таки упреться в брак виробничих потужностей.
З огляду на високу конкуренцію на ринку ШІ-рішень, DeepSeek необхідно буде постійно бути на «передньому краї» розробки і бути на крок попереду конкурентів.
Іншим викликом на шляху до загальносвітової популярності може стати репутація «китайської компанії». У багатьох західних країнах це — не найкращий спосіб завоювати довіру.
Особливо, з урахуванням типових для китайських IT-продуктів моментів, пов’язаних із цензурою. У мережі вже активно обговорюють скріншоти чатів з DeepSeek, в яких ШІ безпосередньо заперечує різні загальноприйняті діяння комуністичної влади Китаю. Простіше кажучи, DeepSeek створювався з урахуванням домінуючої в Китаї комуністичної ідеології.
Навряд чи цей момент може зіграти зовсім вже критичну роль, особливо для програмістів, які використовують DeepSeek як асистента в роботі з кодом. Але для багатьох людей з «гуманітарними» запитами, DeepSeek буде просто неприйнятним.
Чи зможуть розробники DeepSeek якось обійти ці обмеження під час розвитку своїх моделей, поки невідомо.
«Час покаже, чи реальна загроза DeepSeek, — зараз тривають перегони за тим, які технології спрацюють і як відреагують та еволюціонують великі західні гравці, — переконаний Майкл Блок, ринковий стратег Third Seven Capital. — Фінансові ринки занадто заспокоїлися на початку ери Трампа 2.0 і, можливо, шукали привід для відступу — і вони отримали чудовий привід».
За матеріалами techno.nv.ua