Створимо Бога. ТОП-7 проєктів, які лідирують у галузі ШІ сьогодні

Сім найвпливовіших проєктів, які задавали тон у сфері штучного інтелекту у 2024 році

Для більшості користувачів символом нового напряму ШІ став ChatGPT від компанії OpenAI.

Про революційний «чатик» сьогодні чули навіть діти. І навіть вельми далекі від індустрії високих технологій люди знають, хто такий Сем Альтман, якого дехто вже поспішив назвати «новим Стівом Джобсом». І чули історію його короткострокового звільнення з OpenAI з подальшим швидким поверненням.

Однак, незважаючи на те, що ChatGPT залишається законодавцем мод, розвиток індустрії ШІ визначає не тільки компанія Альтмана. Деякі інші проєкти в чомусь уже випереджають ChatGPT, а деякі й зовсім освоюють досі незвідані напрямки.

Давайте подивимося на сім найвпливовіших проєктів у сфері ШІ станом на кінець 2024 року. Від них багато в чому залежить те, яким стане наш світ у найближчому майбутньому.

Компанії, які лідирують у галузі штучного інтелекту / Фото: NV via Midjourney

ChatGPT від OpenAI

Поки що ніхто не скинув ChatGPT із п’єдесталу. Це все ще найвпливовіший АІ-проект нашого часу. Для мільйонів людей по всьому світу, саме ChatGPT уособлює саму ідею спілкування з АІ.

«Чатік» від OpenAI залишається в авангарді технологій мовних моделей, особливо з переходом на GPT-4o і GPT-4o mini, що пропонують підвищену продуктивність як для бізнесу, так і для звичайних споживачів.

Модель GPT-4o має складнішу архітектуру, ніж GPT-3.5, з якою компанія Альтмана підкорила світ у 2023 році. У GPT-4o інтегровані досконаліші шари трансформерів із понад 1 трильйоном параметрів, що є величезним стрибком порівняно зі 175 мільярдами параметрів GPT-3.

OpenAI також запевняє, що провела тонке налаштування моделі, щоб привести її поведінку у відповідність з етичними нормами, підвищивши безпеку і знизивши упередженість відповідей на 82%. Це не заважає багатьом у США запевняти, що ChatGPT — відвертий «лівак», який просуває суворо визначені політичні погляди.

Великою популярністю став користуватися і DALL-E — генератор зображень, запущений OpenAI.

OpenAI не стоїть на місці. Разом із новою моделлю було запущено її «міні» версію, яка обходиться дешевше і використовує менше ресурсів для обробки запитів. Вона краще підходить для нескладних завдань. З вересня користувачам доступне і «превью» нової моделі o1. Вона поки що працює з обмеженою базою знань і не має доступу до інтернету в реальному часі, але її здатності розуміти запити користувача багаторазово зросли.

Як і математичні здібності. Так, за даними OpenAI, GPT-4o здатний розв’язати лише 13% завдань Міжнародної математичної олімпіади. Ну а нова модель подужала 83% завдань. Вона ж нещодавно склала IQ тест на 122 бали. Цього рівня зазвичай вистачає, щоб отримати PhD.

На черзі поява генератора відео Sora, яку Альтман з колегами анонсували цього року. Експерти вже вважають, що Sora просто вб’є індустрію відеомейкерства. Подібно до того, як ChatGPT уже нещадно розправився з копірайтерами.

У жовтні 2024 року OpenAI залучила чергові $6,6 млрд від інвесторів. Загальну вартість компанії зараз оцінюють у $157 млрд. Ключовим партнером та інвестором компанії Альтмана, як і раніше, є Microsoft.

Claude AI від Anthropic

Компанію Anthropic заснували колишні співробітники OpenAI, які вважали, що найважливішим акцентом при створенні ШІ має стати безпека.

І хоча OpenAI з її ChatGPT вийшла на ринок раніше і залучила величезні інвестиції, Anthropic не сильно відстає. Компанія залучила $4 млрд від Amazon і $2 млрд від Google тільки за останні півтора року.

Claude використовує нову модель навчання, яка була доопрацьована з урахуванням думки експертів з етики, завдяки чому Claude може допомагати в процесах ухвалення рішень, дотримуючись суворих етичних стандартів.

Попросіть Claude написати текст про те, як вигравати в казино в баккара, і чатбот ввічливо відповість, що не може допомогти в галузі азартних ігор.

У моделі використовуються методи «пояснюваного ШІ», які дають змогу користувачам побачити, як модель дійшла до своїх висновків, що робить її прозорішою порівняно з попередніми моделями «чорної скриньки».

Дуже популярний Claude серед розробників, оскільки має унікальний функціонал, який дає змогу працювати з вихідним кодом в одному вікні, і бачити результат в іншому.

Gemini від Google

Компанія Google почала займатися штучним інтелектом набагато раніше більшості нинішніх конкурентів. У якийсь момент здавалося, що саме Google на пару з IBM — ще одним піонером у цій галузі – правитимуть бал в індустрії.

Але вихід ChatGPT наприкінці 2022 року став несподіваним «ударом під дих». І Google раптово опинилася в положенні наздоганяючого. Компанія в спішному порядку змушена була наздоганяти конкурента.

При цьому вихід Gemini, м’яко кажучи, не став тріумфом. Його можливості обробки інформації та письменницькі «таланти» спочатку не вражали. І можливість обробки зображень у Gemini з’явилася далеко не відразу.

Однак, ближче до кінця 2024 року Gemini поступово почав перетворюватися на потужний інструмент, з яким цілком можна вирішувати серйозні завдання.

Gemini заснований на архітектурі ансамблевої моделі, що об’єднує глибокі нейронні мережі, які можуть обробляти текст, зображення і відео одночасно, що ідеально підходить для застосунків, які потребують взаємодії в реальному часі, таких як доповнена реальність (AR) і віртуальна реальність (VR).

Важливою рисою Gemini є ієрархічний механізм уваги, який дає йому змогу визначати пріоритетність найважливіших даних під час оброблення в режимі реального часу, забезпечуючи точніші відповіді в динамічних середовищах.

Gemini поступово інтегрує Gemini в різні сервіси, якими давно користуються люди. Наприклад, у Google Lens, де Gemini покращує розпізнавання об’єктів у реальному часі для роботи з доповненою реальністю. І в Google Assistant, даючи змогу користувачам легко взаємодіяти з промовою і текстом, і більш ефективно інтерпретувати складні запити.

Вершиною можливостей Google Gemini стала представлена цього року модель Ultra, яка має безпрецедентну масштабованість для обробки величезної кількості завдань (це корисно, наприклад, у наукових дослідженнях).

Але Gemini поки що сильно відстає в галузі генерування зображень, функція доступна в урізаному вигляді. До таких популярних рішень як DALL-E або Midjourney їй далеко.

Grok від xAI

До Ілона Маска можна ставитися по-різному, але йому складно відмовити в умінні встигати докласти руку до всіх інноваційних напрямів у сучасних технологіях.

Маск одночасно освоює космос, копає тунелі, пересаджує людство на електромобілі, імплантує імпланти в мозок і, ось, створює власну велику мовну модель.

Grok отримав назву як тонке відсилання до культового роману Роберта Гайнлайна Чужинець у чужій країні. Вигадане письменником дієслово «грокнути» означало розуміти настільки повно, що спостерігач ніби стає частиною спостережуваного.

У розробці ШІ з такою промовистою назвою компанія Маска зайшла дуже далеко.

Тісно інтегрований із соцмережею X (колишній Twitter) Grok став однією з найбільш передових і суперечливих платформ генеративного ШІ.

У різних бенчмарках, включно з MMLU (Massive Multitask Language Understanding) і MathVista (математичні міркування), Grok-2 показав результати нарівні з такими передовими моделями, як GPT-4o і Claude 3.5 Sonnet, набравши 87,5%, що є ключовим показником його здатності до міркувань.

Ці досягнення роблять Grok грізним конкурентом у таких завданнях, як аналіз текстів і візуальне математичне мислення.

А ще Маск, відомий своїми радикальними поглядами на свободу слова і боротьбу з цензурою, подбав про те, щоб Grok не знав жодних обмежень.

Однією з найяскравіших особливостей Grok-2 є можливість необмеженої генерації зображень. Інтегрована з X, платформа дає змогу користувачам генерувати зображення без звичайних обмежень, характерних для інших моделей, таких як MidJourney або DALL-E. Це зробило Grok популярним серед користувачів, особливо для створення політичних образів і образів знаменитостей, що викликають як ажіотаж, так і суперечки.

Відсутність цензури, фільтрів, а також механізмів політкоректності при створенні зображень викликала критику дітища Маска. На відміну від інших моделей, що обмежують певний чутливий контент, Grok дає змогу створювати політично забарвлені та потенційно шкідливі зображення, що викликає побоювання щодо поширення дезінформації та зловживань на платформі.

«Необмежений» характер Grok не обмежується генерацією зображень. ШІ був помічений у виконанні суперечливих завдань, коли йому висували неетичні вимоги. У соцмережах активно обговорюються випадки, коли Grok виконував прохання про створення фішингових листів і пропагандистських гасел, на які ChatGPT і Claude зазвичай відповідають користувача відмовами.

Утім, ті, хто поділяють ідеї Маска, вважають, що відсутність політичної заангажованості якраз є сильною стороною Grok.

Stable Diffusion XL від Stability AI

Stable Diffusion XL (SDXL), проєкт компанії Stability AI, — це найпросунутіша модель генерації тексту в зображення, доступна 2024 року.

На відміну від попередніх версій, SDXL використовує модель прихованої дифузії, яка дає змогу генерувати складніші та реалістичніші зображення. Ця модель особливо ефективна під час генерації фотореалістичних зображень із нечітких або неповних підказок.

Не буде перебільшенням сказати, що SDXL після своєї появи змінила такі галузі, як реклама, дизайн одягу і розробка ігор. Тепер завдання отримання потрібних зображень можна вирішувати не за допомогою дорогих фотозйомок з кожного приводу або багаторазового використання одних і тих самих фотобанків, а просто пояснюючи генеративному ШІ, що ви хочете побачити.

Найважливішим технічним досягненням SDXL є шари перехресної уваги, які дають змогу моделі точніше узгоджувати текстові описи з генерацією зображень.

У модель також інтегрована адаптивна нормалізація контрастності, що забезпечує природне освітлення і текстурні варіації генерованих зображень. Stability AI оптимізувала SDXL для розгортання в хмарі, зробивши її доступною для малих підприємств та індивідуальних творців через API.

Одним із найбільш значущих застосувань SDXL є індустрія розваг, де його використовують для створення розкадровок, концепт-артів і навіть повноцінних CGI-активів для фільмів і відеоігор. Сервісом масово користуються професійні дизайнери, які не розглядають Stable Diffusion XL як загрозу своїй професії, але вбачають у сервісі чудовий інструмент, що розширює творчі можливості та заощаджує ресурси.

Що стосується інвестицій, то справи у Stability AI останнім часом пішли трохи краще. Був період, коли компанію збиралися виставляти на продаж, але потім все ж таки пішли інвестиції. Восени минулого року інвестори занесли в компанію $101 млн, а влітку нинішнього року підтяглася нова хвиля інвесторів в особі колишнього директора Google Еріка Шмідта і колишнього топменеджера Facebook Шона Паркера, які спільно вклали в Stability AI ще $80 млн.

Omniverse від Nvidia

Насправді, Omniverse не є в чистому вигляді ШІ-проектом, але поступово стає одним із помітних гравців у цьому ландшафті.

Спочатку Omniverse була платформою для взаємодії в реальному часі в галузі 3D-графіки. Платформа мала стати «містком» у Метавсесвіт. 2021 року після того, як Марк Цукерберг привселюдно оголосив, що бачить майбутнє інтернету у віртуальній реальності та навіть перейменував Facebook на Meta, багато компаній поспішило оголосити про свої проєкти в цій галузі.

Більшість досить швидко «здулися», зокрема й сама Meta, яка за три роки так і не запропонувала користувачами жодної альтернативи Facebook.

Але тільки не Nvidia. Найбільший у світі виробник відеокарт став головним бенефіціаром перегонів ШІ, оскільки саме на потужностях чипів Nvidia засновано багато найбільших дата-центрів.

І своєї проект Omniverse далекоглядна Nvidia кидати не планує. Ба більше, в платформу були інтегровані потужні можливості ШІ. Тепер у користувачів є широкі можливості спільного 3D-проектування і моделювання на основі штучного інтелекту.

Платформа Omniverse дає змогу дизайнерам, інженерам і розробникам співпрацювати над одним проєктом у режимі реального часу, використовуючи інструменти, керовані штучним інтелектом, для моделювання фізики, матеріалів і умов освітлення з безпрецедентною реалістичністю.

В основі платформи — апаратне забезпечення Nvidia RTX і прискорена штучним інтелектом функція трасування променів, що забезпечить фотореалістичне зображення і можливість спільної роботи в реальному часі.

Однією з найбільш революційних особливостей Omniverse є використання нейронного рендерінгу, навченого штучним інтелектом, який значно знижує обчислювальне навантаження під час створення складних візуальних ефектів.

Навчаючи моделі штучного інтелекту на величезних масивах даних реальної фізики і візуального оточення, Omniverse може створювати симуляції, які в іншому разі потребували б набагато більше обчислювальних ресурсів. Це швидко стає основою для революції в таких галузях, як архітектура, автомобільний дизайн і розваги, де реалістичне моделювання має вирішальне значення для створення прототипів і кінцевого виробництва.

Watsonx від IBM

Компанія IBM була одним із піонерів у галузі ШІ. І хоча тепер її затьмарили успіхи генеративних моделей, таких як ChatGPT і Claude, компанія все ж таки залишається серед лідерів, обравши свій власний шлях.

Платформа Watsonx від IBM стала наріжним каменем для підприємств, які прагнуть створювати моделі штучного інтелекту, що відповідають їхнім специфічним потребам, з акцентом на гнучкість, безпеку та ефективність.

Watsonx пропонує потужні інструменти для оптимізації моделей і управління конвеєром даних, даючи змогу організаціям навчати, налаштовувати і розгортати моделі ШІ, спеціально розроблені для їхнього використання.

Це особливо важливо для регульованих галузей, таких як охорона здоров’я, фінанси та юриспруденція, де конфіденційність і відповідність нормативним вимогам мають першорядне значення.

Простіше кажучи, WhatsonX дає можливість компанії отримати свій власний ШІ, заточений під свої конкретні потреби і зберігає дані у власній «пісочниці». До того ж, Watsonx підтримує функцію локального розгортання, що поряд із хмарними варіантами робить її найкращим рішенням для компаній, яким потрібен високий ступінь налаштування і контролю

Watsonx також включає функції «пояснюваного ШІ», що дає змогу підприємствам відстежувати, як моделі ШІ ухвалюють рішення, що важливо для забезпечення прозорості – якщо замовник хоче знати, як ШІ прийшов до того чи іншого висновку або рішення.

За матеріалами techno.nv.ua

MenuMenu

ChatGPT від OpenAI

Claude AI від Anthropic

Gemini від Google

Grok від xAI

Stable Diffusion XL від Stability AI

Omniverse від Nvidia

Watsonx від IBM

Предыдущий пост:

You may also like...

Поклали в урни шкарпетку, пляшку води з Азовського моря та босоніжки. Як рідні ховають загиблих без тіл

Поради інструктора Госпітальєрів. Що мати при собі під час обстрілів, які небезпеки є у ванній кімнаті та головне — як поводитися під завалами

Залишити відповідь