От OpenAI, от Google, от Антропик, DeepSeek? Каким генератором картинок пользоваться? Midjourney или Stable Diffusion? На чем лучше видео делать? На SORA или Kling, а может на Pica, а может на Runway? Или Haygen?
Что выбрать из сотен стартапов, бесконечных ассистентов, умных чатов? А может Groc3 Илона Маска всех убил? Или модельки от китайцев?
На каком лучше тексты писать? На каком лучше кодить? На каком лучше математические задачки решать?
Если я вижу, что, как тут один колхозник написал "Groc3" всех уделал, или какой-нить программист пишет "Сонет самый крутой", то понимаю, что это пишет невежественный дилетант. Давайте разбираться.
1. На данный момент только открытых моделей более 1,445,971. Ага. Это за пару лет. Не знали штоле? Не считая закрытых от OpenAI, Groc3, Anthropic, Google и т.п. см. https://huggingface.co/models
2. Модели очень разные. Есть языковые модели, которые работают с любым текстом (код это разновидность теста), рассуждающие модели, генераторы тех же текстов, картинок, видео, звуков, модели для компьютерного зрения, модели для обработки естественных языков, для обработки аудио, модели для быстрой обработки процессов реального времени, IoT и т.п. Есть мульти-модальные модели и моно-модальные.
В итоге модели показывают разное качество на разных задачах, как и любой инструмент, модели имеют свои границы применения и кейсы, где можно достигнуть лучших результатов. Но это не все.
3. Есть масса площадок, где проводят соревнования моделей, предлагая им тестовые задачи из разных разделов науки, работы с текстами, с кодом, с математикой и т.п. Одна из самых известных площадок - https://lmarena.ai/?leaderboard
На ней можно выбрать разные типы задач, и вы увидите, что на разных задачах лидируют РАЗНЫЕ модели.
К примеру, в написании кода на текущий момент лидеры:
1. chocolate (Early Grok-3)
2. o3-mini-high от (Open AI)
3. Gemini-2.0-Pro-Exp-02-05 (Google).
В работе с текстами, в "творческом писательстве" лидеры:
1. ChatGPT-4o-latest (2025-01-29) - (Open AI)
2. chocolate (Early Grok-3)
3. Gemini-2.0-Flash-Thinking-Exp-01-21 (Google)
В работе с русским языком:
1. Gemini-2.0-Pro-Exp-02-05 (Google)
2. Gemini-2.0-Flash-Thinking-Exp-01-21 (Google)
3. chocolate (Early Grok-3)
Оговорка: ChatGPT-4o-latest (2025-01-29) - на 4, а o1-2024-12-17 на 5 месте.
Можно этому доверять? Нет и вот почему.
Угадайте с 3-х раз, кто создает все эти тесты и оценивает модели? Правильно!
Программисты и гики. И эти ребята отлично понимают в технологиях и коде, но ни хрена не понимают в текстах. Потому что все тексты с которыми они работают это мануалы и пейперы, которые с литературной точки зрения представляют собой унылое гавно.
Т.е. прогеры считают это нормальными тестами. Потому что слаще морковки ничего не читали. Какого-нибудь Борхеса, или на худой конец Сервантеса или даже Умберто Эко. Да Маркеса, наконец.
Доказательство: Если бы было иначе, то не существовало бы таких профессий, как технический писатель, копирайтер, UX writer.
В среднем самый херовый блоггер пишет креативнее тексты, чем самый крутой прогер.
Промежуточный вывод:
- Мало того, что разные модели лидируют в разных тестах, но и доверие этим тестам иногда сомнительное.
- Учитывайте, что этих площадок для соревнований также много, все они конкурируют за трафик и кричат - "У меня, у меня все единственно правильно".
Но все гораздо, гораздо хуже.
3. Проблема, как ее формулируют умные айтишники: гавно на входе, гавно на выходе. Перевожу для гуманитариев:
- Если вы спросите модель глупость, получите глупость.
- Если вы не умеете правильно формулировать промпты, получите глупость.
- Если вы не понимаете, для какого кейса данная модель лучше подходит, получите фигню.
Начинает доходить? Продолжим аналогии:
- Неча на зеркало пенять, если рожа крива!
- Не стоит микроскопом колоть орехи (именно этим занимается 99% тех, кто общается с современными моделями).
И вишенка на торте, цитатка от Билла (наше все) Гейца: Умного можно научить, дурака умным не сделать!
Итог. Сначала хорошая новость - если вы умны, образованы и СПОСОБНЫ учится, ИИ усилит вас. Если вы тупарь ИИ вам не поможет.
HARD CORE: А если вы не понимаете юмор и стеб, то вам поможет только смерть и 234 перерождения, начиная с навозной мухи. Это как обучение модели - нужно много данных, компьюта (вычислений) и бабла, чтобы научить модель не просто понимать вас, но и распознавать юмор. Так что - ничего личного. Идем дальше и тут СНОВА проблема.
"Так какой ИИ выбрать, мазафака? Мне все эти многобуковок ненавистны.
Ты, мне гад, по простому скажи! И обоснуй!"
Ок. Много из вас кодит? Думаю 2%, а через 5 лет будет 0%, поэтому за кодинг не переживайте, все равно кодить за вас ИИ будет и ниже я скажу, какой лучше.
Но вам всем нужны тексты, некоторым таблички, всем нужен поиск, ответы на вопросы. Т.е. посмотрите на то, чем вы занимаетесь БОЛЬШЕ ВСЕГО? Ответ:
Вы больше всего читаете, пытаетесь понять, пишите какие-то тексты, создаете документы, анализируете данные, иногда взаимодействуете с сервисами, реже делаете картинки, иногда дизайны, совсем редко видео и еще реже звук и музыку. И вы все общаетесь, отвечаете на вопросы.
Поэтому, конечно, есть модели, которые решают продвинутые математические задачи, но они нужны 5% из вас - ученым, прогерам, инженерам.
Но 100% из вас нужны модели, которым вы можете задавать вопросы, анализировать документы, изображений, иногда решать какие-то проблемы, советоваться и делать все это на русском или английском (да и любом языке), но вы хотите, чтобы русский модель понимала хорошо и хорошо на нем писала. А кодинг потом. Понимаете мою простую мысль? И на данный момент ответ на вопрос "Какой ИИ выбрать?" - вы можете найти на картинках, и я объясняю почему это так, но сначала оговорка:
[ОГОВОРКА]
1. Вы все можете сами посмотреть и сравнить здесь: https://lmarena.ai/?leaderboard
2. Если хотите углубится в вопрос сравнения моделей - почитайте пару коротких простых статей - все очень доступно разложено:
- Which LLM Suits You? Optimizing the use of LLM Benchmarks Internally. https://www.riskinsight-wavestone.com/.../which-llm.../
- Best LLM: Benchmarks, Leaderboards, & the 8 Smartest LLMs - https://www.acorn.io/resources/learning-center/best-llm/
- Best LLM Leaderboards: A Comprehensive List https://www.nebuly.com/blog/llm-leaderboards
Хотите упороться? Нет проблем:
- https://github.com/.../KernelBenc.../tree/main/tasks/level_5
- https://scalingintelligence.stanford.edu/blogs/kernelbench/
- FACTS Grounding: A new benchmark for evaluating the factuality of large language models - https://deepmind.google/.../facts-grounding-a-new.../
[КОНЕЦ ОГОВОРКИ]
Если не хотите тратить время на то, на что другие его потратили, читайте дальше и самое главное:
Почему для 99% из вас модель от OpenAI, т.е. chatGPT и прочее - ЛУЧШИЙ выбор? 6 аргументов, почему вам не стоит ломать голову, какую модель выбрать для 90% задача?
1. Потому что на данный момент chatGPT лидер в 90% самых важных задач.
2. Потому что chatGPT предоставляет не только модель, но и самый удобный функциональный интерфейс, и это критически важно, когда у вас задача сложней рецепта супа.
3. Потому что chatGPT заточен для нормальных людей, а не разработчиков.
4. ТОЛЬКО chatGPT способен общаться ГОЛОСОМ ОТЛИЧНО на русском языке на данный момент, причем, как в десктоп приложении, так и в мобильном приложении. Т.е. нормально по-человечьи говорить вы можете общаться только с chatGPT!
5. У OpenAI на данный момент самая развитая инфраструктура создания ИИ Агентов на базе их ИИ Ассистента chatGPT, сопоставимая только с Google's Vertex AI Agent Builder (но до этого мы еще не дошли).
6. По поводу создания кода. Чтобы создавать код, нужно иметь среду разработки. На текущий момент самая популярная и бесплатная это VS code, которая легко интегрируется с chatGPT, либо вы можете использовать Cursor, который является форком VS code, и позволяет интегрироваться с несколькими моделями.
Т.е. это важный момент - С КАКИМ МОДЕЛЯМИ интегрируются популярные сервисы типа: https://vercel.com/ / https://replit.com/
Почему это важно? Потому что, если вы выбираете какую-то захайпованную холявную модель для ПРАКТИЧЕСКИХ задач, то ВДРУГ вы понимаете, что у нее нет никакого обвеса и инфраструктуры. Это как вместо автомобиля вы получаете гору запчастей и агрегатов. Ну да, нерды это любят.
Но людям надо ДЕЛОМ заниматься, а не всякими геморроями.
Очень показательный для рынка пример - какие модели и решения интегрированы в Zapier на данный момент: https://zapier.com/apps/categories/artificial-intelligence
Однако вот вам сравнительное исследование, выполнение через Perplexity и Groc3:
1. Perplexity: https://www.perplexity.ai/.../comparative-analysis-of...
2. Groc3: https://x.com/i/grok/share/rBK5Pl3l6TC3Jd1oBJWTls36e
Вывод. Начинать изучать ИИ, начинать использовать ИИ, понимать что и как это работает в 90% задач 100 из 100 лучше с chatGPT.
Katusha сегодня в 12:11
З того що тестила, то самий тупий у Гугла
Kotya_3 сегодня в 14:08
Місяць тому пройшла курси саме з генеративного ШІ від Epam. Можу поділитися посиланням, де є величезний обʼєм інформації, інструменти ШІ для різних задач.
Oceanlover сегодня в 14:46
Поділіться, будь ласка. Як вам курс?
Комментарий удалён