Не кожна задача варта токенів хмарного API. Я тримаю на ПК LM Studio з кількома моделями й вмикаю їх там, де це виграшно.
Що в мене крутиться локально
- gemma — головна «розумна» модель: зір, інструменти, reasoning.
- qwen — швидша альтернатива.
- невеликі моделі для кодингу та ембедінгів (RAG).
Усе через OpenAI-сумісний API на localhost:1234 — підключається до будь-чого за хвилину.
Коли локальні моделі виграють
- Чернетки й чернова обробка — описи, переписування, класифікація. Якість «достатня», ціна нульова.
- Приватні дані — нічого не покидає машину.
- Високий обсяг — масові операції, де хмара коштувала б дорого.
Коли я все одно беру Claude API
- Фінальні тексти, де важлива якість і нюанс.
- Складний reasoning, агенти, де помилка дорога.
Це не «або-або». Мій типовий пайплайн — чернетка локально, фінал у хмарі. Навіть AI-агент, що готує чернетки для цього блогу, працює на локальній моделі, а я лише вичитую перед публікацією.
Висновок
Локальні LLM — не заміна хмарі, а інструмент балансу ціна/якість/приватність. Якщо хочеш так автоматизувати свої процеси — обговоримо.