## Local LLMs
Локальные LLM — это языковые модели, которые работают прямо на твоем компьютере. Никаких облаков, никаких подписок, никакой отправки данных на чужие сервера. Ты скачиваешь модель, запускаешь — и общаешься с AI полностью офлайн.
---
### Зачем запускать LLM локально?
Представь: ты работаешь с конфиденциальными документами — договорами, медицинскими записями, исходным кодом. Хочешь использовать AI для анализа, но отправлять это в ChatGPT страшно. Или ты в самолете без интернета. Или просто надоело платить $20/месяц за подписку.
```
┌─────────────────────────────────────────────────────────────┐
│ Облачный AI (ChatGPT) │
├─────────────────────────────────────────────────────────────┤
│ Твой запрос ──▶ Интернет ──▶ Сервер OpenAI ──▶ Ответ │
│ │
│ Проблемы: │
│ - Данные уходят на чужой сервер │
│ - Нужен интернет │
│ - Платная подписка │
│ - Лимиты на запросы │
└─────────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────┐
│ Локальный AI (Ollama) │
├─────────────────────────────────────────────────────────────┤
│ Твой запрос ──▶ Твой компьютер ──▶ Ответ │
│ │
│ Преимущества: │
│ - Данные никуда не уходят │
│ - Работает офлайн │
│ - Бесплатно навсегда │
│ - Без ограничений │
└─────────────────────────────────────────────────────────────┘
```
---
### Ollama
**Сайт:** https://ollama.ai
**Что это?**
Самый простой способ запустить LLM локально — одна команда в терминале, и ты уже общаешься с AI.
**В каком виде поставляется?**
CLI-приложение + REST API. Работает как фоновый сервис.
**Цена?**
Бесплатно и open-source.
**Требования:**
- RAM: 8 GB минимум, 16 GB рекомендуется
- Диск: 5-50 GB (зависит от моделей)
- GPU: не обязателен, но сильно ускоряет (NVIDIA/AMD/Apple Silicon)
**Проблема, которую решает:**
Ты разработчик. Хочешь добавить AI в свое приложение, но не хочешь платить за API и зависеть от чужих серверов. Ollama поднимает локальный API-сервер, совместимый с OpenAI — можно переключить приложение с ChatGPT на локальную модель одной строкой.
**Как работает:**
Ollama — как Docker, но для AI-моделей. Скачиваешь "образ" модели, запускаешь — готово.
```
┌──────────────────────────────────────────────────────┐
│ $ ollama pull llama3.1 │
│ ┌──────────────────────────────────────────────┐ │
│ │ Скачивание модели... 4.7 GB │ │
│ └──────────────────────────────────────────────┘ │
│ │
│ $ ollama run llama3.1 │
│ \>>> Привет! Расскажи о себе │
│ Привет! Я языковая модель Llama 3.1... │
└──────────────────────────────────────────────────────┘
```
**Пример:**
```bash
# Установка (macOS)
brew install ollama
# Скачать и запустить модель
ollama run llama3.1
# Или через API
curl http://localhost:11434/api/generate -d '{
"model": "llama3.1",
"prompt": "Напиши функцию сортировки на Python"
}'
```
**Фишки:**
- OpenAI-совместимый API — легко интегрировать в существующие приложения
- Поддержка tool calling (функций) с версии 0.8.0
- Работает на macOS, Linux, Windows
- Автоматическое использование GPU если доступен
---
### LM Studio
**Сайт:** https://lmstudio.ai
**Что это?**
Графическое приложение для запуска локальных моделей — для тех, кто не любит командную строку.
**В каком виде поставляется?**
Десктопное приложение с GUI (Windows, macOS, Linux).
**Цена?**
Бесплатно для личного использования.
**Требования:**
- RAM: 8 GB минимум, 16 GB рекомендуется
- VRAM: 6 GB+ для комфортной работы (но можно и на CPU)
- Диск: 20 GB+ для приложения и моделей
- CPU: AVX2 (для x64) или Apple Silicon / Snapdragon
**Проблема, которую решает:**
Ты не программист, но хочешь попробовать локальные модели. Командная строка пугает. LM Studio дает красивый интерфейс как у ChatGPT — выбираешь модель из каталога, скачиваешь, общаешься.
**Как работает:**
LM Studio — как App Store для AI-моделей. Встроенный браузер моделей с Hugging Face, визуальный чат, настройки параметров мышкой.
```
┌─────────────────────────────────────────────────────────────┐
│ LM Studio [─][□][×]│
├─────────────────────────────────────────────────────────────┤
│ ┌─────────────┐ ┌─────────────────────────────────────┐ │
│ │ Модели │ │ Чат с Llama 3.1 8B │ │
│ │ │ │ │ │
│ │ ▼ Llama 3.1 │ │ Ты: Объясни рекурсию │ │
│ │ 8B [✓] │ │ │ │
│ │ 70B │ │ AI: Рекурсия — это когда функция │ │
│ │ │ │ вызывает сама себя... │ │
│ │ ▼ Mistral │ │ │ │
│ │ 7B │ │ │ │
│ └─────────────┘ └─────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────┘
```
**Пример:**
1. Скачай LM Studio с сайта
2. Открой вкладку "Discover" — увидишь каталог моделей
3. Найди "Llama 3.1 8B Q4" — нажми Download
4. Перейди в Chat — выбери модель — общайся
**Фишки:**
- Прямая интеграция с Hugging Face — тысячи моделей
- Поддержка RAG — загружай документы и задавай вопросы по ним
- OpenAI-совместимый API для интеграции с другими приложениями
- Мультимодальные модели (текст + картинки)
- Автоматический overflow на RAM если не хватает VRAM
---
### llama.cpp
**Сайт:** https://github.com/ggml-org/llama.cpp
**Что это?**
Низкоуровневый движок для запуска LLM — основа, на которой построены Ollama, LM Studio и другие.
**В каком виде поставляется?**
C++ библиотека и CLI-утилиты. Нужно компилировать или скачивать готовые бинарники.
**Цена?**
Бесплатно и open-source (MIT лицензия).
**Требования:**
- Минимальные — работает даже на Raspberry Pi
- Поддерживает CPU, NVIDIA CUDA, AMD ROCm, Apple Metal, Vulkan
- RAM зависит от модели и квантизации
**Проблема, которую решает:**
Ты хочешь максимальный контроль и производительность. Ollama и LM Studio удобные, но добавляют overhead. llama.cpp — это голый движок без обвесов. Или ты разработчик и хочешь встроить LLM в свое приложение как библиотеку.
**Как работает:**
llama.cpp — как движок автомобиля. Сам по себе не едет, но дает максимальную мощность. Использует формат GGUF для моделей и поддерживает квантизацию от 2 до 8 бит.
```
┌───────────────────────────────────────────────────────────┐
│ Квантизация — сжатие модели с минимальной потерей качества│
├───────────────────────────────────────────────────────────┤
│ │
│ FP16 (оригинал) ████████████████ 16 GB RAM │
│ Q8 (8-bit) ████████████ 8 GB RAM │
│ Q4 (4-bit) ██████ 4 GB RAM │
│ Q2 (2-bit) ███ 2 GB RAM │
│ │
│ Чем меньше бит — тем меньше RAM, но ниже качество │
│ Q4 — оптимальный баланс для большинства задач │
└───────────────────────────────────────────────────────────┘
```
**Пример:**
```bash
# Скачать и скомпилировать
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
make
# Запустить модель
./llama-cli -m models/llama-3.1-8b-q4.gguf -p "Привет!"
# Запустить сервер
./llama-server -m models/llama-3.1-8b-q4.gguf --port 8080
```
**Фишки:**
- Поддержка квантизации 1.5-8 бит — запускай большие модели на слабом железе
- Оптимизация под Apple Silicon (Metal), NVIDIA (CUDA), AMD (ROCm)
- Формат GGUF — быстрая загрузка моделей
- Более 1200 контрибьюторов, активное развитие
- Поддержка Android и ChromeOS с декабря 2025
---
### GPT4All
**Сайт:** https://gpt4all.io
**Что это?**
Десктопное приложение от Nomic AI — максимально простой способ начать с локальных моделей для обычных пользователей.
**В каком виде поставляется?**
Десктопное приложение (Windows, macOS, Linux) + Python SDK.
**Цена?**
Бесплатно и open-source.
**Требования:**
- RAM: 8 GB минимум, 16 GB рекомендуется
- CPU: Intel Core i3 2nd Gen+ / AMD Bulldozer+ (Windows/Linux)
- macOS: Monterey 12.6+ (лучше на Apple Silicon)
- GPU: не обязателен
**Проблема, которую решает:**
Ты хочешь локальный ChatGPT без технических сложностей. Скачал — запустил — работает. GPT4All оптимизирован для работы без GPU — даже на старом ноутбуке можно общаться с AI.
**Как работает:**
GPT4All — как iTunes для музыки, только для AI-моделей. Встроенный каталог, автоматическое скачивание, готовые настройки.
```
┌─────────────────────────────────────────────────────────────┐
│ GPT4All │
├─────────────────────────────────────────────────────────────┤
│ │
│ [Скачать модель] ──▶ [Выбрать в чате] ──▶ [Общаться] │
│ │
│ Особенность: работает на CPU без GPU! │
│ │
│ ┌───────────────┐ ┌───────────────┐ │
│ │ LocalDocs │ │ API Server │ │
│ │ ─────────────│ │ ─────────────│ │
│ │ Загрузи свои │ │ Интеграция с │ │
│ │ документы и │ │ другими │ │
│ │ задавай │ │ приложениями │ │
│ │ вопросы │ │ │ │
│ └───────────────┘ └───────────────┘ │
└─────────────────────────────────────────────────────────────┘
```
**Пример:**
1. Скачай с https://gpt4all.io
2. Установи и запусти
3. Выбери модель из списка (например, Mistral 7B) — начнется скачивание
4. После загрузки — сразу можешь общаться
**Фишки:**
- LocalDocs — загружай свои документы и задавай вопросы по ним (RAG)
- Работает без GPU на обычных процессорах
- Встроенный API-сервер для интеграции
- Python SDK для автоматизации
- Оптимизирован для моделей 3-13B параметров
---
### Jan
**Сайт:** https://jan.ai
**Что это?**
Open-source альтернатива ChatGPT с современным интерфейсом — полностью офлайн или с подключением к облачным API.
**В каком виде поставляется?**
Десктопное приложение (Windows, macOS, Linux).
**Цена?**
Бесплатно и open-source (AGPLv3).
**Требования:**
- RAM: 8 GB минимум, 16 GB рекомендуется
- Зависит от выбранной модели
**Проблема, которую решает:**
Ты хочешь красивый интерфейс как у ChatGPT, но с возможностью работать локально. Или хочешь гибкость — переключаться между локальными моделями и облачными (GPT-4, Claude) в одном приложении.
**Как работает:**
Jan — это оболочка, которая может работать с разными "движками": локальным llama.cpp, облачными API OpenAI и Anthropic. Один интерфейс для всего.
```
┌─────────────────────────────────────────────────────────────┐
│ Jan │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ Локальные │ │ OpenAI │ │ Anthropic │ │
│ │ модели │ │ GPT-4 │ │ Claude │ │
│ │ (llama.cpp) │ │ │ │ │ │
│ └──────┬──────┘ └──────┬─────┘ └──────┬──────┘ │
│ │ │ │ │
│ └────────────┬────┴─────────────────┘ │
│ ▼ │
│ ┌──────────────┐ │
│ │ Единый чат │ │
│ │ интерфейс │ │
│ └──────────────┘ │
└─────────────────────────────────────────────────────────────┘
```
**Пример:**
1. Скачай с https://jan.ai
2. Установи и открой
3. Выбери модель из Hub (локальную) или подключи API-ключ (облачную)
4. Переключайся между моделями в одном окне
**Фишки:**
- Гибридный режим — локальные и облачные модели в одном интерфейсе
- OpenAI-совместимый локальный API на localhost:1337
- Поддержка MCP (Model Context Protocol)
- Активное сообщество: 15k+ в Discord, 39k+ звезд на GitHub
- Поддержка нескольких движков: llama.cpp, ONNX, TensorRT-LLM
---
### Популярные локальные модели
| Модель | Размер | RAM (Q4) | Качество | Для чего |
|--------|--------|----------|----------|----------|
| Llama 3.1 8B | 8B | 6-8 GB | Отличное | Универсальная: чат, код, анализ |
| Llama 3.1 70B | 70B | 40-48 GB | Топовое | Сложные задачи, нужен мощный GPU |
| Mistral 7B | 7B | 4-6 GB | Хорошее | Быстрая и легкая, отличный старт |
| Qwen 2.5 7B/14B/32B | 7-32B | 4-20 GB | Отличное | Сильная в коде и математике |
| Phi-3 Mini/Medium | 3.8-14B | 3-8 GB | Хорошее | Компактная, работает на слабом железе |
| DeepSeek Coder | 6.7-33B | 4-20 GB | Топовое | Специализация на коде |
---
### Когда какой инструмент выбрать
| Задача | Инструмент |
|--------|------------|
| Быстро попробовать локальные модели | Ollama |
| Не люблю командную строку, хочу GUI | LM Studio или GPT4All |
| Работа с документами (RAG) локально | LM Studio или GPT4All |
| Максимальная производительность | llama.cpp |
| Встроить LLM в свое приложение | llama.cpp или Ollama API |
| Переключаться между локальными и облачными | Jan |
| Старый компьютер без GPU | GPT4All (оптимизирован для CPU) |
| macOS с Apple Silicon | Любой — все отлично работают на M1/M2/M3 |