Local LLMs - Bekhan.org

## Local LLMs Локальные LLM — это языковые модели, которые работают прямо на твоем компьютере. Никаких облаков, никаких подписок, никакой отправки данных на чужие сервера. Ты скачиваешь модель, запускаешь — и общаешься с AI полностью офлайн. --- ### Зачем запускать LLM локально? Представь: ты работаешь с конфиденциальными документами — договорами, медицинскими записями, исходным кодом. Хочешь использовать AI для анализа, но отправлять это в ChatGPT страшно. Или ты в самолете без интернета. Или просто надоело платить $20/месяц за подписку. ``` ┌─────────────────────────────────────────────────────────────┐ │ Облачный AI (ChatGPT) │ ├─────────────────────────────────────────────────────────────┤ │ Твой запрос ──▶ Интернет ──▶ Сервер OpenAI ──▶ Ответ │ │ │ │ Проблемы: │ │ - Данные уходят на чужой сервер │ │ - Нужен интернет │ │ - Платная подписка │ │ - Лимиты на запросы │ └─────────────────────────────────────────────────────────────┘ ┌─────────────────────────────────────────────────────────────┐ │ Локальный AI (Ollama) │ ├─────────────────────────────────────────────────────────────┤ │ Твой запрос ──▶ Твой компьютер ──▶ Ответ │ │ │ │ Преимущества: │ │ - Данные никуда не уходят │ │ - Работает офлайн │ │ - Бесплатно навсегда │ │ - Без ограничений │ └─────────────────────────────────────────────────────────────┘ ``` --- ### Ollama **Сайт:** https://ollama.ai **Что это?** Самый простой способ запустить LLM локально — одна команда в терминале, и ты уже общаешься с AI. **В каком виде поставляется?** CLI-приложение + REST API. Работает как фоновый сервис. **Цена?** Бесплатно и open-source. **Требования:** - RAM: 8 GB минимум, 16 GB рекомендуется - Диск: 5-50 GB (зависит от моделей) - GPU: не обязателен, но сильно ускоряет (NVIDIA/AMD/Apple Silicon) **Проблема, которую решает:** Ты разработчик. Хочешь добавить AI в свое приложение, но не хочешь платить за API и зависеть от чужих серверов. Ollama поднимает локальный API-сервер, совместимый с OpenAI — можно переключить приложение с ChatGPT на локальную модель одной строкой. **Как работает:** Ollama — как Docker, но для AI-моделей. Скачиваешь "образ" модели, запускаешь — готово. ``` ┌──────────────────────────────────────────────────────┐ │ $ ollama pull llama3.1 │ │ ┌──────────────────────────────────────────────┐ │ │ │ Скачивание модели... 4.7 GB │ │ │ └──────────────────────────────────────────────┘ │ │ │ │ $ ollama run llama3.1 │ │ \>>> Привет! Расскажи о себе │ │ Привет! Я языковая модель Llama 3.1... │ └──────────────────────────────────────────────────────┘ ``` **Пример:** ```bash # Установка (macOS) brew install ollama # Скачать и запустить модель ollama run llama3.1 # Или через API curl http://localhost:11434/api/generate -d '{ "model": "llama3.1", "prompt": "Напиши функцию сортировки на Python" }' ``` **Фишки:** - OpenAI-совместимый API — легко интегрировать в существующие приложения - Поддержка tool calling (функций) с версии 0.8.0 - Работает на macOS, Linux, Windows - Автоматическое использование GPU если доступен --- ### LM Studio **Сайт:** https://lmstudio.ai **Что это?** Графическое приложение для запуска локальных моделей — для тех, кто не любит командную строку. **В каком виде поставляется?** Десктопное приложение с GUI (Windows, macOS, Linux). **Цена?** Бесплатно для личного использования. **Требования:** - RAM: 8 GB минимум, 16 GB рекомендуется - VRAM: 6 GB+ для комфортной работы (но можно и на CPU) - Диск: 20 GB+ для приложения и моделей - CPU: AVX2 (для x64) или Apple Silicon / Snapdragon **Проблема, которую решает:** Ты не программист, но хочешь попробовать локальные модели. Командная строка пугает. LM Studio дает красивый интерфейс как у ChatGPT — выбираешь модель из каталога, скачиваешь, общаешься. **Как работает:** LM Studio — как App Store для AI-моделей. Встроенный браузер моделей с Hugging Face, визуальный чат, настройки параметров мышкой. ``` ┌─────────────────────────────────────────────────────────────┐ │ LM Studio [─][□][×]│ ├─────────────────────────────────────────────────────────────┤ │ ┌─────────────┐ ┌─────────────────────────────────────┐ │ │ │ Модели │ │ Чат с Llama 3.1 8B │ │ │ │ │ │ │ │ │ │ ▼ Llama 3.1 │ │ Ты: Объясни рекурсию │ │ │ │ 8B [✓] │ │ │ │ │ │ 70B │ │ AI: Рекурсия — это когда функция │ │ │ │ │ │ вызывает сама себя... │ │ │ │ ▼ Mistral │ │ │ │ │ │ 7B │ │ │ │ │ └─────────────┘ └─────────────────────────────────────┘ │ └─────────────────────────────────────────────────────────────┘ ``` **Пример:** 1. Скачай LM Studio с сайта 2. Открой вкладку "Discover" — увидишь каталог моделей 3. Найди "Llama 3.1 8B Q4" — нажми Download 4. Перейди в Chat — выбери модель — общайся **Фишки:** - Прямая интеграция с Hugging Face — тысячи моделей - Поддержка RAG — загружай документы и задавай вопросы по ним - OpenAI-совместимый API для интеграции с другими приложениями - Мультимодальные модели (текст + картинки) - Автоматический overflow на RAM если не хватает VRAM --- ### llama.cpp **Сайт:** https://github.com/ggml-org/llama.cpp **Что это?** Низкоуровневый движок для запуска LLM — основа, на которой построены Ollama, LM Studio и другие. **В каком виде поставляется?** C++ библиотека и CLI-утилиты. Нужно компилировать или скачивать готовые бинарники. **Цена?** Бесплатно и open-source (MIT лицензия). **Требования:** - Минимальные — работает даже на Raspberry Pi - Поддерживает CPU, NVIDIA CUDA, AMD ROCm, Apple Metal, Vulkan - RAM зависит от модели и квантизации **Проблема, которую решает:** Ты хочешь максимальный контроль и производительность. Ollama и LM Studio удобные, но добавляют overhead. llama.cpp — это голый движок без обвесов. Или ты разработчик и хочешь встроить LLM в свое приложение как библиотеку. **Как работает:** llama.cpp — как движок автомобиля. Сам по себе не едет, но дает максимальную мощность. Использует формат GGUF для моделей и поддерживает квантизацию от 2 до 8 бит. ``` ┌───────────────────────────────────────────────────────────┐ │ Квантизация — сжатие модели с минимальной потерей качества│ ├───────────────────────────────────────────────────────────┤ │ │ │ FP16 (оригинал) ████████████████ 16 GB RAM │ │ Q8 (8-bit) ████████████ 8 GB RAM │ │ Q4 (4-bit) ██████ 4 GB RAM │ │ Q2 (2-bit) ███ 2 GB RAM │ │ │ │ Чем меньше бит — тем меньше RAM, но ниже качество │ │ Q4 — оптимальный баланс для большинства задач │ └───────────────────────────────────────────────────────────┘ ``` **Пример:** ```bash # Скачать и скомпилировать git clone https://github.com/ggml-org/llama.cpp cd llama.cpp make # Запустить модель ./llama-cli -m models/llama-3.1-8b-q4.gguf -p "Привет!" # Запустить сервер ./llama-server -m models/llama-3.1-8b-q4.gguf --port 8080 ``` **Фишки:** - Поддержка квантизации 1.5-8 бит — запускай большие модели на слабом железе - Оптимизация под Apple Silicon (Metal), NVIDIA (CUDA), AMD (ROCm) - Формат GGUF — быстрая загрузка моделей - Более 1200 контрибьюторов, активное развитие - Поддержка Android и ChromeOS с декабря 2025 --- ### GPT4All **Сайт:** https://gpt4all.io **Что это?** Десктопное приложение от Nomic AI — максимально простой способ начать с локальных моделей для обычных пользователей. **В каком виде поставляется?** Десктопное приложение (Windows, macOS, Linux) + Python SDK. **Цена?** Бесплатно и open-source. **Требования:** - RAM: 8 GB минимум, 16 GB рекомендуется - CPU: Intel Core i3 2nd Gen+ / AMD Bulldozer+ (Windows/Linux) - macOS: Monterey 12.6+ (лучше на Apple Silicon) - GPU: не обязателен **Проблема, которую решает:** Ты хочешь локальный ChatGPT без технических сложностей. Скачал — запустил — работает. GPT4All оптимизирован для работы без GPU — даже на старом ноутбуке можно общаться с AI. **Как работает:** GPT4All — как iTunes для музыки, только для AI-моделей. Встроенный каталог, автоматическое скачивание, готовые настройки. ``` ┌─────────────────────────────────────────────────────────────┐ │ GPT4All │ ├─────────────────────────────────────────────────────────────┤ │ │ │ [Скачать модель] ──▶ [Выбрать в чате] ──▶ [Общаться] │ │ │ │ Особенность: работает на CPU без GPU! │ │ │ │ ┌───────────────┐ ┌───────────────┐ │ │ │ LocalDocs │ │ API Server │ │ │ │ ─────────────│ │ ─────────────│ │ │ │ Загрузи свои │ │ Интеграция с │ │ │ │ документы и │ │ другими │ │ │ │ задавай │ │ приложениями │ │ │ │ вопросы │ │ │ │ │ └───────────────┘ └───────────────┘ │ └─────────────────────────────────────────────────────────────┘ ``` **Пример:** 1. Скачай с https://gpt4all.io 2. Установи и запусти 3. Выбери модель из списка (например, Mistral 7B) — начнется скачивание 4. После загрузки — сразу можешь общаться **Фишки:** - LocalDocs — загружай свои документы и задавай вопросы по ним (RAG) - Работает без GPU на обычных процессорах - Встроенный API-сервер для интеграции - Python SDK для автоматизации - Оптимизирован для моделей 3-13B параметров --- ### Jan **Сайт:** https://jan.ai **Что это?** Open-source альтернатива ChatGPT с современным интерфейсом — полностью офлайн или с подключением к облачным API. **В каком виде поставляется?** Десктопное приложение (Windows, macOS, Linux). **Цена?** Бесплатно и open-source (AGPLv3). **Требования:** - RAM: 8 GB минимум, 16 GB рекомендуется - Зависит от выбранной модели **Проблема, которую решает:** Ты хочешь красивый интерфейс как у ChatGPT, но с возможностью работать локально. Или хочешь гибкость — переключаться между локальными моделями и облачными (GPT-4, Claude) в одном приложении. **Как работает:** Jan — это оболочка, которая может работать с разными "движками": локальным llama.cpp, облачными API OpenAI и Anthropic. Один интерфейс для всего. ``` ┌─────────────────────────────────────────────────────────────┐ │ Jan │ ├─────────────────────────────────────────────────────────────┤ │ │ │ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ │ │ Локальные │ │ OpenAI │ │ Anthropic │ │ │ │ модели │ │ GPT-4 │ │ Claude │ │ │ │ (llama.cpp) │ │ │ │ │ │ │ └──────┬──────┘ └──────┬─────┘ └──────┬──────┘ │ │ │ │ │ │ │ └────────────┬────┴─────────────────┘ │ │ ▼ │ │ ┌──────────────┐ │ │ │ Единый чат │ │ │ │ интерфейс │ │ │ └──────────────┘ │ └─────────────────────────────────────────────────────────────┘ ``` **Пример:** 1. Скачай с https://jan.ai 2. Установи и открой 3. Выбери модель из Hub (локальную) или подключи API-ключ (облачную) 4. Переключайся между моделями в одном окне **Фишки:** - Гибридный режим — локальные и облачные модели в одном интерфейсе - OpenAI-совместимый локальный API на localhost:1337 - Поддержка MCP (Model Context Protocol) - Активное сообщество: 15k+ в Discord, 39k+ звезд на GitHub - Поддержка нескольких движков: llama.cpp, ONNX, TensorRT-LLM --- ### Популярные локальные модели | Модель | Размер | RAM (Q4) | Качество | Для чего | |--------|--------|----------|----------|----------| | Llama 3.1 8B | 8B | 6-8 GB | Отличное | Универсальная: чат, код, анализ | | Llama 3.1 70B | 70B | 40-48 GB | Топовое | Сложные задачи, нужен мощный GPU | | Mistral 7B | 7B | 4-6 GB | Хорошее | Быстрая и легкая, отличный старт | | Qwen 2.5 7B/14B/32B | 7-32B | 4-20 GB | Отличное | Сильная в коде и математике | | Phi-3 Mini/Medium | 3.8-14B | 3-8 GB | Хорошее | Компактная, работает на слабом железе | | DeepSeek Coder | 6.7-33B | 4-20 GB | Топовое | Специализация на коде | --- ### Когда какой инструмент выбрать | Задача | Инструмент | |--------|------------| | Быстро попробовать локальные модели | Ollama | | Не люблю командную строку, хочу GUI | LM Studio или GPT4All | | Работа с документами (RAG) локально | LM Studio или GPT4All | | Максимальная производительность | llama.cpp | | Встроить LLM в свое приложение | llama.cpp или Ollama API | | Переключаться между локальными и облачными | Jan | | Старый компьютер без GPU | GPT4All (оптимизирован для CPU) | | macOS с Apple Silicon | Любой — все отлично работают на M1/M2/M3 |