Как запустить десятки моделей искусственного интеллекта на своем Mac или ПК — стороннее облако не требуется
Запуск продвинутых программ LLM, таких как Meta's Llama 3.1, на вашей системе Mac, Windows или Linux обеспечивает конфиденциальность данных, настройку и экономию средств. Вот как это сделать.
Благодаря быстрому развитию искусственного интеллекта (ИИ) запуск сложных моделей, таких как Llama 3.1 от Meta, локально на персональных компьютерах, становится все более популярным. Запуск LLM на локальном ПК или Mac предоставляет изолированную среду для экспериментов и разработок без ущерба для конфиденциальности данных и обеспечивает большую гибкость в использовании модели.
Вот краткое руководство, которое поможет вам настроить и запустить Llama 3.1, а также многие другие модели, такие как Google Gemma2 , на Mac, Linux и Windows. Я также расскажу о преимуществах частных моделей.
Зачем разрабатывать и тестировать различные модели с открытым исходным кодом?
Llama 3.1 8b работает на Ollama/Open WebUI
Разработка и тестирование различных моделей с открытым исходным кодом, которые вы размещаете и запускаете в частном порядке, дает несколько преимуществ по сравнению с использованием исключительно общедоступных моделей больших языков (LLM) от таких поставщиков, как OpenAI, Microsoft CoPilot, Meta AI и Google Gemini.
Конфиденциальность данных. Публичные программы LLM требуют отправки данных через Интернет, что может вызвать проблемы конфиденциальности и безопасности. Локальный запуск моделей гарантирует, что конфиденциальные данные останутся на вашем оборудовании.
Настройка. Модели с открытым исходным кодом обеспечивают более широкие возможности настройки. Разработчики могут точно настраивать модели, настраивать гиперпараметры и изменять архитектуру, чтобы она лучше соответствовала конкретным сценариям использования.
Контроль затрат. Облачные услуги искусственного интеллекта могут быть дорогостоящими, особенно для крупномасштабных приложений. Модели локального хостинга могут значительно сократить текущие расходы на использование API и передачу данных.
Возможность автономного режима. Локальные модели можно использовать без подключения к Интернету, что важно для приложений, требующих высокой доступности, или в регионах с ненадежным доступом к Интернету.
Гибкость и экспериментирование. Размещение собственных моделей позволяет экспериментировать с различными алгоритмами и конфигурациями, что приводит к инновационным решениям и более глубокому пониманию технологий искусственного интеллекта.
Свобода от политик использования. Локальное использование LLM означает, что политики использования таких компаний, как OpenAI, Microsoft, Meta и Google, не ограничивают вас. Вы можете использовать любые запросы и использовать модифицированные LLM с снятыми ограничениями, обученные на данных, которые эти службы могут ограничивать.
Знакомство с Олламой
Ollama — это универсальная платформа с открытым исходным кодом, лицензированная MIT, призванная помочь разработчикам и исследователям легко запускать модели машинного обучения и управлять ими локально на собственном оборудовании. Он был разработан командой энтузиастов и инженеров искусственного интеллекта, которые стремятся предоставить инструменты, обеспечивающие конфиденциальность данных, гибкость и контроль над приложениями искусственного интеллекта. Ollama поддерживает различные модели искусственного интеллекта, что делает его ценным ресурсом для тех, кто хочет исследовать и использовать технологии искусственного интеллекта, не полагаясь на сторонние облачные сервисы.
Вот несколько примеров моделей, которые можно скачать:
Model | Parameters | Size | Download |
---|---|---|---|
Llama 3.1 | 8B | 4.7GB | ollama run llama3.1 |
Llama 3.1 | 70B | 40GB | ollama run llama3.1:70b |
Llama 3.1 | 405B | 231GB | ollama run llama3.1:405b |
Phi 3 Mini | 3.8B | 2.3GB | ollama run phi3 |
Phi 3 Medium | 14B | 7.9GB | ollama run phi3:medium |
Gemma 2 | 2B | 1.6GB | ollama run gemma2:2b |
Gemma 2 | 9B | 5.5GB | ollama run gemma2 |
Gemma 2 | 27B | 16GB | ollama run gemma2:27b |
Mistral | 7B | 4.1GB | ollama run mistral |
Moondream 2 | 1.4B | 829MB | ollama run moondream |
Neural Chat | 7B | 4.1GB | ollama run neural-chat |
Starling | 7B | 4.1GB | ollama run starling-lm |
Code Llama | 7B | 3.8GB | ollama run codellama |
Llama 2 Uncensored | 7B | 3.8GB | ollama run llama2-uncensored |
LLaVA | 7B | 4.5GB | ollama run llava |
Solar | 10.7B | 6.1GB | ollama run solar |
Согласно странице Олламы на GitHub, у вас должно быть не менее 8 ГБ ОЗУ для запуска моделей 7B, 16 ГБ для запуска моделей 13B и 32 ГБ для запуска моделей 33B.
Наши тестовые системы
Я тестировал Ollama на компьютерах Mac M1 Pro и M1 Ultra с 32 ГБ и 64 ГБ ОЗУ, которые на несколько поколений отстают от текущих моделей MacBook Pro. Несмотря на это, используя только поддержку ЦП, мы успешно запустили модели с параметрами 8B-10B для Meta's Llama 3.1 и Google Gemma2, а также различные специально обученные варианты с веб-сайта Ollama, с производительностью выше, чем приемлемо.
Однако при использовании этих систем у меня возникли серьезные проблемы с производительностью при использовании варианта параметра 70B. Я уверен, что более современное оборудование сможет работать с этими моделями еще более эффективно, особенно на ПК с Linux, оснащенных графическими процессорами Nvidia и AMD.
Пошаговая настройка
Загрузите и установите Олламу
- Перейдите на страницу загрузки Ollama и загрузите установщик, подходящий для вашей операционной системы (MacOS, Linux, Windows).
- Следуйте предоставленным инструкциям по установке для вашей конкретной операционной системы.
Загрузите параметр 8B Модель Llama 3.1
Интерфейс командной строки Ollama с функцией чата.
- Перейдите на страницу библиотеки Llama 3.1 на Ollama и скопируйте команду для загрузки модели 8B Llama 3.1: ollama run llama3.1:8b
- Откройте терминал (MacOS, Linux) или командную строку/PowerShell (Windows), вставьте приведенную выше команду и нажмите
. - Эта команда запустит Llama 3.1. Затем в терминале вы можете отправить модели чат-запросы, чтобы проверить ее функциональность.
Управление установленными моделями
- Список моделей. Используйте команду ollama list, чтобы просмотреть все модели, установленные в вашей системе.
- Удалить модели. Чтобы удалить модель, используйте команду ollama rm
. Например, чтобы удалить параметр 8B Llama 3.1, вы должны использовать ollama rm llama3.1:8b - Добавить новые модели. Чтобы добавить новую модель, просмотрите библиотеку Ollama, а затем используйте соответствующую команду ollama run
, чтобы загрузить ее в свою систему.
Добавление веб-интерфейса
Установите Docker Desktop
- Посетите страницу Начало работы с Docker и загрузите Docker Desktop для вашей операционной системы (MacOS, Linux, Windows).
- Следуйте инструкциям по установке для вашей конкретной операционной системы и запустите Docker после установки.
Установить открытый веб-интерфейс
Откройте терминал (MacOS, Linux) или командную строку/PowerShell (Windows) и выполните следующую команду для установки Open WebUI:
docker run -d -p 3000:8080 --add-host=host.docker .internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart всегда ghcr.io/open-webui/open-webui:main
Доступ к открытому веб-интерфейсу
Открытый веб-интерфейс, работающий на Docker Desktop.
- Откройте Docker Desktop и перейдите на панель управления.
- Найдите контейнер Open WebUI и щелкните ссылку в разделе «Порт», чтобы открыть WebUI в браузере.
Создайте и войдите в свою учетную запись Open WebUI.
Выбор модели в Open WebUI
- Если у вас еще нет учетной записи Open WebUI, создайте ее.
- Войдите в свою учетную запись через WebUI.
Интеграция с IDE и API
Ollama можно интегрировать в различные интегрированные среды разработки (IDE) с помощью API, что улучшает рабочий процесс разработки, обеспечивая плавное взаимодействие с моделями искусственного интеллекта. Одним из мощных инструментов для этой интеграции является Continue, помощник с открытым исходным кодом, использующий API Ollama.
Использование продолжения для интеграции с IDE
- Убедитесь, что Ollama работает и доступен.
- Следуйте инструкциям в блоге Ollama Continue, чтобы установить Continue в предпочитаемой вами среде IDE.
- С помощью Continue и API Ollama вы можете напрямую использовать функции искусственного интеллекта, такие как предложения кода, дополнения и помощь в отладке, в вашей среде разработки.
Масштабирование с помощью мощных графических процессоров
Для более требовательных приложений, особенно тех, которые требуют более крупных моделей, таких как модели Llama 3.1 с параметром 70B и 405B, рекомендуется запускать Ollama в системе на базе Linux, оснащенной мощными графическими процессорами. Эта установка способна справиться с вычислительной нагрузкой и обеспечить более быстрое время отклика, что делает ее подходящей для приложений искусственного интеллекта корпоративного уровня.
Чтобы использовать графические процессоры для запуска Ollama, выполните следующие действия:
Для графических процессоров NVIDIA:
- Следуйте инструкциям документации NVIDIA CUDA, чтобы установить CUDA и cuDNN в вашей системе.
- После установки CUDA и cuDNN убедитесь, что ваша среда настроена правильно, а затем выполните следующую команду:
ollama run llama3.1:70b --use-gpu
Для графических процессоров AMD:
- Следуйте инструкциям в документации ROCm, чтобы установить ROCm в вашей системе.
- После установки ROCm убедитесь, что ваша среда настроена правильно, а затем выполните следующую команду:
ollama run llama3.1:70b --use-gpu
Эти команды гарантируют, что Оллама сможет использовать доступные графические процессоры в вашей системе, обеспечивая необходимую вычислительную мощность для запуска больших моделей. Более подробные инструкции см. в документации графического процессора Ollama.
Запуск Ollama в контейнере Docker
Вы по-прежнему можете использовать поддержку графического процессора, если предпочитаете запускать Ollama в контейнере. Обратите внимание, что эти инструкции на данный момент применимы только к Linux.
Для графических процессоров NVIDIA с Docker
- Как указано в предыдущем разделе, установите CUDA и cuDNN в свою систему. Затем следуйте инструкциям в документации NVIDIA Docker, чтобы установить NVIDIA Container Engine в вашу систему.
- Используйте следующую команду для запуска Ollama с поддержкой NVIDIA GPU в контейнере Docker:
docker run --gpus all -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v ollama:/app/backend/data --name ollama --restart всегда ollama/ollama:latest
Для графических процессоров AMD с Docker
- Следуйте инструкциям в документации ROCm, чтобы установить ROCm в вашей системе.
- Используйте следующую команду для запуска Ollama с поддержкой ROCm в контейнере Docker:
docker run -d --device /dev/kfd --device /dev/dri -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama:rocm
Эти команды гарантируют, что контейнер Docker сможет получить доступ ко всем доступным графическим процессорам в вашей системе, обеспечивая необходимую вычислительную мощность для запуска больших моделей. Дополнительную информацию об использовании графических процессоров с Docker и Ollama см. на странице Docker, посвященной использованию графических процессоров с Ollama.
Заключение
Запуск моделей искусственного интеллекта, таких как Meta's Llama 3.1, локально на вашем Mac или ПК, дает множество преимуществ, включая улучшенную конфиденциальность данных, большую настройку и экономию средств. Следуя инструкциям, описанным в этом руководстве, вы сможете использовать расширенные модели искусственного интеллекта и тестировать различные конфигурации, соответствующие вашим требованиям. Независимо от того, являетесь ли вы разработчиком, исследователем или энтузиастом искусственного интеллекта, возможность запускать сложные модели локально открывает множество возможностей.