Искусственный интеллект
Все, что вам нужно знать о Ламе 3 | Самая мощная модель с открытым исходным кодом | Концепции использования
Мета недавно выпустила Llama 3, следующее поколение современной модели большого языка с открытым исходным кодом (LLM). Основываясь на основах, заложенных своим предшественником, Llama 3 стремится расширить возможности, которые сделали Llama 2 важным конкурентом ChatGPT с открытым исходным кодом, как указано в подробном обзоре в статье. Лама 2: глубокое погружение в претендента на ChatGPT с открытым исходным кодом.
В этой статье мы обсудим основные концепции, лежащие в основе Llama 3, изучим ее инновационную архитектуру и процесс обучения, а также предоставим практические рекомендации по ответственному доступу, использованию и развертыванию этой революционной модели. Независимо от того, являетесь ли вы исследователем, разработчиком или энтузиастом искусственного интеллекта, этот пост предоставит вам знания и ресурсы, необходимые для использования возможностей Llama 3 для ваших проектов и приложений.
Эволюция ламы: от ламы 2 к ламе 3
Генеральный директор Meta Марк Цукерберг было объявлено дебют Llama 3, новейшей модели искусственного интеллекта, разработанной Meta AI. Эта современная модель, исходный код которой теперь открыт, предназначена для улучшения различных продуктов Meta, включая Messenger и Instagram. Цукерберг подчеркнул, что Llama 3 позиционирует Meta AI как самый продвинутый свободно доступный AI-помощник.
Прежде чем мы поговорим об особенностях Llama 3, давайте кратко вернемся к ее предшественнице, Llama 2. Представленная в 2022 году, Llama 2 стала важной вехой в сфере LLM с открытым исходным кодом, предлагая мощную и эффективную модель, которую можно запускать на потребительском оборудовании. .
Однако, хотя Llama 2 была заметным достижением, у нее были свои ограничения. Пользователи сообщали о проблемах с ложными отказами (модель отказывалась отвечать на безобидные запросы), ограниченной полезностью и возможностями для улучшения в таких областях, как рассуждение и генерация кода.
Встречайте Llama 3: ответ Меты на эти проблемы и отзывы сообщества. Создавая Llama 3, Meta намеревалась создать лучшие модели с открытым исходным кодом, не уступающие лучшим проприетарным моделям, доступным сегодня, уделяя при этом приоритет ответственной разработке и внедрению.
Лама 3: Архитектура и обучение
Одним из ключевых нововведений в Llama 3 является токенизатор, который имеет значительно расширенный словарный запас. Знаки 128,256 (по сравнению с 32,000 2 в Ламе XNUMX). Этот больший словарный запас позволяет более эффективно кодировать текст как для ввода, так и для вывода, что потенциально приводит к усилению многоязычия и общему повышению производительности.
Лама 3 также включает в себя Внимание группового запроса (GQA), эффективный метод представления, который повышает масштабируемость и помогает модели более эффективно обрабатывать более длинные контексты. 8B версия Llama 3 использует GQA, в то время как обе версии 8B и 70B модели могут обрабатывать последовательности до Знаки 8,192.
Обучающие данные и масштабирование
Данные обучения, использованные для Llama 3, являются решающим фактором повышения производительности. Meta курировала огромный набор данных из более чем 15 трлн токенов из общедоступных онлайн-источников, что в семь раз больше, чем набор данных, использованный для Llama 2. Этот набор данных также включает значительную часть (более 5%) высококачественных неанглоязычных данных, охватывающих более Языки 30, в рамках подготовки к будущим многоязычным приложениям.
Чтобы обеспечить качество данных, Meta использовала передовые методы фильтрации, включая эвристические фильтры, фильтры NSFW, семантическую дедупликацию и классификаторы текста, обученные на Llama 2 для прогнозирования качества данных. Команда также провела обширные эксперименты, чтобы определить оптимальное сочетание источников данных для предварительного обучения, гарантируя, что Llama 3 хорошо работает в широком диапазоне вариантов использования, включая викторины, STEM, кодирование и исторические знания.
Расширение масштабов предварительной подготовки было еще одним важным аспектом разработки Llama 3. Meta разработала законы масштабирования, которые позволили им прогнозировать производительность своих крупнейших моделей при выполнении ключевых задач, таких как генерация кода, прежде чем их фактически обучать. Это послужило основой для принятия решений по объединению данных и распределению вычислительных ресурсов, что в конечном итоге привело к более эффективному и действенному обучению.
Крупнейшие модели Llama 3 были обучены на двух специально созданных кластерах на 24,000 2 графических процессоров с использованием комбинации методов распараллеливания данных, распараллеливания моделей и конвейерного распараллеливания. Усовершенствованный стек обучения Meta позволяет автоматически обнаруживать, обрабатывать и обслуживать ошибки, максимально увеличивая время безотказной работы графического процессора и повышая эффективность обучения примерно в три раза по сравнению с Llama XNUMX.
Инструкция Тонкая настройка и производительность
Чтобы раскрыть весь потенциал Llama 3 для чатов и диалоговых приложений, Meta ввела инновационный подход к точной настройке инструкций. Его метод сочетает в себе контролируемая доводка (SFT), браковочная выборка, оптимизация проксимальной политики (ППО) и прямая оптимизация предпочтений (ДПО).
Качество подсказок, используемых в SFT, и рейтинг предпочтений, используемых в PPO и DPO, сыграли решающую роль в работе согласованных моделей. Команда Меты тщательно отобрала эти данные и провела несколько этапов проверки качества аннотаций, предоставленных аннотаторами-людьми.
Обучение ранжированию предпочтений с помощью PPO и DPO также значительно улучшило производительность Llama 3 при выполнении задач по рассуждению и кодированию. Мета обнаружила, что даже когда модели сложно ответить напрямую на логический вопрос, она все равно может дать правильную цепочку рассуждений. Обучение ранжированию предпочтений позволило модели научиться выбирать правильный ответ из этих следов.
Результаты говорят сами за себя: Llama 3 превосходит многие доступные модели чатов с открытым исходным кодом по общим отраслевым тестам, устанавливая новый уровень производительности для LLM в масштабах параметров 8B и 70B.
Ответственная разработка и соображения безопасности
Стремясь к передовой производительности, Meta также уделяла приоритетное внимание ответственной разработке и внедрению методов Llama 3. Компания приняла подход на уровне системы, рассматривая модели Llama 3 как часть более широкой экосистемы, которая ставит разработчиков на место водителя, позволяя им проектировать и адаптируйте модели для конкретных случаев использования и требований безопасности.
Meta провела обширные учения по «красной команде», провела состязательную оценку и внедрила методы снижения безопасности, чтобы снизить остаточные риски в своих моделях, настроенных на инструкции. Однако компания признает, что остаточные риски, скорее всего, сохранятся, и рекомендует разработчикам оценивать эти риски в контексте их конкретных сценариев использования.
Чтобы поддержать ответственное развертывание, Meta обновила свое Руководство по ответственному использованию, предоставив разработчикам комплексный ресурс для реализации лучших практик безопасности на уровне модели и системы для своих приложений. В руководстве рассматриваются такие темы, как модерация контента, оценка рисков и использование инструментов безопасности, таких как Llama Guard 2 и Code Shield.
Llama Guard 2, созданный на основе таксономии MLCommons, предназначен для классификации входных данных (подсказок) и ответов LLM, обнаружения контента, который может считаться небезопасным или вредным. CyberSecEval 2 расширяет возможности своего предшественника, добавляя меры по предотвращению злоупотреблений интерпретатором кода модели, наступательные возможности кибербезопасности и восприимчивость к атакам с быстрым внедрением.
Code Shield, новое нововведение в Llama 3, добавляет фильтрацию небезопасного кода, создаваемого LLM, во время вывода, снижая риски, связанные с предложениями небезопасного кода, злоупотреблениями интерпретатором кода и безопасным выполнением команд.
Доступ и использование Llama 3
После запуска Llama 3 от Meta AI стало доступно несколько инструментов с открытым исходным кодом для локального развертывания в различных операционных системах, включая Mac, Windows и Linux. В этом разделе подробно описаны три известных инструмента: Ollama, Open WebUI и LM Studio, каждый из которых предлагает уникальные функции для использования возможностей Llama 3 на персональных устройствах.
Оллама: Доступно для Mac, Linux и Windows. Оллама упрощает работу Llama 3 и других крупных языковых моделей на персональных компьютерах, даже с менее надежным оборудованием. Он включает в себя менеджер пакетов для удобного управления моделями и поддерживает команды на разных платформах для загрузки и запуска моделей.
Откройте WebUI с помощью Docker: Этот инструмент обеспечивает удобный, Docker-интерфейс, совместимый с Mac, Linux и Windows. Он легко интегрируется с моделями из реестра Ollama, позволяя пользователям развертывать такие модели, как Llama 3, и взаимодействовать с ними через локальный веб-интерфейс.
ЛМ Студия: Ориентированы на пользователей Mac, Linux и Windows. ЛМ Студия поддерживает ряд моделей и основан на проекте llama.cpp. Он предоставляет интерфейс чата и облегчает прямое взаимодействие с различными моделями, включая модель Llama 3 8B Instruct.
Эти инструменты гарантируют, что пользователи смогут эффективно использовать Llama 3 на своих личных устройствах, учитывая широкий спектр технических навыков и требований. Каждая платформа предлагает пошаговые процессы настройки и взаимодействия с моделями, что делает продвинутый искусственный интеллект более доступным для разработчиков и энтузиастов.