Bite Dance недавно выпустила Utar's 1.5, значительное обновление своего языкового агента для восприятия. Эта инновационная модель рассматривает ваш экран как единое изображение, позволяя ей читать, рассуждать и манипулировать интерфейсом напрямую. В отличие от традиционных методов, которые включают управление деревьями DOM или полагание на внешние инструменты, Utar's 1.5 принимает скриншот, понимает макет и задачу из простого языка и действует так, как будто реальный пользователь управляет. Этот прогресс в автоматизации графического интерфейса и игровых агентов знаменует собой трансформационный сдвиг в рабочих процессах, которые работают в графических интерфейсах.
Utar's 1.5 строится на основе своего предшественника, имея основную архитектуру, основанную на Quen 2VL, но масштабированную тремя различными способами: легкая модель на 2 миллиарда параметров, модель среднего диапазона на 7 миллиардов и мощный вариант на 72 миллиарда. Это обновление включает дополнительный раунд прямой оптимизации предпочтений, используя 50 миллиардов токенов обучающих данных из скриншотов, метаданных элементов, учебников по GUI и следов действий. Модель предназначена для восприятия, рассуждения и действий за один проход, что повышает ее эффективность и результативность.
Одним из основных обновлений в Utar's 1.5 являются его возможности восприятия. Модель была обучена на разнообразных интерфейсах, включая веб-сайты, приложения Windows, интерфейсы Android и даже CAD-программное обеспечение. Она извлекает ограничивающие рамки, метки, цвета и значки, чтобы синтезировать различные типы данных восприятия. Это включает описания элементов, которые информируют модель о конкретных компонентах пользовательского интерфейса, плотные подписи, которые предоставляют контекст макета, и подписи переходов состояния, которые помогают ей распознавать тонкие изменения в интерфейсе.
Utar's 1.5 имеет унифицированное пространство действий, которое включает общие примитивы, такие как клик, перетаскивание, прокрутка и ввод текста, а также специфические для рабочего стола действия, такие как горячие клавиши и щелчки правой кнопкой мыши. Модель также включает мета-действия для случаев, когда задачи завершены или когда она сталкивается с препятствиями, такими как блокировка за стеной входа. Собирая миллионы многошаговых следов из различных источников, модель была обучена выполнять долгосрочное управление, позволяя ей выполнять сложные задачи, а не просто простые действия.
Способности рассуждения Utar's 1.5 особенно примечательны. Модель различает два типа человеческого мышления: Система Один, которая быстрая и интуитивная, и Система Два, которая включает в себя преднамеренные мыслительные процессы. Используя обширный набор данных учебников по GUI и применяя продвинутые техники подсказок, модель может разбивать задачи, распознавать вехи и адаптировать свой подход на основе проб и ошибок. Этот двойной подход к рассуждению улучшает ее способность ориентироваться в сложных рабочих процессах.
Чтобы улучшить свою производительность, Utar's 1.5 была разработана для обучения на своих ошибках. Команда разработчиков создала сотни виртуальных ПК для захвата неаккуратных следов действий модели, фильтруя неэффективные шаги и помечая критические ошибки и исправления. Этот процесс позволяет модели уточнять свое принятие решений и повышать общий уровень успеха в выполнении задач.
В тестах на бенчмарках Utar's 1.5 продемонстрировала впечатляющие результаты. В синтетической песочнице рабочего стола OS World она достигла 42,5% уровня успеха за 100 шагов, превзойдя оператора OpenAI и Claude. Модель также преуспела в различных игровых задачах, достигнув 100% уровня успеха в нескольких мини-играх. Эти бенчмарки подчеркивают превосходную производительность модели как в настольных, так и в мобильных средах.
Bite Dance сделала Utar's 1.5 доступной для широкой общественности, выпустив контрольную точку 7B под лицензией Apache 2.0. Это позволяет разработчикам интегрировать модель в коммерческие продукты, модифицировать код и использовать ее для различных приложений без опасений по поводу роялти. Унифицированная схема действий позволяет пользователям адаптировать модель для специализированных интерфейсов, делая ее универсальным инструментом для широкого спектра рабочих процессов.
Utar's 1.5 представляет собой значительное достижение в области автоматизации графического интерфейса на основе ИИ. С ее улучшенным восприятием, унифицированным пространством действий и мощными способностями рассуждения она предлагает мощное решение для автоматизации задач в различных графических интерфейсах. Поскольку модель продолжает развиваться, она открывает новые возможности для разработчиков и пользователей, прокладывая путь к более интуитивным и эффективным взаимодействиям с технологиями.
В: Что такое Utar's 1.5?
О: Utar's 1.5 — это значительное обновление языкового агента для восприятия от Bite Dance, который рассматривает ваш экран как единое изображение, позволяя ему читать, рассуждать и манипулировать интерфейсом напрямую.
В: Как Utar's 1.5 улучшает своего предшественника?
О: Utar's 1.5 имеет основную архитектуру, основанную на Quen 2VL, масштабированную тремя способами: легкая модель на 2 миллиарда параметров, модель среднего диапазона на 7 миллиардов и мощный вариант на 72 миллиарда, с улучшенной эффективностью и результативностью.
В: Каковы расширенные возможности восприятия Utar's 1.5?
О: Utar's 1.5 была обучена на разнообразных интерфейсах и может извлекать ограничивающие рамки, метки, цвета и значки, синтезируя различные типы данных восприятия, чтобы информировать о конкретных компонентах пользовательского интерфейса.
В: Что такое унифицированное пространство действий в Utar's 1.5?
О: Унифицированное пространство действий включает общие примитивы, такие как клик, перетаскивание, прокрутка и ввод текста, а также специфические для рабочего стола действия и мета-действия для завершения задач и преодоления препятствий.
В: Как Utar's 1.5 обрабатывает рассуждения и декомпозицию задач?
О: Utar's 1.5 различает быстрое, интуитивное мышление и преднамеренные мыслительные процессы, позволяя ей разбивать задачи и адаптировать свой подход на основе проб и ошибок.
В: Как Utar's 1.5 учится на своих ошибках?
О: Модель учится на своих ошибках, захватывая неаккуратные следы своих действий, фильтруя неэффективные шаги и помечая критические ошибки и исправления, чтобы уточнить свое принятие решений.
В: Каковы результаты производительности бенчмарков для Utar's 1.5?
О: В тестах на бенчмарках Utar's 1.5 достигла 42,5% уровня успеха в синтетической песочнице рабочего стола и 100% уровня успеха в различных игровых задачах, превзойдя конкурентов.
В: Доступна ли Utar's 1.5 для публичного использования?
О: Да, Bite Dance выпустила контрольную точку 7B Utar's 1.5 под лицензией Apache 2.0, позволяя разработчикам интегрировать и модифицировать модель для различных приложений.
В: Каковы ключевые преимущества использования Utar's 1.5?
О: Utar's 1.5 предлагает улучшенное восприятие, унифицированное пространство действий и мощные способности рассуждения, что делает ее мощным решением для автоматизации задач в различных графических интерфейсах.