Китайский технологический гигант заявил, что две его новые модели - Qwen-VL и Qwen-VL-Chat - будут иметь открытый исходный код, что означает, что исследователи, ученые и компании по всему миру смогут использовать их для создания собственных приложений искусственного интеллекта без необходимости обучения собственных систем, что позволит сэкономить время и средства.
По словам представителей Alibaba, Qwen-VL может отвечать на открытые запросы, связанные с различными изображениями, и генерировать подписи к картинкам.
В то же время Qwen-VL-Chat, по словам Alibaba, предназначен для более «сложного взаимодействия», например, для сравнения нескольких изображений и ответов на несколько раундов вопросов. Среди задач, которые, по мнению Alibaba, может выполнять Qwen-VL-Chat, - написание историй и создание изображений на основе фотографий, которые вводит пользователь, а также решение математических уравнений, представленных на картинке.
В качестве примера Alibaba привела ввод вывески больницы на китайском языке. ИИ может отвечать на вопросы о расположении определенных отделений больницы, интерпретируя изображение вывески.
До сих пор большая часть генеративного ИИ, в котором технология генерирует ответы на основе вводимых человеком данных, была сосредоточена на ответах на текст. Последняя версия ChatGPT от OpenAI также способна понимать изображения и отвечать на вопросы в виде текста, как и Qwen-VL-Chat.
Две последние модели Alibaba построены на основе большой языковой модели (LLM) Tongyi Qianwen, выпущенной компанией в начале этого года. LLM - это модель искусственного интеллекта, обученная на огромных массивах данных и лежащая в основе приложений для создания чатботов.