马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

自从 2023 年 11 月 Grok 首次亮相以来，马斯克的 xAI 正在大模型领域不断取得进步，向 OpenAI 等先行者发起进攻。在 Grok-1 开源后不到一个月，xAI 的首个多模态模型就问世了。

昨天，xAI 推出了 Grok-1.5V，该模型不仅能理解文本，还能处理文档、图表、截图和照片中的内容。

官方博文表示：「Grok-1.5V 在许多领域都能媲美当前顶尖的多模态模型，从多学科推理到理解文档、科学图表、图表、截图和照片。」 xAI 还表示，在接下来的几个月里，预计将在图像、音频和视频等各种模态上显著提高模型能力。

我们看到了 Grok-1.5V 与 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro 1.5 的测试对比。其中特别提到的是：「Grok 在理解物理世界方面的能力尤其令我们兴奋。在我们新推出的 RealWorldQA 基准测试中，Grok 的表现优于同类产品。对于下面的所有数据集，我们都是在没有思维链提示的情况下对 Grok 进行评估的。」

如果 Grok-1.5 能在类似于 Grok-1 的开源许可证下发布，这将成为当下 LLM 竞争格局的一个重要节点。

Grok-1.5V 表现如何？

目前，Grok-1.5V 还没有完全开放，但会很快提供给早期测试者和现有的 Grok 用户。不过，博客中展示了 Grok-1.5V 的七个示例。

第一个是将流程图的白板草图转换为 Python 代码：

Prompt：Can you translate this into Python code?（你能把它翻译成 Python 代码吗？）

Grok：当然！您提供的流程图描述了一个简单的竞猜游戏：计算机生成一个随机数，用户必须猜出它。下面是表示流程图中逻辑的 Python 代码：

import random

def guess_number(): # Generate a random number between 1 and 10

    target = random.randint(1, 10)

    while True:
        guess = int(input("Guess a number between 1 and 10: "))

        if guess == target:
            print("You won!")
            break
        else:
            print("Wrong guess, try again!")

if __name__ == "__main__":
    guess_number()

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

Grok-1.5V 表现如何？

相关阅读

最近更新

LLM | 偏好学习算法并不学习偏好排序

YoloCS：有效降低特征图空间复杂度

改进的检测算法：用于高分辨率光学遥感图像目标检测

迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！