自从 2023 年 11 月 Grok 首次亮相以来,马斯克的 xAI 正在大模型领域不断取得进步,向 OpenAI 等先行者发起进攻。在 Grok-1 开源后不到一个月,xAI 的首个多模态模型就问世了。
昨天,xAI 推出了 Grok-1.5V,该模型不仅能理解文本,还能处理文档、图表、截图和照片中的内容。
官方博文表示:「Grok-1.5V 在许多领域都能媲美当前顶尖的多模态模型,从多学科推理到理解文档、科学图表、图表、截图和照片。」 xAI 还表示,在接下来的几个月里,预计将在图像、音频和视频等各种模态上显著提高模型能力。
我们看到了 Grok-1.5V 与 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro 1.5 的测试对比。其中特别提到的是:「Grok 在理解物理世界方面的能力尤其令我们兴奋。在我们新推出的 RealWorldQA 基准测试中,Grok 的表现优于同类产品。对于下面的所有数据集,我们都是在没有思维链提示的情况下对 Grok 进行评估的。」
如果 Grok-1.5 能在类似于 Grok-1 的开源许可证下发布,这将成为当下 LLM 竞争格局的一个重要节点。
Grok-1.5V 表现如何?
目前,Grok-1.5V 还没有完全开放,但会很快提供给早期测试者和现有的 Grok 用户。不过,博客中展示了 Grok-1.5V 的七个示例。
第一个是将流程图的白板草图转换为 Python 代码:
Prompt:Can you translate this into Python code?(你能把它翻译成 Python 代码吗?)
Grok:当然!您提供的流程图描述了一个简单的竞猜游戏:计算机生成一个随机数,用户必须猜出它。下面是表示流程图中逻辑的 Python 代码:
import random
def guess_number(): # Generate a random number between 1 and 10
target = random.randint(1, 10)
while True:
guess = int(input("Guess a number between 1 and 10: "))
if guess == target:
print("You won!")
break
else:
print("Wrong guess, try again!")
if __name__ == "__main__":
guess_number()