视觉 – FiveTX

具身智能的视觉-语言-动作模型：综述

2024-06-04

基于预训练的视觉基础模型、大语…

Read More

基于分层自监督学习将视觉Transformer扩展到千兆像素图像

2024-05-24

研究者引入了一种新的ViT架构…

Read More

颜水成挂帅，奠定「通用视觉多模态大模型」终极形态！一统理解/生成/分割/编辑

2024-04-25

颜水成团队联合新加坡国立、南洋…

Read More

LLM | 偏好学习算法并不学习偏好排序

YoloCS：有效降低特征图空间复杂度

改进的检测算法：用于高分辨率光学遥感图像目标检测

迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！