视觉采样

ml-ferret是一个端到端的机器学习语言模型（MLLM），能够接受各种形式的引用并响应性地在多模态环境中进行精准定位。它结合了混合区域表示和空间感知的视觉采样器，支持细粒度和开放词汇的引用和定位。此外，ml-ferret还包括GRIT数据集（约110万个样本）和Ferret-Bench评估基准。

40 0

AI多模态交互机器学习视觉语言数据集视觉采样

PROMPT - AI导航（prompt.cn）是一个专注于AI领域的网址导航站，致力于为用户提供便捷、高效、智能的在线导航服务。包括AI工具、AI绘画、AI视频、AI语音、AI写作、AI办公、AI设计、AI编程、AI聊天、AI提示词、机器学习、深度学习、自然语言处理、智能推荐等多个领域，共计收录10000+个优质网站。

收录申请免责声明关于我们

引领智能未来，探索无限AI应用

视觉采样