GLEE 是一个针对图片和视频的通用对象基础模型,通过统一的框架实现了定位和识别图像和视频中的对象,并能应用于各种对象感知任务。GLEE 通过联合训练来自不同监督水平的各种数据源,形成通用的对象表示,在保持最先进性能的同时,能够有效地进行零样本迁移和泛化。它还具备良好的可扩展性和鲁棒性。