UFO是一个用于Windows操作系统交互的UI聚焦双Agent框架。它通过自然语言理解用户请求,并在一个或跨多个应用程序内无缝导航和操作来执行这些请求。该框架包含AppAgent和ActAgent两个agent。AppAgent负责根据用户请求选择应用程序。ActAgent负责在选定的应用程序内迭代执行操作,直到任务成功完成。两者都利用GPT-Vision的多模态功能来理解应用程序的UI并满足用户的请求。