Skip to content

Instantly share code, notes, and snippets.

@mondaychen
Last active May 25, 2024 21:03
Show Gist options
  • Save mondaychen/67c543a09d539a0ab1b76298c5a93c7d to your computer and use it in GitHub Desktop.
Save mondaychen/67c543a09d539a0ab1b76298c5a93c7d to your computer and use it in GitHub Desktop.
fuji宣传

前React团队成员转投AI创业,AI时代HTML语义和可访问性竟有妙用

近年来,AI技术迅猛发展,改变了我们与计算机和数字世界互动的方式。前React核心团队成员辰光(Mengdi Chen),从Meta离职后加入了AI创业公司Normal Computing,并带领团队推出了一款名为Fuji-Web的AI智能体项目。团队的博客中称该项目在流行的真实网站测试中成绩斐然,是目前最领先的Web智能体。 仔细阅读介绍文章后,我们发现这个项目利用了大量前端工程师熟悉的技术来提升准确性,如 HTML 标签语义,ARIA 属性等等。 该项目已经在 Github 上开源,大家可以自行下载尝试。

Fuji-Web项目简介

Fuji-Web提供了Chrome浏览器扩展的安装包,安装后可以在侧边栏中打开。用户输入任务后,它可以自动浏览网站并执行任务,同时解释每一步操作。

辰光的推特视频截图 (上图:辰光在他的推特中贴出了用语音控制该智能体来发布推特回复的演示视频)

项目原理

Fuji-Web的核心是一种ReAct智能体,通过浏览器扩展的接口获取网页信息,并逐步执行任务。与常规方法不同,Fuji-Web不会简单地将整个HTML字符串或截图发送给语言模型,而是采用注释截图的方式,强调网页中的交互元素,如输入框和按钮。这种方法旨在简化网页导航,使交互更加便捷。

Fuji-Web充分利用HTML语义和ARIA(Accessible Rich Internet Applications)属性来准确识别这些交互组件。这确保了智能体对可交互元素的准确识别。同时,它还通过获取DOM元素的显示状态来剔除不相关的元素,提高信息的相关性。

根据Fuji-Web的基准测试数据,这款工具在多个真实任务中的表现优于其他现有的智能体解决方案。这充分说明了语义标签和可访问性在提升AI智能体性能方面的潜力。

结语

在前端工程中,追求正确的语义标记有时会被认为浪费时间。但是,它不仅有助于提升代码可读性,还提升页面了可访问性,使视觉障碍人士能够更好地使用网页,如今更是在AI时代的自动化中起到了重要作用。Fuji-Web的设计理念正是基于这一点,通过正确使用HTML标签和ARIA角色,确保智能体能够准确理解和操作网页内容。

如果你对Fuji-Web感兴趣,不妨前往其GitHub页面了解更多。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment