
如果一个 Agent 不仅能看清眼前画面,更能瞬间捕捉你忽略的周边细节与上下文,会发生什么?
从桌面端的屏幕理解到可穿戴设备,视觉正成为 Agent 感知物理世界的关键维度。如今,获取真实世界的 Context(如视觉、音频或意图)已不再是技术瓶颈。
但拿到海量 Context 之后呢?
多模态感知不等于真实需求。如何让 Context 与产品和市场真正契合?在哪些场景下,看懂 Vibes 才是不可替代的刚需?这才是决定下一代交互成败的必答题。
我们邀请了蚂蚁集团百灵大模型团队、声网、Chance AI、声绘未来、Rokid 与 Cerul.ai 的技术专家及创始人,一起聊聊当 Agent 看得见 Vibes 时,Context Awareness 的畅想与现实。