type
status
date
slug
summary
tags
category
icon
password
过去需要输入精确prompt才能让AI理解,但现在可以通过画、拍、点、写、说等自然方式交互。拍照说"复制这风格",写草稿要求"润色下",说话"总结会议",点击"整理这里",圈选"简化这块"——你用最自然的方式表达,AI就能理解并完成任务。这就是未来:AI理解你,而不是你适应它。
Be my extension? 成为我的延伸
我不想告诉你我要什么,但你得懂我。我只是拿起手机靠近耳朵,它就知道我要打电话,我轻轻一捏,页面就自动缩放,我晃一晃手机,它就帮我切换音乐,我挥挥手,AI 自动识别我想跳过当前内容,你甚至不用开口,不用点按钮,只要“动”一下,AI 就知道你的下一步动作。

Arc Search 是一款支持多模态交互的智能浏览器助手,具备网页内容摘要、语音搜索与自然语言响应等能力。其核心特点包括:以用户行为驱动的自然交互设计(如捏合网页或靠近耳朵激活)、流畅的加载反馈机制,以及结构化的信息输出能力,致力于提升信息获取效率和使用便捷性。
Main AI-UX interaction
通过用户双指在网页上进行“捏合”手势操作,系统会触发 AI 摘要功能,对页面内容进行提炼和压缩。(这种交互方式体现了以人为本的 UX 设计理念,简化用户任务路径,提高网页浏览效率。)
Loading state
当用户触发摘要功能后,系统进入加载状态,并显示过渡动画及提示语“Summarizing for you...”。(此阶段的视觉设计采用渐变背景和轻柔的动效,有助于缓解等待焦虑,提升用户体验。)
Example output
系统输出的示例摘要展示了提炼后的网页内容,例如食谱的主要原料与步骤信息被浓缩成结构化段落。(说明 AI 能够理解网页上下文,并产出清晰、简洁、可快速阅读的信息摘要。)
Main AI-UX interaction
当用户将手机靠近耳朵时,设备传感器感知该动作并自动唤起语音搜索功能,无需点击按钮。(此设计借鉴了通话的自然行为方式,是典型的“无界面交互”实践,使 AI 功能更贴近用户日常使用习惯。)
Loading state
语音交互被触发后,系统进入等待状态,播放轻音乐以营造放松氛围,同时保持用户对当前进程的感知。(这是一种常用于语音界面的 UX 技巧,称为“环境填充反馈”,能够提升用户体验连贯性。)
Example output
AI 在对话中给出自然语言回应,例如:“I can provide information, answer questions…” 等内容,体现了系统的语言理解与生成能力。(此输出展示了 AI 助手在语音交互场景下的实用性与智能化表现,可用于日常问答、建议推荐等场景。)
Multi-modal input
支持语音输入与输出的多模态交互能力,使系统可灵活应对不同用户偏好和操作场景。(多模态系统结合语音识别、语义理解与语音合成技术,提升人机交互的自然性与效率,是智能助手类产品的关键能力之一。)

Google Search 在该场景下展现了其视觉驱动、多模态搜索能力。通过图像识别与手势输入相结合的方式,用户可以更直观地选中感兴趣的视觉内容并发起搜索。系统在交互中实现了“从图像理解到语义回应”的闭环,显著提升搜索效率与体验,特别适用于不便文字描述的图像场景。整体体验聚焦于自然、高效、人性化的信息获取路径设计。
Entry touch points
Google Search 在移动端引入了视觉导向的入口机制,用户可以通过图像流中的内容直接点击或长按,快速进入 AI 搜索功能。(此方式减少了传统关键词输入的步骤,利用用户对图像的直观反应作为交互起点,强化了“所见即所得”的交互逻辑。)
Main AI-UX interaction
用户在图片上圈选或涂画目标区域,即可触发视觉搜索。(该操作方式结合了视觉感知与手势识别,增强了搜索的自然性和自由度,同时提升用户与图像内容之间的交互黏性。系统能够准确识别用户标记区域中的主体,作为搜索输入来源。)
Loading state
系统收到用户的圈选操作后,进入加载阶段,界面会突出显示所选图像区域,并显示“Add to your search”提示。(此过程不仅提供清晰的反馈,还使用户保持对搜索目标的可视感知,从而减少操作中的不确定性。)
Example output
最终的搜索结果显示了与圈选图像相似的相关内容,例如猫的品种信息“Kucing Malaysia”,并提供结构化信息卡片展示详情。(这一结果说明系统已成功完成图像识别、语义联想与结果生成三步操作,为用户提供了精准且上下文相关的搜索信息。)
Multi-modal input
支持“圈选(Circle)”或“涂画(Squiggle)”两种手势作为视觉搜索输入方式,体现了多模态交互的应用。(这类输入形式突破了传统的语音与文字边界,使图像、手势成为完整输入通道,为多场景下的搜索需求提供了更高适应性。)
Can you just snap?能不能直接拍照就可以了?
设备能不能直接看图就知道我在干嘛?比如我拍一张照,或者截个屏,它就能立刻理解我要处理的内容。像这样简单一拍,系统就能帮忙继续工作,真的省心!就像 iPad 上复制了一个数字,它自动弹出计算器一样,全程不用我动手操作,效率提升超明显!

Photomath 是一款基于图像识别的数学解题应用,通过拍摄数学题的方式即可启动 AI 自动解题流程。该产品充分体现了“Can I/you just snap?”这一多模态输入理念:用户不需手动输入公式,只需“拍一下”,系统便可识别内容、解析步骤并输出可视化的求解过程。结合摄像头、OCR(光学字符识别)与符号计算引擎,Photomath 将复杂任务简化为图像交互入口,极大提升了学习与解题效率。
Loading state
当用户将数学题置于取景框中并拍摄后,系统进入识别加载状态,呈现出扫描进度与框选定位的反馈界面。(该过程增强了用户对识别准确性的信心,并可通过边缘调整进一步优化图像质量,从而提高识别结果的准确度。)
Main AI-UX interaction
主交互方式是通过相机界面对准纸面上的数学问题进行拍摄。界面中包含中央高亮取景框、红色拍照按钮以及底部工具栏图标,如计算器和历史记录。(该设计最大化了任务聚焦性,引导用户快速完成拍摄动作,同时也保留了常用工具的一键访问。)
Example output
拍照后系统即时生成解题结果,显示“Evaluate the integral”等解析步骤,并提供解法编辑与展开查看功能。(系统采用了结构化的步骤式展示方式,从题干到过程逐步呈现,降低理解门槛,同时提供交互式控件支持进一步探索或修正。)
Helpful hints
在初次使用或取景框未对准目标时,系统会给出操作提示,如“Take a picture of a math problem”,帮助用户明确预期操作路径。(这类提示降低了首次使用门槛,体现出系统的任务指导能力。)
User feedback
用户可对系统提供的解答内容进行反馈,例如通过“thumbs up/down”表示满意程度,支持解法优化与内容迭代。(该模块构建了用户与 AI 的闭环反馈机制,是提升智能服务质量的关键设计。)
Hacking together AI & Siri (Bonus)
系统还展示了如何将 Siri 与 ChatGPT Vision 联动,通过快捷指令实现“拍照识别+自动讲解”的复合操作。例如用户可设定双击手机背面触发拍照,并由 OpenAI 模型解释画面内容。(该技巧展示了 iOS 系统中多应用组合下的用户自主增强路径,提升了设备的个性化智能水平。)

Calculator for iPad是一项概念性设计,围绕“Can I/you just write?” 这一多模态输入模式构建,旨在让用户通过手写自然输入数学表达式,系统则以相同手写风格自动补全计算结果。它融合了笔迹识别、数字墨水渲染与实时计算等技术,赋予 iPad 计算器类应用更具沉浸感与人性化的交互体验,特别适合教育、草稿演算及创意表达等场景。
Entry touch point
用户可通过手写输入等号(=)或点击页面工具栏激活计算功能,进入手写识别与计算模式。(这一入口方式设计为顺应手写习惯,不打断用户书写流,降低操作负担。)
Loading state (intermediate step)
当用户完成表达式书写后,系统会识别笔迹并暂时高亮公式区域,同时开始后台计算处理过程。(此阶段通过视觉反馈提示用户计算已被识别,帮助建立操作信任感。)
Quick explanation
该计算器应用不仅能捕捉用户的手写笔迹,还会用相同的笔迹样式写出答案,使输出结果自然融入用户原有书写内容中。(这一技术整合了个性化数字墨水渲染引擎,增强交互的视觉一致性和沉浸感,是人机交互中的情境拟合体现。)
Main AI-UX interaction
用户在 iPad 上以自由手写方式输入预算、公式或计算题,系统在后台实时识别并处理,最终以手写方式将结果呈现在页面上。(这种交互模式打破了传统“键入-计算-输出”的流程,使整个计算行为融入写作环境中,更符合自然认知流程。)
Example output
系统以用户手写风格呈现多个计算题目的解答结果,如三角函数值、括号运算和分数计算等,显示出强大的表达式解析能力与可视化一致性。(同时支持多个公式并行处理,是面向多任务学习场景的重要支持。)
Can you just write? 能不能直接手写就可以了?
设备可以直接读懂手写笔记,并用同样的风格回复。不论字迹规整还是潦草,AI都能理解。你只需自然书写,它就能以你的风格回应,还能在你写作时提供计算和解答,既贴心又不打扰。

Goodnotes 正在探索多模态手写输入的新维度,充分诠释“Can I/you just write?”的设计理念。通过 AI 识别用户的手写内容,系统能够在不打断自然书写流程的前提下,实现拼写检查、词语补全和智能建议功能。该体验将自然语言处理与手写识别相结合,赋予数字笔记工具新的智能维度,使其既保留手写的灵活性,又具备文字处理的精度。
Main AI-UX interaction
用户在页面上自然书写内容,AI 会自动识别上下文并生成候选词,完成不完整的句子或推荐更合适的表达方式。(该交互模式体现了“无缝智能介入”,即 AI 在背景中运作,仅在必要时提供帮助,避免打断用户思维流程。)
Entry touchpoint
当用户书写词语时,若系统检测到可能的拼写错误,可通过轻点单词触发校对菜单,进行修改或忽略操作。(这种交互方式模仿了传统拼写检查逻辑,但在手写场景中实现,降低了学习成本,增强使用熟悉度。)
User feedback
AI 给出的词语建议以候选形式展现,用户可快速选择系统推荐的词语或手动修正,提升文本质量。(该反馈系统是人机协同的重要体现,系统提供建议,人类保有决策权,确保内容的控制性与个性化。)

Calculator for iPad*是一款概念性应用,允许用户直接以手写方式输入数学表达式,系统则在后台进行识别与计算,并以用户的手写风格输出答案。该体验融合了数字墨水识别(Ink Recognition)、手写风格仿生(Handwriting Mimicry)与实时计算,提供无打扰、自然流畅的交互方式。适用于课堂笔记、草稿演算、预算计算等多场景,极大提升学习与表达的沉浸感与效率。
Entry touch point
用户可通过直接手写“=”或使用界面底部操作栏按钮进入计算状态,激活智能识别与结果输出模块。(该入口设计贴合传统纸面习惯,降低学习成本,确保流程无缝衔接。)
Loading state (intermediate step)
在用户完成手写表达式后,系统进入识别与处理阶段,暂时高亮表达式区域并生成结果。(这一过渡步骤在增强反馈感的同时,也让用户保持对识别准确性的掌控,支持调整与校验。)
Quick explanation
该应用不仅能精准识别用户的手写内容,还会模拟其手写风格生成解题结果,确保输出视觉风格与原始笔迹完全一致。(此功能基于手写仿生算法,实现结果的“情境一体化”,提升视觉连贯性与用户认同感。)
Main AI-UX interaction
用户可以在 iPad 上自然书写包含表达式的内容(如预算明细、物理公式、代数演算等),系统在用户不需额外操作的前提下自动识别并完成计算,结果以手写方式无缝嵌入当前页面。(这种交互模式打破了传统“输入-运算-输出”的线性流程,将计算行为整合进自由创作环境中。)
Example output
系统能够识别多种数学形式(如代数表达式、分数、幂次、三角函数等),并提供精准计算结果,显示为用户原始笔迹风格,增强沉浸式体验。(该能力体现出强大的表达式解析引擎与多样化书写支持,适配复杂计算场景。)
Can you just look?能不能直接看就可以了?
设备能不能用"看"的方式理解用户?比如通过分析表情和视线,判断用户的情绪状态和关注点。界面就能智能调整:当用户疲惫时简化显示,当注视某处时自动高亮。这样AI就能直接通过观察来预测用户意图,像个贴心助手,无需额外操作。

在多模态 AI-UX 中的实际应用场景,强调设备通过观察用户的脸部表情、视线方向或姿态变化,即可获取有用的上下文信息,从而自动切换交互模式或提供个性化推荐。这类基于视觉感知的输入方式,不仅提升了自然交互的效率,也在无障碍辅助、情绪识别、注意力分析等领域展现出巨大潜力。
JAWS — Main AI-UX interaction
JAWS 系统使用绿色点标注用户面部区域,并通过音频提示引导视障用户将目光对准摄像头。(该设计通过视觉+听觉的多模态反馈机制,帮助视障用户建立面部定位,有效提升视频通话或人脸识别的可达性与准确率。)
Hunger Station — Main AI-UX interaction
用户在浏览美食页面时,系统通过眼动追踪技术捕捉其注视点,并在后台对每张图片打分,最终预测“用户当前最想吃的食物”。(该过程融合了视觉偏好识别与潜意识反应建模,使推荐结果更贴合用户当下真实兴趣,体现出基于生理信号的个性化推荐机制。)
Hunger Station — Behind the scenes
眼动数据被热区图形式呈现,每张图像根据用户注视时长和顺序赋予不同权重,形成“食物欲望评分”。(这类隐性输入被用于驱动推荐算法,是无语言交互中的核心洞察来源。)
New Computer’s concept — Bonus
该概念展示了设备如何基于用户是否注视屏幕来自动切换输入模式:当用户面对笔记本电脑时,系统默认为键盘输入;当用户视线离开或后仰时,则切换为语音输入模式。(这种感知驱动型输入切换,提升了交互顺畅度,并适配用户不同的身体状态与操作需求。)
Can you just listen?能不能直接听就可以了?
现在的设备听力超强!AI语音助手不仅能准确理解你说的话,还能记住上下文,用自然的声音回应。只需开口就能完成各种任务,比打字快多了,效率超高!’

现代语音助手系统的典型交互方式。用户能通过自然对话与设备交流,系统可以准确理解语音、记住对话内容,并以自然语言回应。语音输入正在改变我们使用设备的方式,让说话成为操作设备的新方式。
Alexa — Main AI-UX interaction
用户通过唤醒词 “Hey Alexa” 与设备对话,设备常处于待命状态,可快速响应用户请求。(Alexa 作为亚马逊的语音助手产品,代表了始终在线、零交互门槛的语音控制范式,适合家庭环境中日常任务管理。)
Siri — Main AI-UX interaction
用户可通过长按按钮或语音唤醒 Siri(如“Hey Siri”),并进行连续自然语言交互,如查询天气或添加日程。(Siri 的系统集成度高,能深度联动系统功能与第三方应用,代表了嵌入式语音交互的主流形态。)
Arc’s call to search
Arc Search 语音交互体验强调通话式界面设计:用户举起手机即可触发语音输入,系统随后通过语音反馈回应请求。(这种模式模拟“电话助理”对话风格,强化情感化和连贯性,适用于主动型信息查询或多轮问答场景。)
Can you just draw?能不能直接画就可以了?
"我能画个大概给你看"吗?现在AI能读懂你的草图!只要随手画出形状,AI就能根据你的草图生成完整图片,还能按你说的主题(比如"画只这样姿势的小狗")来创作。这就是"结构参考":你画框架,AI填细节。不用画得多好,画个轮廓就行,AI就能帮你实现想法,特别适合做创意草案!

Apple Intelligence(iPadOS)理解用户的手绘草图并将其转换为完整、高质量图像,同时保留用户自定义的结构布局与关键词语义。这种体验结合了自由手写、视觉识别、关键词引导和图像生成,构建出一套以“结构参考”为核心的多模态交互路径,适用于课堂笔记、创意草图、教学辅助等场景,是AI赋能学习与表达的新方式。
Entry touch points
用户通过 Apple Pencil 在工具栏中选择不同的笔刷工具后,即可直接绘图输入。(这一入口方式保留了 iPad 原生手写体验,支持图形、文字、涂色等多种输入形式,降低AI生成的操作门槛。)
Main AI-UX interaction
用户在页面中以草图形式手绘结构内容,例如建筑轮廓,系统识别后在背景中启动图像补全或视觉生成流程。(该设计实现了从“人画轮廓,AI补内容”的人机共创模式,保留了创作者的主导权,同时提升了表现力。)
Loading state(when AI is working)
AI 在生成图像期间,界面会出现动态动画(如旋转图形)及关键词标签,提示系统正在处理,并展示AI对图像的理解过程。(该设计不仅为等待过程提供反馈,还增加了过程透明度,让用户理解“AI到底在做什么”。)
Action history
系统会显示与绘图内容相关的关键词及概念图谱,例如“Ancient Mughal architecture”、“Dome”、“Column”等,用于回溯AI识别过程与逻辑来源。(该模块强化了AI的可解释性,有助于用户修正或引导生成方向。)
Example output
最终结果呈现为根据用户草图生成的真实风格图像,嵌入在原笔记页面中,与手写内容形成高度一致的视觉与语义融合。(这种方式将“创意起点”保留在用户手中,由AI完成高质量输出,强调人机协作中的创意对等。)
Customization
用户在生成过程中或生成完成后,还可以添加关键词,进一步引导AI的理解与输出优化。(该操作增强了生成图像的“可控性”,用户不再是被动接受结果,而是在创作过程中持续主导。)

Adobe Firefly 结构引导式图像生成(structure reference)的多模态 AI 能力。用户可以上传手绘草图、参考图或选用内置元素作为生成结构,AI 会据此生成符合风格与语义的图像内容。此外,通过视觉强度、风格参考、内容类型等参数的细粒度控制,用户能深度参与创作过程,真正实现“用画面思考,用AI表达”的创意闭环。
Entry touch points
用户可通过选择模版或上传草图图片的方式进入生成界面,开启结构参考的设定流程。(此入口方式支持多来源导入,包括手绘稿、数字草图或现有图像,降低创作门槛。)
Main AI-UX interaction
在“Composition”界面,用户可设置图像参考(Reference),通过“上传图像”或“图库选择”导入结构素材,同时通过“强度(Strength)”滑块控制参考权重。(这一交互模式使用户既可掌控构图骨架,又能决定AI对参考图的依赖程度,实现“创作意图+生成灵活度”的协同控制。)
Loading state
系统生成图像时,会显示占位图及轮播加载动画,为用户提供等待反馈。(简洁的加载方式维持操作节奏,同时为多图并行生成做好界面准备。)
Helpful hints
在提示词输入栏,用户可开启 Suggestions 模式获取自动推荐的英文提示语,有助于构建更清晰或具象的描述,引导AI更准确地完成图像生成。(此功能特别适合不擅长构思或表达的用户,提升prompt设计效率。)
Example output
最终生成的图像以网格形式展示多个变体,每一张都基于相同的结构参考与提示词内容,并融合不同的风格细节变化,用户可进行评分、编辑或下载操作。(该结果体现出AI对“相同结构,不同表达”的高适配性,是“草图生成精美图像”的典型应用。)
Customization
用户可在设置面板中精细控制模型类型(照片/艺术风格)、视觉强度、风格参考图像、生成图层用法(如“用于风格参考”、“用于合成”、“生成相似”等)。(这套参数控制体系保证了灵活性与精度兼顾,适合个性化创作场景。)
User feedback
每张生成图均支持“点赞/点踩/举报”等操作,系统可据此优化推荐逻辑与生成质量。(这是构建人机共创闭环的重要一环,AI通过反馈持续学习用户偏好。)
- Author:GrowGoodGalaxy
- URL:https://growgoodgalaxy.vercel.app/article/25d2174f-6f34-805b-b61a-f3d1687e4d3b
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!