有所启发 #005: 用户体验监管，Sora，Gemini 1.5 Pro，空间视频价值，AI 聊天机器人的法律责任与无障碍设计里的 AI 机会

Yishan

Feb 19, 2024

春节期间去了一趟桂东大瑶山，在盘山公路里穿行，远离互联网资讯，接近山谷，接近溪流，接近清新空气，给稍后回城继续敲键盘的自己补充一些能量与动力。

监管用户体验

规范化的用户体验设计标准是我长期关注的内容。

当发现越来越多的地方开始出台法律条例监管 Dark Pattern 这种用户体验中常见的“暗黑设计模式”时，你能感受到产品设计对用户行为与社会运转的影响，以至于需要一些限制来规避可能出现的糟糕体验，甚至严重后果。

印度中央消费者保护机构在2023年底发布了一项暗黑设计模式预防与监管指南，列出12条禁止互联网服务使用的暗黑模式，这些用户界面或交互上的设计会误导或欺骗用户，损害消费者自主决策与选择权。

更复杂一些的情况出现在欧盟，虽然没有单一法案管理用户体验方面的问题，但像是数字服务法案 DSA，通用数据保护条例 GDPR 等都有相关概念定义与规范指导。

如 DSA 对界面设计提出概要要求：“在线平台供应商不得以欺骗或操纵其服务接收者的方式，去设计、组织或运营其在线界面，或者以其他方式，严重扭曲或损害其服务接收者做出自由和知情决定的能力。”

Sora 的生成式视频冲击

OpenAI 的视频生成模型 Sora 在这两天火爆网络，我无意复述已经被详细讲解的技术细节，简单地说，其采用的机制与其他视频生成服务完全不同，能够一次性生成长达 60 秒视频，实现多角度分镜切换，并保持物体与环境的位置稳定性，同时也在画面质量方面展现出真实的光影、纹理细节等特性。

当前的一个讨论重点，是 Sora 是否理解了真实世界的物理特性，对此我持保留态度。与 GPT 类似，Sora 同样基于预测来绘制下一帧画面，那么呈现的内容与”理解“还有很大一段距离，即便它能够生成符合人类常识的物体运动现象。

《Gödel, Escher, Bach》作者侯世达曾表达过自己的担心：”智能、创造力、情感，甚至意识本身都太容易产生了，这些他最为珍视的人性特征和人类精神，结果只不过是“一套把戏”，一套肤浅的暴力算法就可以将其破解。“

如今的生成式模型有点类似”别管是不是，就说对不对吧“，如果人们毫无保留地接收这些过得去的生成内容，我们是否有立场要求人类提供基于更多理解而生产的相似产品？

Gemini 1.5 Pro and Apps

Gemini 1.5 Pro 收到的关注远小于它的重要性。引入 "Mixuture-of-Experts" MoE 混合专家架构使其通过更少的成本，获得与 Gemini 1.0 Ultra 相似的性能，这对于更大的 Ultra 模型能够获取更多潜在提升产生了想象空间。前所未有的 100 万上下文窗口，使 Gemini 1.5 Pro 能够针对包括视频在内的不同模态内容执行复杂的理解与推理。

在优先体验中，@rowancheung 测试了 Gemini 1.5 Pro 模型的多种视频能力，发现 Gemini 1.5 Pro 能够完成从视频中截取多段精彩片段、对比不同影片对话脚本等任务，以及判断 Sora 生成视频是否为 AI 生成内容。

另一件值得关注的事情，是 Gemini App 在 Android 上可以可选地替换 Google Assistant 部分问答服务了，在我看来这是对本地设备 LLM 的预览，并且效果非常好。可以想象所有语音助手服务会迎来一次服务升级。

从关闭网页快照服务思考空间数据价值

Google 近期宣布逐渐关闭网页快照服务，因为”现有网络技术已能够让用户随时获取页面信息“，但显然大部分用户仍然在使用这项功能，并在社交网站上表达了遗憾与不满。如果仍然需要类似服务，现在只能通过 Internet Archive 的 Wayback Machine 来实现类似功能，相比搜索引擎自动化抓取流程，使用便利性上降低不少。

与网页收藏夹类似，这让我思考网页与收藏夹的本质，两者在功能目的上显然是相对立的：收藏夹记录页面指向，页面承载内容。如果我希望将此时此时的页面收藏为今后可反复浏览的内容，效果与成本都有不小的门槛。

在这个场景下，互联网站点更像是实体店铺，不断翻新的店铺和服务可能不在了，但你可以通过照片保留视觉上的记忆连接。从这个角度看，空间照片、空间视频等载体，以及 Apple Vision Pro 这样的沉浸式内容体验设备，或许能够对保留这些记忆提供些不同的思考方向。

加拿大航空认为聊天机器人应独自承担法律责任

加拿大航空 Air Canada 最近输了一场官司，被判决给客户机票部分退款。加拿大航空辩称客户的情况不符合公司的退款政策，那么客户申请退款的依据是什么呢？答案是加拿大航空部署的 AI 聊天机器人。

加拿大航空认为机器人生成内容指向了真实的退款协议页面，用户本可直接查看具体信息，但也承认了错误，并向客户提供机票优惠券。不过客户没接受，选择起诉至法庭要求退款。

法庭中有一部分辩称内容我认为值得关注：加拿大航空认为“聊天机器人是一个独立的法律实体，对其自己的行为负责”，”客户根本不应该信任聊天机器人，航空公司也不应该对聊天机器人的误导性信息承担责任“。

这些商业公司真是有点东西。

有专家指出，商业部署 AI 生成式服务时，如能显著标识生成内容可能存在错误，在现阶段是可以规避如加拿大航空类似事件风险的。在这种情况下，生成式 AI 在商业活动中给资方带来的问题还更多一些。

无障碍设计领域的 AI 机会

Aaron Gustafson 在 Opportunities for AI in Accessibility – A List Apart 这篇文章中讨论了 AI 可以在无障碍领域中存在的应用方式。

如不带偏见的推荐算法，更易于访问的页面，保存与重建声音障碍患者的声音，准确识别语音以帮助障碍人士输入信息，帮助认知障碍患者更好地理解文本等，同事讨论了多元化在训练数据与模型反馈中得到体现的重要性。

障碍人士使用科技产品或在其他日常场景中与外界的沟通，体现在信息接收与输出的流通需求，与身体障碍与心理障碍之间的阻碍形成的冲突中，无论是帮助信息更好地输出，还是帮助更好地接收信息，都可以从中发现 AI 能够参与其中的机会，这对于已经比较成熟的基于触控面板、语音交互的无障碍设计，能带来不少可见的帮助。

（完）

有所启发