AI 很火,大模型很火,但是国内没有任何一家 AI 公司赚钱,文心一言从上线到现在据说营收不超过 50 万美元。
各家都在想着怎么使用 AI 能力造出新产品,但是在移动互联网时代用户的需求已经被挖掘的差不多了,现在鲜少能有令用户 wow 一声的产品出现。作者觉得现在更应该做的是:使用 AI 这种新能力。以体验更好的方式解决用户的旧需求。
那么在不同的细分场景中,AI 能力是如何对用户的旧需求进行体验重造的呢?下文就以微信读书为例,来进行详细的分析。
微信读书 APP 前几天上线了 AI 问书相关的功能,作者使用下来感觉很不错。其实微信读书之前已经上线了不少 AI 相关的能力,有 AI 大纲、AI 听书、还有 AI 翻译。下面我们就一起从这四个具体的功能来看一下,微信读书与 AI 能力融合之后,在阅读这个细分场景下是如何提升用户体验的?
一、首先来看最新上线的「AI 问书」
AI 问书其实就是一个搜索功能。用户在阅读的过程中,如果遇到了不懂的概念,就可以将对应的文字选中,然后点击 AI 搜索,就可以出现对这个词的搜索结果。如下图:
在我读 ChatGPT 技术原理的一本书时,遇到不懂的链式法则概念就用到了 AI 搜索功能,可以看到在第二页给出了非常详细的解释,而且生成速度在 10 秒之内。除此之外,还会根据用户的问题判断用户可能想问的其他问题,帮用户列出来,这一点也十分重要,因为当面对一个新领域的知识时,用户有可能处于不知道自己需要学习什么的状态。
如果只是这样的话,那这也只是一个搜索功能,微信读书的体验优秀之处还可以分为两个方面来讲:
第一方面是:搜索的起点和终点都发生在同一款产品的同一个页面之中。
阅读本身就是一种非常需要沉浸的行为,如果像以前那样,我们遇到了一个不懂的新概念,然后跑到手机浏览器上去搜索,那会产生两个问题,第一个问题是发生了不同手机应用之间的切换,这会导致用户沉浸式阅读的行为被中断。
另一个问题是在浏览器中进行搜索时有可能在不同网站之间进行切换来对比这个概念的含义,才能够比较准确的判断出在自己的阅读场景中什么样的解释是符合语境的。
前者对于用户使用时长显然存在不利的影响,后者也提升了用户离开微信读书这款产品的时长,并且整个过程体验也很差。而在微信读书上线了 AI 搜索的能力之后,我们可以直接在某本书某段文字上进行选择,然后结果就会直接在当前页面用一个浮窗的形式显示,并可以结合上下文来判断用户此时选择的这个词语的最佳用义是什么。这样就可以给出用户一个最需要的,最合适的结果。
有些词语可能没有正确之分,但是一定有合不合适语境的区别。举个例子,如果我在搜索引擎中搜索的是一个「苹果」的词语,那么结果到底应该显示出来红富士苹果还是苹果手机?这就是没有结合上下文进行搜索时,搜索引擎无法做出最正确判断的例子。作者本人就遇到过多次想在拼多多买点水果,结果搜索结果页列出来了一堆手机的情况。
第二方面是搜索结果的准确度、易理解程度的问题。
我们都知道,在通用大模型产品刚刚上线不久的时候,我们与 ChatGPT 这类产品对话时,经常会遇到胡说八道的情况。
虽然现在已经好很多了,但是很多用户包括作者自己,有时候依然会怀疑 AI 给出的答案是否是可信的,所以现在很多 AI 搜索产品在给出答案的时候都会将答案的来源列出来来增加回答的可信度(另一方面意义是为了方便用户去原文链接中查找更多信息)
刚刚作者说了准确度,易理解程度这两个维度的体验。首先来说准确度。由于微信读书的搜索结果基本是从整个产品中不可计数的书籍中进行查找的,所以对于概念的准确的基本是有保障的。虽然作者也是做自媒体,但是不得不承认,很多情况下已经出版的书籍中对一些概念名词的解释是更为准确、校对更加严格的。
再来说丰富度(或者叫结构化),从上面的截图中,大家也可以看到,当我搜索链式法则这个词语的时候,整个搜索结果给我列出了它的定义、应用、理解等三个部分的内容。正是由于从多方面,多角度给出的信息,帮助了用户更轻松的去理解搜索词的含义,有的时候他甚至还会给你举个例子来帮助用户理解。
除了在书籍内容页面可以进行 AI 搜索之外,在书籍商城的搜索框中同样可以进行 AI 搜索。我们假设一个场景:我想看余华最新出版的作品,但是我又忘了这本书叫什么名字,于是我在搜索框中输入了文字「余华最新出版的书籍」。
搜索结果虽然给出了很准确的回答,但却并没有直接给我打开这本书的入口,而我们直接搜索第七天这个书名时,其实能够发现这本书已经在微信读书 app 中上架了。所以我们能够推测,在这里进行搜索时,其实还是根据书籍内容进行的。
在前面的分析中,我们提到了微信读书结合具体的产品使用场景,为 AI 能力做了很细致的融合。但是这里就没有考虑使用场景,或者说没有对用户的意图做出进一步的判断。(意图识别将是很多 AI 产品的核心能力,这方面的分析将会在下一篇长文中进行详细解释)。作者觉得在一个阅读产品中输入某某的作品,那这个时候用户的意图应该是非常明确的,就是想找到这本书去阅读。这里没有做出更便捷的设计确实有些遗憾。不过也可以理解,毕竟这个功能叫做 AI 问书,而不是 AI 搜索。当然从整体上来说,AI 问书功能还是一个具体场景与 AI 能力结合之后,对用户体验提升非常大的案例。
接下来我们继续来聊聊 AI 大纲、AI 听书、AI 翻译。
二、AI 听书
听书功能其实是一个出现了非常多年的功能,那么为什么微信读书这里一定要把这个功能叫做 AI 听书呢?
大家还记不记得刚开始出现文字转语音功能的时候,那些文字的发音都是什么样的?简单来说就是一个字是一个字的发音,没有词语的发音,语气词和儿化音的发音也都特别生硬。可以想象一下开心麻花的小品中,这位饰演机器人的妹子的发音。
后来随着技术的进步,文字转成的语音慢慢变得更加流畅,更加有感情了,在这个过程中其实就是 AI 能力的体现,在不同的词语中,哪些词哪些字应该重读,哪个字应该快读,哪个字应该慢读,以及、音色、音量等等,更加复杂的算法变得更加接近于人的声音了。甚至停顿、笑声也都有被比较准确的模拟出来。
如果大家曾经用过起点读书这款产品的话,也能发现在听书时选择「说书先生」选项相对于其他选项明显更加接近于人朗读文字的感觉。语音转文字能力是 AI 能力非常重要的一部分,在多模态交互中,不同模态信息之间的转换是工程师们的重要研究课题。
如果大家感兴趣,可以随便找一款比较山寨的阅读产品,试一试里面的听书功能的感觉和微信读书这个 AI 听书的感觉有多大的差距。
AI 能力为产品带来的可能不是一个全新的用户没有见过的能力,而更多的会发生在对已有功能的体验升级上。可能是更舒适,可能是更高效。所以作者觉得 AI 与用户体验之间的融合这方面的研究是非常有潜力的。还是那句话:用新能力,为旧需求,带来新体验,卖更多钱
如果我们从技术角度来解读一下 AI 听书相关能力的话,其实也有很多值得讲的点。这个功能主要集成了自然语言处理(NLP)、语音合成(TTS,Text-to-Speech)等人工智能技术的创新应用。以下是该功能的一些关键技术分析:
在听书功能启动时,系统首先需要解析电子书的文本内容。这一过程包括识别文档结构、章节划分、以及文字内容的准确提取。这一步骤对于确保流畅和准确的听书体验至关重要。 文本被解析后,通过语音合成技术将文本转换成自然人声。TTS 技术涉及到文本分析、韵律建模、语音合成引擎等多个子领域。高质量的 TTS 能够生成接近真人的声音,包括语调、停顿、重音等,以增强听书的沉浸感和理解度。微信读书可能采用了先进的深度学习模型,如 WaveNet 或 Tacotron 系列,这些模型能够生成更加自然流畅的语音。 用户可以根据自己的偏好调整朗读的语速、音色(如果应用提供多种声音选项的话)等参数。这背后的技术支持可能包括对预训练的 TTS 模型进行微调,或者利用算法动态调整音频输出参数,以满足用户的个性化需求。 虽然主要功能是听书,但结合“AI 问书”功能,微信读书还可能具备一定的问答能力,能够在用户有疑问时提供即时解释。这要求系统具备一定的自然语言理解和知识图谱技术,能精准定位到用户提出问题的相关文本,并给出合理解答。 听书过程中,微信读书还会同步用户的阅读进度,支持书签功能,使得用户在不同设备间切换时能无缝继续听书。这需要高效的云服务支持,以及良好的数据同步机制。可以看到,在用户视角下,一个比较简单的功能,但是其中的技术过程还是非常复杂的。所以,当 AI 能力与各种应用传统的核心使用场景相结合时,如果想提升用户体验还是需要更加系统性的思考。
三、AI 大纲
AI 大纲最重要的意义是增强了用户在索引、记忆和阅读灵活性等方面的能力。使用 AI 技术对书籍内容进行分析和提炼,形成结构化的大纲,读者就能在短时间内掌握全书的主旨和框架。这不仅可以节省读者的时间,还建议更好地理解和记忆内容。用户还可以通过 AI 大纲定位到自己感兴趣的部分,进行深入阅读,或是选择阅读,以此来优化个人的学习或休闲阅读策略。尤其在现在这种碎片化信息充斥着视野的环境下,用户们阅读长文章的耐心(能力)其实已经比较低了。而书籍恰恰是更长的文章,如果没有信息检索能力帮助用户找到需要阅读的重点,那阅读体验将会很差。甚至没阅读完就放弃了。
在阅读内容详实、信息量大的书籍时,用户往往面临信息过载的问题,难以快速把握全书要点。AI 大纲可以帮助用户在短时间内掌握书籍核心框架和各章节重点,提高了阅读效率和信息筛选能力。
对于知识型书籍,读者通常需要深入理解并记住关键概念。AI 大纲通过突出显示每个部分的主要论点和结论,辅助读者构建知识体系,加深理解和记忆,避免因遗漏重要信息而影响对整体内容的理解。用户在完成阅读后,想要复习或回顾特定章节时,AI 大纲也提供了一个方便快捷的途径。用户可以直接通过大纲找到感兴趣或需要复习的部分,无需再次浏览全文,节省了时间。
对于时间有限或偏好跳跃式阅读的用户,AI 大纲允许他们根据个人兴趣或需求选择阅读顺序。用户可以直接跳转到自己最关心的章节进行深度阅读,增加了阅读的灵活性和个性化。
以上是 AI 大纲在阅读前、阅读中和阅读后的一些意义,而对于一些特殊角色例如学生、研究人员等需要大量阅读和整理资料的群体,AI 大纲功能相当于一个自动化的总结和笔记工具,帮助他们快速归纳书籍内容,为撰写论文、报告或做研究提供了便利。
AI 大纲的技术原理流程图大致如下:
四、AI 翻译
由于这个功能的意义相对简单,所以放到最后,AI 翻译在跨语言阅读难题、即时理解、专业术语理解等方面都能为用户解决极大痛点。
在阅读外文书籍或遇到不懂的外语词汇时,AI 翻译功能可以直接提供翻译,帮助用户克服语言障碍,从更多来源获取信息。也无需切换应用或查阅纸质词典,AI 翻译的即时性让用户在阅读时能迅速理解难点,保持阅读思路的连贯性沉浸性。同时对于专业术语理解:针对专业书籍或领域特定词汇,AI 翻译的优势也比较大,要知道很多外文包括英文并非像汉语一样,是有很多单字来组词满足一些专业术语和新词语的需求,而是出现一个新的概念就需要一个新的单词来进行表示。
例如,“计算机”(computer)这个词是由“计算”(to calculate)和“机”(machine)组合而成。这样的方法使得汉语能够快速生成新词,而不需要完全创造新的字符。
以英文为例,一个人的博学程度几乎可以用他掌握的单词数量来计算,以前作者看到一篇新闻就是以埃隆·马斯克掌握大量工程学、航天技术、人工智能和商业等领域的专业术语而体现其能力。
对于整个产品而言,便捷的语言转换服务,还可以极大地拓宽了不同母语用户的用户群体,这也是很重要的一点。
作者认为 AI 技术将继续以多种方式深刻改变用户体验,从个性化、交互性、效率、可达性、情境感知、到创造性和便捷性等多个维度全面提升。以下是一些具体的改变方式:
个性化体验:AI 通过分析用户行为、偏好和历史数据,提供个性化推荐,如个性化内容、产品、服务或广告,使用户体验更加贴合个人需求,增加用户粘性。例如,电商平台的个性化商品推荐,音乐和视频流媒体的定制化播放列表。 智能交互:自然语言处理和语音识别技术让 AI 能理解并响应用户的口头指令,提供语音交互,如虚拟助手、AI 客服,减少用户操作步骤,提升便捷性和友好性。同时,AI 还能通过表情识别和情绪分析,提升交互的情感智能。 自动化与效率:AI 自动化处理重复任务,如信息摘要、文档整理、数据分析,释放用户时间,使他们专注于更有价值的活动。AI 还加速响应时间,如即时翻译、搜索结果,提升效率。 情境感知:AI 能根据用户所处的情境(位置、时间、设备、历史行为)智能调整服务,如智能家居根据作息自动调节灯光和温度,旅行应用根据天气和交通状况推荐行程。 创造性辅助:AI 生成式技术,如文本、图像、音乐生成,为创作者提供灵感和辅助,加快创作过程,同时个性化内容创作,提升用户参与度和娱乐体验。 无障碍提升:AI 助力实现无障碍设计,如自动字幕、语音转文本,帮助视障、听障人士,使技术惠及更广泛人群,推动包容性设计。 教育与知识获取:AI 个性化学习平台,通过智能适应性学习路径和反馈,提供定制化教育资源,使学习更有效,同时 AI 辅助答疑,如“AI 问书”,即时解答疑惑。 健康:AI 在健康管理、心理健康支持、疾病预防和远程医疗方面发挥作用,通过监测、预警、分析数据,提供个性化建议,改善健康维护体验。 金融与服务:AI 在金融领域的应用,如风险管理、欺诈检测、智能投顾,提升安全性同时个性化金融服务,简化流程,为用户提供更快捷、安全的金融服务体验。AI 技术通过深度融入产品和服务的各个层面,不仅仅是提供定制化和即时的解决方案,还在创造新的交互方式,目前比较确定的就是未来的智能硬件产品将会以多模态交互的形式与用户进行交流,而不是今天的以触屏为主。
以最新发布的 ChatGPT-4o 为例来讲讲多模态交互的意义大概如下:
如果仅仅把多模态交互能力理解成了我们可以不仅仅使用文字和 GPT 交流了,这么理解实在太小看多模态交互能力了。要知道,人类通过文字表达和声音表达,即使是完全同样的文本。所包含的信息也有很大的差别。文字只是静态的信息,而声音包含更多维度的信息。例如语音、语调、音量、语速、停顿、重音等等。同样是「你好」,文字只能表达 1 种含义,而声音可能能表达 4-6 种。对于程序来说,多模态交互意味着从更多来源获得信息(指视、听、文、环境等来源)。也意味着获得更多信息(例如刚刚所说的声音维度的语音、语调、音量、语速、停顿、重音)。这仅仅是从声音一种模态中可以扩展出的新信息,而多模态包括视觉、语音、图像、文本、触觉等等很多方面的信息通道。
从多来源获得信息并获得更多信息,GPT 就可以缩短推理、判断等过程,更快速的给与用户回复。这就像是用户自动的把提问描述的更详细了,把自己的要求说的更清楚了,如此一来 GPT 给与反馈的速度和质量自然会有对应的提升。(当然同样也有模型方面带来的提升)
除了声音之外,GPT-4o 的多模态交互能力还包括视觉理解能力,例如能识别图像中的人脸,分析性别、年龄、表情等信息。这同样是我们刚刚所说的从更多来源获得信息以及获得更多信息。
以上是多模态交互能力中,人向 GPT 输入过程中的意义,那么对于人机交互的另一部分:GPT 向人输出的阶段,同样意义非凡。
GPT-4o 可以根据需要以最合适的模态进行回应,在之前 GPT 只能以文字进行回复,但之后则可以是文字、声音、图像。声音模态的意义是支持更多交流场景以及对无障碍交互的包容。图像的意义就不用多说了,无论是取代了命令行的图形化界面,还是晋升答辩时准备的 PPT,都能体现图像相对于文字的优势。
这里稍微展开了一点儿多模态交互的内容。如果想要完全说明多模态交互的整个体系可能需要几万字,后面有时间再慢慢更新吧。欢迎留言讨论~