您正在搜索 gemini-shang-xian-shou-ri-yong-hu-bao-bian-bu-yi-yan-shi-bei-zhi-yi-zao-jia-gu-ge-cheng-ren-le

基于谷歌Gemini多模态模型实现PDF文档自动化处理

译者 | 朱先忠审校 | 重楼引言近年来，自动化文档处理成为ChatGPT革命的最大赢家之一，因为LLM能够在零样本设置中处理广泛的主题和任务，这意味着无需域内标记的训练数据。这使得构建AI驱动的应用程序来处理、解析和自动理解任意文档变得更加容易。虽然使用LLM的简单方法仍然受到非文本上下文（例如图形、图像和表格）的阻碍，但是这正是我们将在本文中尝试解决的问题，而且我们特别关注PDF文件格式。

谷歌 CEO 皮查伊：明年风险高、赌注大，推广 Gemini 是首要任务

皮查伊表示，“我认为2025年将是关键的一年。我们需要深刻认识到当前的紧迫性，并加快公司步伐。这是一个具有颠覆性影响的时刻，我们必须专注于推动技术带来的变革，解决用户的实际问题。”

谷歌被曝正使用 Anthropic 的 Claude 模型来改进其 Gemini AI

据 TechCrunch 获得的内部通信内容显示，参与改进谷歌 Gemini 人工智能模型的承包商正在将其答案与 Anthropic 的竞品模型 Claude 的输出进行比较。此举引发了谷歌是否获得 Anthropic 授权使用 Claude 进行测试的合规性质疑。

谷歌“新技能”陆续推送：Gemini 帮你快速总结 PDF 内容

使用“询问此PDF”功能需要拥有 Gemini Advanced 订阅、将 Gemini 设置为安卓手机的默认助手，并且设备需要运行 Android 15 系统。

谷歌拓展 Gemini AI 深度研究模式，支持中文等 40+ 语言

谷歌公司本周五发布公告，宣布旗下 Gemini AI 的深度研究模式（in-depth research mode），现在已支持中文等 40 多种语言。

谷歌首个通用推理模型登场：揭秘 AI 推理“黑匣子”，登顶 Arena LLM 排行榜

谷歌 AI Studio 平台昨日（12 月 19 日）发布实验性的“Gemini 2.0 Flash Thinking”模型，主打“清晰展现思考过程”，是谷歌第一个通用推理模型。

谷歌新规引担忧：消息称外包人员被迫评估自己不擅长的 Gemini 回复

据 TechCrunch 报道，谷歌针对其大型语言模型 Gemini 回复的外包评估流程进行了一项调整，引发了外界对其在敏感领域信息准确性的担忧。这项调整要求外包评估员不得再像以往那样，因自身专业知识不足而跳过某些特定的评估任务，这或将导致 Gemini 在医疗保健等高度专业性领域的信息输出出现偏差。

谷歌 Gemini 2.0 成“P 图神器”，各种 P 图只需一句话

输入指令“把这辆车改装成敞篷车”，它就能立马将文字指令和图片结合起来，完成一键 P 图。

谷歌：“AI 概览”功能计划明年面向更多国家、更多语言开放

谷歌首席执行官桑达尔·皮查伊表示，会将Gemini 2.0的高级推理能力融入AI Overviews（AI概览），未来将能够处理“更复杂的主题”以及“多模态”和“多步骤”的搜索，包括高级数学问题和编程问题。

谷歌测试 Gemini AI 游戏助手：实时分析屏幕以提供游戏建议

谷歌今日发布了 Gemini 2.0，并透露正在探索如何利用该模型构建 AI 游戏助手来理解视频游戏规则，从而为用户提供帮助。谷歌 DeepMind 首席执行官 Demis Hassabis 和首席技术官 Koray Kavukcuoglu 在一篇博文中表示，这些 AI 助手能够“仅基于屏幕上的画面对游戏进行推理，并通过实时对话为玩家提供后续操作建议。”他们还提到，这些助手还可以“利用谷歌搜索，将玩家与网络上丰富的游戏知识连接起来。”