文本 - AIGC宇宙

端侧最强开源 AI 模型 Llama 3.2 登场：可在手机运行，从 1B 纯文本到 90B 多模态，挑战 OpenAI 4o mini

Meta 公司昨日（9 月 25 日）发布博文，正式推出了 Llama 3.2 AI 模型，其特点是开放和可定制，开发者可以根据其需求定制实现边缘人工智能和视觉革命。Llama 3.2 提供了多模态视觉和轻量级模型，代表了 Meta 在大型语言模型（LLMs）方面的最新进展，在各种使用案例中提供了更强大的功能和更广泛的适用性。其中包括适合边缘和移动设备的中小型视觉 LLMs （11B 和 90B），以及轻量级纯文本模型（1B 和 3B），此外提供预训练和指令微调（instruction-tuned）版本。AI在线附

刚刚，GPT-4o关键人物离职创业！曾在OpenAI最早提出构建「Her」

OpenAI 最早提出构建「Her」的那个人，刚刚宣布离职创业了。今年 5 月份，OpenAI 发布了震惊世界的 GPT-4o。这个模型可以跨越文本、视觉和音频，以一种非常自然的形式和人类语音对话，延迟低到与人类在对话中的响应时间相似。而且，它允许用户随时打断，并能感知和回应用户的情绪。因此，该模型发布后，很多人说科幻电影《Her》中的场景照进了现实。此次离职的 Alexis Conneau 就是 GPT-4o 项目的关键人物之一。离职前，他是 OpenAI 音频 AGI 研究负责人，也是 OpenAI 最早提出

OpenAI 开发 ChatGPT「反作弊神器」：99.9% 超高命中率，但没发布

感谢AI在线网友 Xiaozhi 的线索投递！去各大高校图书馆转一圈，会发现头上一副耳机、手边一杯咖啡，电脑上一个 AI 工具网页几乎成了当代大学生标配。学生热衷于在 ChatGPT 的帮助下完成作业，教师们却头疼于无法杜绝学生用 ChatGPT 作弊的行为。人工智能可以根据一个提示，在几秒钟内免费创建整篇论文或研究论文。教师和教授表示，他们迫切需要帮助来打击滥用行为。《每日邮报》2023 年 1 月 30 报道称，UNSW 的 1 名学生使用 ChatGPT 自动生成论文被抓，这也是全澳第一个使用 AI 技术作弊

OpenAI 承认正研发 ChatGPT 文本水印，但面临挑战

据《华尔街日报》报道，OpenAI 已经开发出一款能够高精度识别 ChatGPT 生成文本的工具，但迟迟未发布。对此 OpenAI 进行了回应，承认正在研究文本水印技术，但表示这项技术仍存在诸多挑战。图源 Pexels据AI在线了解，通过文本水印，OpenAI 将只专注于检测来自 ChatGPT 的文字，而不是来自其他公司模型的文字。其将通过对 ChatGPT 选择单词的方式进行微小的更改来实现这一点，本质上是在文字中创建一个不可见的水印，以后可以被一个单独的工具检测到。OpenAI 称，文本水印是他们探索的多种解

22个任务超越SOTA，43个任务媲美SOTA，Google推出医学治疗通用大模型

编辑 | 萝卜皮医生和科学家如果想开发一种新的疗法，这将是一个漫长且昂贵的任务，需要满足许多不同的标准，而能够加快这一过程的人工智能模型将是无价之宝。然而，目前大多数人工智能方法只能解决一组定义狭窄的任务，通常局限于特定领域。为了弥补这一差距，Google 团队提出了 Tx-LLM，这是一种通用大型语言模型（LLM），由 PaLM-2 微调而成，可编码有关各种治疗方式的知识。仅使用一组权重，Tx-LLM 可同时处理与自由文本交织的各种化学或生物实体（小分子、蛋白质、核酸、细胞系、疾病）信息，使其能够预测广泛的相关属

视觉语言模型导论：这篇论文能成为你进军VLM的第一步

近些年，语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型（LLM）有能力解决多种不同的任务，它们也正在成为越来越常用的工具。这些模型之前基本都局限于文本输入，但现在也正在具备处理视觉输入的能力。如果能将视觉与语言打通，那么势必能造就多种多样的应用 —— 这实际上也正是当前 AI 技术革命的关键方向。即便现在已有不少研究将大型语言模型扩展到了视觉领域，但视觉与语言之间的连接尚未被彻底打通。举些例子，大多数模型都难以理解空间位置关系或计数 —— 这还需要复杂的工程设计并依赖额外的数据标注。许多视

科大讯飞：讯飞星火 V4.0 正在训练中，对标 GPT-4o 的产品也在研发

科大讯飞在“深交所互动易”平台回复网友提问时透露，对标 GPT-4 当前能力的讯飞星火 V4.0 正在训练中，预计在 2024 年 6 月底发布，对标 GPT-4o 的产品正在研发中。科大讯飞方面表示，公司将紧密结合人工智能的演进和突破，把成果持续应用到智慧教育的每个产品中，不断提升产品的用户体验和客户渗透率。而在今年 4 月，科大讯飞董事长刘庆峰曾透露，今年 6 月 27 日，讯飞星火 V4.0 将正式发布。刘庆峰当时表示，星火大模型（IT之家注：讯飞星火大模型 V3.5）的通用长文本能力，包括长文档信息抽取、长

AI 赋能剪贴板：微软 PowerToys 新增“高级粘贴”功能

微软正为 PowerToys 加入一项名为“高级粘贴”的新功能，其利用人工智能的强大功能，可以实时转换剪贴板内容。这项新功能能够帮助用户提升工作效率，例如将一种编程语言的代码复制粘贴成另一种语言的代码。不过，要使用高级粘贴功能的一些更高级特性，需要 OpenAI API。“高级粘贴”包含在 PowerToys 0.81 版本中，启用后可以通过组合键 Windows 键 Shift V 调出。这会打开一个 “高级粘贴” 文本窗口，提供纯文本、markdown 和 JSON 等粘贴格式转换选项。如果在“高级粘贴

Meta 首发「变色龙」挑战 GPT-4o，34B 参数引领多模态革命！10 万亿 token 训练刷新 SOTA

【新智元导读】GPT-4o 发布不到一周，首个敢于挑战王者的新模型诞生！最近，Meta 团队发布了「混合模态」Chameleon，可以在单一神经网络无缝处理文本和图像。10 万亿 token 训练的 34B 参数模型性能接近 GPT-4V，刷新 SOTA。GPT-4o 的横空出世，再次创立了一个多模态模型发展的新范式！为什么这么说？OpenAI 将其称为「首个『原生』多模态」模型，意味着 GPT-4o 与以往所有的模型，都不尽相同。传统的多模态基础模型，通常为每种模态采用特定的「编码器」或「解码器」，将不同的模态分

全球最长开源！元象开源大模型XVERSE-Long-256K，无条件免费商用！

元象发布全球首个上下文窗口长度256K的开源大模型XVERSE-Long-256K，支持输入25万汉字，让大模型应用进入“长文本时代”。该模型全开源，无条件免费商用，且附带手把手训练教程，让海量中小企业、研究者和开发者更早一步实现“大模型自由”。全球主流长文本大模型图谱参数量和高质量数据量决定了大模型的计算复杂度，而长文本技术（Long Context）是大模型应用发展“杀手锏”，因技术新、研发难度高，目前多为闭源付费提供。 XVERSE-Long-256K支持超长文本输入，可用于大规模数据分析、多文档阅读理解

大型语言模型与知识图谱协同研究综述：两大技术优势互补

多图综述理清当前研究现状，这篇 29 页的论文值得一读。

AIGC用于智能写作的技术综述-达观数据

详细介绍AIGC用于智能写作的相关技术和达观数据的智能写作产品实践