标注

支持中英双语及 40 种方言任意混说，中国电信 TeleAI 星辰语音大模型升级

中国电信人工智能研究院（TeleAI）在今年 5 月发布业内首个支持 30 种方言自由混说的语音识别大模型 —— 星辰超多方言语音识别大模型。时隔不到半年，TeleAI 星辰语音大模型的多方言能力再次升级，攻克了湛江话、宜宾话、洛阳话、烟台话等方言，将方言种类从 30 种提升至 40 种，并引入对英文的识别。与传统的有标注训练方法相比，TeleAI 通过预训练语音识别模型，利用海量无标注数据进行预训练，再通过少量有标注数据进行微调。

11/3/2024 9:37:53 AM

沛霖（实习）

百分点认知智能实验室：基于不完全标注样本集的信息抽取实践

编者按信息抽取是从文本数据中抽取特定信息的一种技术，命名实体识别（Named Entity Recognition, NER）是信息抽取的基础任务之一，其目标是抽取文本中具有基本语义的实体单元，在知识图谱构建、信息抽取、信息检索、机器翻译、智能问答等系统中都有广泛应用。基于监督学习的NER系统通常需要大规模的细粒度、高精度标注数据集，一旦数据标注质量下降，模型的表现也会急剧下降。利用不完全标注的数据进行NER系统的建立，越来越受到专家学者们的关注。第九届国际自然语言处理与中文计算会议（NLPCC 2020）针对此业

3/25/2021 2:12:00 PM

百分点科技

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源）韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 OpenAI发布34页智能体实践指南：从网络搜索到代码编写 OpenAI 新规：组织想要用未来 AI 模型需先“验明正身”

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型