11-12-日报-AI资讯日报
AI新闻日报 2025/11/12
AI 日报
今日摘要
Meta发布Omnilingual ASR系统,支持1600种语言高精度语音识别,利用"上下文学习”机制实现数字平权,赋能全球边缘语言群体。
澳大利亚联邦政府拟用AI撰写内阁提案,以提升公共服务效率,但也引发对安全和数据泄露的担忧,政府将推出GovAI Chat程序。
小米官宣"AI才女”罗福莉加盟,将致力于"物理世界的智能”与通用人工智能研究,显著增强小米在AGI领域的研究力量。今日AI资讯
- Meta最新发布的Omnilingual ASR(自动语音识别)系统实现了对1600种语言的高精度语音识别,并引入**“上下文学习”机制**,仅需少量音频样本即可让AI快速掌握新语言。该开源系统在测试中,78%的语种词错率低于10%,其中36%的稀缺小语种也达到该水平,旨在实现数字平权,赋能全球边缘语言群体和文化传承。
- 澳大利亚联邦政府正考虑利用人工智能撰写内阁提案和商业案例,以提升公共服务效率,但此举引发了对安全和数据泄露的担忧。试点显示AI提高了工作效率和质量,但也需对AI生成内容进行大量编辑,且存在访问敏感文件的安全隐患。政府计划推出GovAI Chat程序,并承诺加强数据安全与员工沟通。
- 有"AI才女”之称的罗福莉已正式官宣加入小米,未来将致力于构建**“物理世界的智能”,并全力奔赴通用人工智能(AGI)**的研究。此次加盟显著增强了小米在AGI领域和物理世界智能方面的投入和研究力量。
- 中国网信办公布,近期新增73款生成式人工智能服务完成备案,同时新增35款通过API接口调用已备案模型能力的生成式AI应用或功能完成登记。截至目前,全国已有611款生成式AI服务完成备案,306款应用或功能完成登记。公告强调,企业需在产品详情页面显著公示所使用的已备案服务信息,以促进透明度和规范应用。
- Gemini 3 Pro在历史手稿破译方面实现惊人突破,其字符错误率(CER)仅0.56%、词错误率(WER)1.22%,已接近或达到专业人类转录水平,相较于前代模型提升50%–70%。更令人震撼的是,它展现出隐含推理能力,能够自主补全缺失语境并进行跨历史货币与重量单位的多步换算,似乎跨越了专家认为现有架构无法逾越的界限。
- 据报道,战争部取消了1962年的规划、编程和预算系统(PPBS),选择将速度置于成本优化之上。
- 一位开发者分享了在构建企业软件方面具备能力,但在收费方面遇到困难的经历。
- 一位用户表达了自己对理想中加入公司的类型的愿景和期待。
- Pikaday发布了一份针对前端日期选择器的友好指南,旨在提供便捷的开发参考。
- Replit创始人Amjad Masad接受了印度顶级商业报纸的采访,其AI编程平台Replit在数月内从280万美元增长到1.5亿美元的年经常性收入,估值达30亿美元,是全球第三大AI工具。
- 阿里云的通义系列模型在今年的**“双11”电商节中首次实现了大规模应用**,淘宝天猫在多个关键环节全面采用AI大模型技术。其中,包括通义Qwen-MT在内的翻译模型单日调用量突破14亿次,显著提升了亿级商品信息和用户评价的跨语种处理效率。
- Perkeep是一个旨在提供个人生命存储系统的项目,强调数据的长期保存和管理。
- 有用户反映,Mistral AI的**“Think mode”在启用时,模型回答会变得简短而干涩,并忽略了系统提示词**的指导,对此表示不解,询问是否为故意设计。
- 据《金融时报》报道,Meta首席AI科学家Yann LeCun计划离职创办新公司,专注于世界模型研究。此举正值Meta重组其AI部门,以应对OpenAI和谷歌等竞争对手的压力,LeCun此前对当前AI技术,特别是大型语言模型的过度宣传持怀疑态度。
- TrendRadar是一个开源的AI舆情监控分析工具,能聚合35个平台的热点信息(如抖音、知乎、B站),通过智能筛选、自动推送和AI对话分析(提供13种工具,如趋势追踪、情感分析)帮助用户理解新闻热点。它支持多种推送方式,易于部署且无需编程。
- adk-go是谷歌发布的一个开源、代码优先的Go工具包,旨在帮助开发者灵活可控地构建、评估和部署复杂的AI代理。
- strix是一个开源的AI赋能工具,旨在为应用程序提供强大的AI功能。
- open-source-games是一个整理了大量开源游戏的列表项目。
- ChinaTextbook是一个提供中国中小学及大学PDF教材的项目。
- 论文《Towards Embodied Agentic AI》回顾并分类了由大型语言模型(LLMs)和视觉语言模型(VLMs)驱动的机器人自主性和人机交互进展。该调查论文着重于AI代理作为协调者、规划者或通用接口的代理架构,并提出了一种分类模型集成方法的新分类法。
- 论文《EHRStruct》提出了EHRStruct,一个全面的基准测试框架,用于评估大型语言模型(LLMs)在结构化电子健康记录(EHR)任务上的表现。该框架定义了11个代表性任务和2200个评估样本,并评估了20个LLMs,结果显示结构化EHR任务对LLMs的理解和推理能力要求很高,因此提出了代码增强方法EHRMaster以实现领先性能。
- 论文《Fast Multi-Organ Fine Segmentation in CT Images with Hierarchical Sparse Sampling and Residual Transformer》提出了一种快速多器官精细分割框架,结合分层稀疏采样和残差Transformer,用于CT图像中的3D医学图像分割。该方法在保证分割性能的同时,显著缩短了计算时间(CPU上约2.24秒),展现了实现实时精细器官分割的潜力。
- 论文《WaterMod: Modular Token-Rank Partitioning for Probability-Balanced LLM Watermarking》引入了WaterMod,一种通过模块化令牌排名分区实现概率平衡LLM水印的新方法。它通过对词汇表按概率排序并进行模k分区,确保在嵌入可检测信号的同时保持生成内容的流畅度,支持二进制归因和多位有效载荷,并在多项任务中展现出强大的水印检测和生成质量保持能力。
- ElevenLabs发布了Scribe v2 Realtime,这是一款实时语音转文本模型,专为语音智能体、会议记录和实时应用设计。其核心亮点包括超高准确性与速度(实时转录延迟仅150毫秒),在复杂场景中表现出色;支持90多种语言;并符合多项国际安全与合规标准,提供零数据保留模式。
- 针对AI泡沫的讨论,有观点认为AI的进展可能更像是一个阶跃函数式的S曲线,目前正进入现有范式的平台期,导致模型能力提升放缓。从宏观尺度看,AI进步由不同S曲线范式组合驱动,每个范式都经历从低估到高估、从革命到泡沫的过程,构成真正的Scaling law。作者认为,尽管短期需谨慎,但长期应对AI的未来保持信心和耐心。
- 在为AI设计工具时,应将AI视为**“用户”而非"程序”。传统的做法是将后端API直接封装给AI,导致AI需要多次调用并自行拼凑信息。正确的做法是,工具应对标UI**,后台完成多个API调用后,向AI返回渲染好、易于理解的最终结果。
- 一位开发者分享了在使用Anthropic的"用MCP执行代码”文章后的"灵光一现”,尝试将所有MCP(Multi-Context Processing)任务抛给子Agent,以避免占用主Agent的上下文窗口。然而,此举依然大量消耗Token,很快触及Claude的使用上限,最终不得不将这部分处理MCP的工作转移给**“gemini-cli”**。
- 归藏(guizang.ai)分享了Gemini 3 Pro在历史文件破译方面的卓越表现,其字符错误率(CER)0.56%、词错误率(WER)1.22%,已接近**“专家人类水平”,较前代提升50-70%。该模型不仅能识别复杂手写字体,甚至在模糊数字情境下展现出隐含推理能力**,进行多步换算,似乎跨越了传统模型难以逾越的界限,预示着一种统计模型内部感知、记忆与逻辑自发结合的新型推理机制的诞生。
- 小互分享了一个为Gemini 2.5 Pro设计的详细提示词,旨在帮助其在Hacker News或Reddit等高信息密度的讨论帖中提取精华内容。该提示词将模型定位为"Hacker News洞察家与社区编辑”,要求其理解上下文、筛选高价值评论、提炼核心议题并撰写结构清晰、洞见深刻的中文博文,强调"过滤噪音,提炼精华”和"读者导向”的写作风格。
Last updated on