11-12-日报-AI资讯日报

AI新闻日报 2025/11/12

AI 日报

今日摘要

Meta发布Omnilingual ASR系统，支持1600种语言高精度语音识别，利用"上下文学习”机制实现数字平权，赋能全球边缘语言群体。
澳大利亚联邦政府拟用AI撰写内阁提案，以提升公共服务效率，但也引发对安全和数据泄露的担忧，政府将推出GovAI Chat程序。
小米官宣"AI才女”罗福莉加盟，将致力于"物理世界的智能”与通用人工智能研究，显著增强小米在AGI领域的研究力量。

今日AI资讯

Meta最新发布的Omnilingual ASR（自动语音识别）系统实现了对1600种语言的高精度语音识别，并引入**“上下文学习”机制**，仅需少量音频样本即可让AI快速掌握新语言。该开源系统在测试中，78%的语种词错率低于10%，其中36%的稀缺小语种也达到该水平，旨在实现数字平权，赋能全球边缘语言群体和文化传承。
澳大利亚联邦政府正考虑利用人工智能撰写内阁提案和商业案例，以提升公共服务效率，但此举引发了对安全和数据泄露的担忧。试点显示AI提高了工作效率和质量，但也需对AI生成内容进行大量编辑，且存在访问敏感文件的安全隐患。政府计划推出GovAI Chat程序，并承诺加强数据安全与员工沟通。
有"AI才女”之称的罗福莉已正式官宣加入小米，未来将致力于构建**“物理世界的智能”，并全力奔赴通用人工智能（AGI）**的研究。此次加盟显著增强了小米在AGI领域和物理世界智能方面的投入和研究力量。
中国网信办公布，近期新增73款生成式人工智能服务完成备案，同时新增35款通过API接口调用已备案模型能力的生成式AI应用或功能完成登记。截至目前，全国已有611款生成式AI服务完成备案，306款应用或功能完成登记。公告强调，企业需在产品详情页面显著公示所使用的已备案服务信息，以促进透明度和规范应用。
Gemini 3 Pro在历史手稿破译方面实现惊人突破，其字符错误率（CER）仅0.56%、词错误率（WER）1.22%，已接近或达到专业人类转录水平，相较于前代模型提升50%–70%。更令人震撼的是，它展现出隐含推理能力，能够自主补全缺失语境并进行跨历史货币与重量单位的多步换算，似乎跨越了专家认为现有架构无法逾越的界限。
据报道，战争部取消了1962年的规划、编程和预算系统（PPBS），选择将速度置于成本优化之上。
一位开发者分享了在构建企业软件方面具备能力，但在收费方面遇到困难的经历。
一位用户表达了自己对理想中加入公司的类型的愿景和期待。
Pikaday发布了一份针对前端日期选择器的友好指南，旨在提供便捷的开发参考。
Replit创始人Amjad Masad接受了印度顶级商业报纸的采访，其AI编程平台Replit在数月内从280万美元增长到1.5亿美元的年经常性收入，估值达30亿美元，是全球第三大AI工具。
阿里云的通义系列模型在今年的**“双11”电商节中首次实现了大规模应用**，淘宝天猫在多个关键环节全面采用AI大模型技术。其中，包括通义Qwen-MT在内的翻译模型单日调用量突破14亿次，显著提升了亿级商品信息和用户评价的跨语种处理效率。
Perkeep是一个旨在提供个人生命存储系统的项目，强调数据的长期保存和管理。
有用户反映，Mistral AI的**“Think mode”在启用时，模型回答会变得简短而干涩，并忽略了系统提示词**的指导，对此表示不解，询问是否为故意设计。
据《金融时报》报道，Meta首席AI科学家Yann LeCun计划离职创办新公司，专注于世界模型研究。此举正值Meta重组其AI部门，以应对OpenAI和谷歌等竞争对手的压力，LeCun此前对当前AI技术，特别是大型语言模型的过度宣传持怀疑态度。
TrendRadar是一个开源的AI舆情监控分析工具，能聚合35个平台的热点信息（如抖音、知乎、B站），通过智能筛选、自动推送和AI对话分析（提供13种工具，如趋势追踪、情感分析）帮助用户理解新闻热点。它支持多种推送方式，易于部署且无需编程。
adk-go是谷歌发布的一个开源、代码优先的Go工具包，旨在帮助开发者灵活可控地构建、评估和部署复杂的AI代理。
strix是一个开源的AI赋能工具，旨在为应用程序提供强大的AI功能。
open-source-games是一个整理了大量开源游戏的列表项目。
ChinaTextbook是一个提供中国中小学及大学PDF教材的项目。
论文《Towards Embodied Agentic AI》回顾并分类了由大型语言模型（LLMs）和视觉语言模型（VLMs）驱动的机器人自主性和人机交互进展。该调查论文着重于AI代理作为协调者、规划者或通用接口的代理架构，并提出了一种分类模型集成方法的新分类法。
论文《EHRStruct》提出了EHRStruct，一个全面的基准测试框架，用于评估大型语言模型（LLMs）在结构化电子健康记录（EHR）任务上的表现。该框架定义了11个代表性任务和2200个评估样本，并评估了20个LLMs，结果显示结构化EHR任务对LLMs的理解和推理能力要求很高，因此提出了代码增强方法EHRMaster以实现领先性能。
论文《Fast Multi-Organ Fine Segmentation in CT Images with Hierarchical Sparse Sampling and Residual Transformer》提出了一种快速多器官精细分割框架，结合分层稀疏采样和残差Transformer，用于CT图像中的3D医学图像分割。该方法在保证分割性能的同时，显著缩短了计算时间（CPU上约2.24秒），展现了实现实时精细器官分割的潜力。
论文《WaterMod: Modular Token-Rank Partitioning for Probability-Balanced LLM Watermarking》引入了WaterMod，一种通过模块化令牌排名分区实现概率平衡LLM水印的新方法。它通过对词汇表按概率排序并进行模k分区，确保在嵌入可检测信号的同时保持生成内容的流畅度，支持二进制归因和多位有效载荷，并在多项任务中展现出强大的水印检测和生成质量保持能力。
ElevenLabs发布了Scribe v2 Realtime，这是一款实时语音转文本模型，专为语音智能体、会议记录和实时应用设计。其核心亮点包括超高准确性与速度（实时转录延迟仅150毫秒），在复杂场景中表现出色；支持90多种语言；并符合多项国际安全与合规标准，提供零数据保留模式。
针对AI泡沫的讨论，有观点认为AI的进展可能更像是一个阶跃函数式的S曲线，目前正进入现有范式的平台期，导致模型能力提升放缓。从宏观尺度看，AI进步由不同S曲线范式组合驱动，每个范式都经历从低估到高估、从革命到泡沫的过程，构成真正的Scaling law。作者认为，尽管短期需谨慎，但长期应对AI的未来保持信心和耐心。
在为AI设计工具时，应将AI视为**“用户”而非"程序”。传统的做法是将后端API直接封装给AI，导致AI需要多次调用并自行拼凑信息。正确的做法是，工具应对标UI**，后台完成多个API调用后，向AI返回渲染好、易于理解的最终结果。
一位开发者分享了在使用Anthropic的"用MCP执行代码”文章后的"灵光一现”，尝试将所有MCP（Multi-Context Processing）任务抛给子Agent，以避免占用主Agent的上下文窗口。然而，此举依然大量消耗Token，很快触及Claude的使用上限，最终不得不将这部分处理MCP的工作转移给**“gemini-cli”**。
归藏(guizang.ai)分享了Gemini 3 Pro在历史文件破译方面的卓越表现，其字符错误率（CER）0.56%、词错误率（WER）1.22%，已接近**“专家人类水平”，较前代提升50-70%。该模型不仅能识别复杂手写字体，甚至在模糊数字情境下展现出隐含推理能力**，进行多步换算，似乎跨越了传统模型难以逾越的界限，预示着一种统计模型内部感知、记忆与逻辑自发结合的新型推理机制的诞生。
小互分享了一个为Gemini 2.5 Pro设计的详细提示词，旨在帮助其在Hacker News或Reddit等高信息密度的讨论帖中提取精华内容。该提示词将模型定位为"Hacker News洞察家与社区编辑”，要求其理解上下文、筛选高价值评论、提炼核心议题并撰写结构清晰、洞见深刻的中文博文，强调"过滤噪音，提炼精华”和"读者导向”的写作风格。

Last updated on 2025/11/15 03:04:50

11-13-日报 11-11-日报