OCR的“轻骑兵”突袭:当腾讯混元,用10亿参数,重塑“文字识别”
腾讯混元开源全新OCR模型HunyuanOCR,仅10亿参数却斩获多项SOTA成绩。该模型采用端到端设计,在复杂文档解析、多场景文字检测识别中表现卓越,支持14种小语种翻译并荣获ICDAR2025冠军。轻量化架构便于部署,已应用于卡证处理、视频创作等场景,用户可通过GitHub和Hugging Face快速体验。
Google Assistant将于2026年3月正式退役:Gemini完成全平台接管
谷歌官方宣布Google Assistant将于2026年3月31日正式退役,Gemini将全面接管语音助手服务。文章详细介绍了从2024年12月到2026年3月的关键迁移时间表,包括功能切换、平台更新和数据迁移安排。Gemini相比Assistant拥有更强大的功能,支持100万tokens上下文、跨应用任务执行和屏幕理解,将为用户带来更智能的语音交互体验。
一台售价14999元的七轴机械臂,试图为具身智能研究铺设“高速公路”
松灵机器人推出NERO轻量化七轴机械臂,专为具身智能研究和复杂科研场景设计。该机械臂采用7自由度冗余构型,重量仅4.8kg却具备3kg负载能力,重复定位精度达±0.1mm。以14999元的颠覆性价格解决了传统机械臂笨重、昂贵的问题,支持灵活部署和跨场景实验,适用于生物医学、材料科学等多个科研领域。
AI的“反iPhone”时刻:当奥特曼与艾维,联手打造一个“没有屏幕”的未来
OpenAI CEO Sam Altman与前苹果设计总监Jony Ive联合宣布首款AI硬件原型已完成。这款口袋大小的无屏设备通过语音与情境感知交互,追求静谧简约体验,能智能判断何时推送信息。产品预计两年内上市,将深度集成ChatGPT技术,被视为对苹果生态的直接挑战,有望重塑人机交互方式。
AI算力的“B计划”:当AMD与IBM联手,用1024张MI300X,炼出了第一个“非NVIDIA”大模型
AMD携手IBM与Zyphra发布全球首个纯AMD硬件训练的大模型ZAYA1,采用MoE架构预训练14T tokens,性能与Qwen3系列持平。ZAYA1创新性采用CCA注意力机制和线性路由MoE,在数学推理等STEM领域表现优异,验证了AMD MI300X+ROCm在大规模模型训练中的可行性。
AI推理的“新王”驾到?当xLLM-Core,用20毫秒的延迟,向vLLM发起挑战
xLLM社区将于12月6日举办首届线下Meetup,重磅发布自研开源推理引擎xLLM-Core。该引擎支持MoE、文生图、文生视频全场景,通过统一计算图和Mooncake缓存方案实现P99延迟低于20ms,较vLLM性能提升42%,吞吐量提升2.1倍。现场将分享京东双11实战案例,展示峰值每秒40k请求处理能力,并发布Apache 2.0开源版本。
当亚马逊云,开始为你,一键部署OpenAI的开源模型
AWS推出Amazon Bedrock Custom Model Import功能,支持用户轻松部署GPT-OSS开源模型,包括20亿和120亿参数变体。该功能自动处理GPU配置、推理服务器搭建和扩展,用户仅需上传模型文件至S3即可。保持OpenAI API兼容性,实现应用无缝迁移,代码更改极少,让企业专注于应用开发。
AI的“印度淘金热”:当谷歌与Accel联手,开始“预购”下一个AI浪潮
谷歌在其AI笔记工具NotebookLM中新增了幻灯片生成器和信息图功能,基于Nano Bana Pro模型(Gemini3Pro图像生成),可将笔记快速转换为简洁的演示幻灯片,帮助用户高效整理内容、生成草稿并增强视觉效果。目前支持导出为PDF,未来将扩展至Google Slides和PowerPoint格式。
MrBeast门徒的“红海突围”工具:为什么他们甘愿为这个AI副驾支付250美元/月?
前MrBeast内容策略师Jay Neo推出AI短视频工具Palo,专为10万+粉丝创作者设计,月费250美元。该工具整合GPT-4o和Claude3.5技术,提供AI创意规划、实时数据监测和社区AB测试功能,帮助用户预测热门话题、优化视频内容。内测显示用户月均观看量提升22%,已获380万美元种子轮投资,计划2026年扩展至更广泛创作者群体。
机器人的“楚门世界”:用第一视角视频喂养的AI,将永远活在人类的“主观现实”里
加州大学圣地亚哥分校团队开发Human0机器人操控基础模型,通过1000小时人类第一视角数据集PHSD和两阶段训练框架,解决了机器人泛化能力不足的问题。模型采用'野生场景+任务导向'数据组合,结合域对抗判别器技术,使机器人能够理解未见过的语言指令并通过少量演示快速学习新技能,在人形机器人实测中展现出优秀的适应性和性能。