很多朋友不知道【苹果AI图像处理新突破:一秒2D转3D 还可评价P图效果】,今天小绿就为大家解答一下。
苹果在2025年12月发布了一项名为《Sharp Monocular View Synthesis in Less Than a Second》的研究,详细介绍了一个名为SHARP的开源AI模型,且已公开在GitHub上。该模型能够在不到一秒的时间内,将单张2D图像转换为3D场景。

研究使用了涵盖20个内容类别的上千个编辑示例,测试了包括MGIE、OmniGen和GPT-Image 1在内的多个模型。研究发现,OpenAI的GPT-Image-1模型综合表现最佳。研究指出,虽然GPT-Image-1在执行核心编辑方面能力很强,但在空间关系的细粒度控制和内容保真度上仍有提升空间。

苹果的另一项研究关注AI模型对不同语言,特别是形态丰富语言的理解能力。研究人员指出,AI模型通常难以处理这类语言,且“这些模型在多大程度上真正掌握了这些语言的底层语言复杂性仍不清楚”。

三、IMPACT:评估AI对多语言形态复杂性的理解
研究人员在大型数据集上训练SHARP,使其能够预测3D场景的深度并生成相应的高斯表示。在多数情况下,模型表现成功,但也存在一些失败案例,例如物体被渲染在错误位置(如蜜蜂被放在花朵后面而非上面),或将天空误判为附近的曲面。研究评估了8个多语言大语言模型。测试分为两种场景:一是让模型预测正确的词形变化(生成任务),二是让模型判断给定语句是否语法正确(判断任务)。模型需要完成填空测试,并扮演“法官”角色。为此,苹果开发了IMPACT框架,专门评估大语言模型在阿拉伯语、俄语、芬兰语、土耳其语和希伯来语中,输出是否符合其屈折形态学规则的能力。屈折形态学涉及通过词缀改变单词以适应特定语法结构(如名词的数、动词的时态)。苹果的研究人员还设计了一个用于评估文本引导图像编辑AI模型的框架。该框架从两个核心维度对模型输出进行评分:一、SHARP模型:一秒内从2D图像生成3D场景SHARP被描述为“从单张图像进行逼真视图合成的方法”。给定一张图像,它会“回归出所描绘场景的3D高斯表示参数”。与使用三角形表示3D场景的传统方法不同,高斯表示通过数百万个椭球体或“斑点”来渲染体积,共同构成3D图像。通常,创建此类3D表示需要从不同角度拍摄同一物体的多张照片,但SHARP仅需单张图像,并通过神经网络的一次前向传播即可完成。
苹果AI
二、GIE-Bench:文本引导图像编辑的评估框架【CNMO科技消息】近期,苹果在人工智能(AI)驱动的图像处理领域发布多项重要研究成果。据CNMO了解,这些成功涵盖从单张图像快速生成3D场景、文本引导图像编辑的评估,到对多语言复杂形态的理解测评。图像保真度:采用对象感知的掩码技术和保真度评分,确保图像中非目标区域不被意外更改。从以上成果来看,虽然苹果AI团队近期有所变动,但公司在人工智能研究上的步伐并未放缓。从快速3D重建、图像编辑评估到多语言理解测评,这些研究不仅推动了技术进步,也为苹果自身产品(如Apple Intelligence、Image Playground图像生成工具及实时翻译功能)的迭代优化提供了坚实基础。市场也期待其结合上下文感知的Siri版本随未来系统更新而推出。结果表明,大多数AI模型都难以处理不常见的形态模式,尤其是在判断不合语法的例句时。尽管某些模型在某一种语言上表现相对较好,但在所有测试语言中的表现均逊于其在英语上的表现。这项研究为苹果评估其内部模型(如用于实时翻译的模型)在处理形态复杂语言时的性能提供了工具。功能正确性:通过自动生成的多选题来验证请求的编辑是否被成功执行。版权所有,未经许可不得转载
以上问题已经回答了。如果你想了解更多,请关
新经网网站 (
https://www.xinhuatone.com/)