Motiff 妙多出席 2025QCon 大会自研 UI 大模型加速设计工具创新

fjmyhfvclm2025-01-28  3

随着大模型加速应用落地,提高模型训练效率成为更受关注的议题。在 10 月 18 日召开的2024QCon 大会上,Motiff 妙多 AI 负责人赵薇分享了国内首个 UI 大模型的开发经历。赵薇介绍,相比于常见的“大力出奇迹”做法,Motiff 妙多选择了“四两拨千斤”。凭借高质量的专业数据和个性化的模型架构,Motiff 妙多大模型在效果和能力上超越了 GPT-4o 和苹果的 Ferret UI,并追平了训练数据多 40 倍的 Google ScreenAI 大模型。

wecom-temp-2002435-02e4a23e542e2f390a7ba3838ed89235

(Motiff 妙多 AI 负责人赵薇 QCon 演讲现场)

Motiff 妙多大模型在数据、模型架构和训练方法上进行了多次创新。UI领域的训练数据比通用领域少一个量级,Motiff 妙多通过提高知识密度、生成合成数据,构建了一批优质UI 数据,并根据UI 领域需求个性化调整模型架构。这些调整使得 Motiff 妙多大模型适配 UI 领域特点,具备“支持输入高清”、“保持图片长宽比”和“精准定位”三大优势。

“基于自研大模型,我们能以较低成本快速孵化 AI 应用。”赵薇表示,自研大模型加持下,Motiff 妙多开创了 AI 复制、 AI 设计系统等功能,AI 生成 UI 功能也迅速跻身行业前列。Motiff 妙多大模型不失为一个典型的样本:当通用大模型在专业领域“失灵”时,AI 应用企业如何通过自研领域大模型助力应用创新?

大模型对齐训练“少即是多”,数据质量是关键

当前,通用大模型在处理复杂任务和理解多种数据方面表现出色,但在特定领域依然存在明显的局限性。例如,GPT-4 在 UI 领域错误率超过 70%,理解和生成用户界面表现不佳。作为AI 时代设计工具,Motiff 妙多需要构建一个“UI 知识体系完整”和“UI 技能丰富”的专业大模型。

构建大模型的首要问题是数据。为克服 UI 领域高质量图片数据量较小、数据任务不够丰富的挑战,Motiff 妙多通过增加知识密度和加入基于专家模型生成的合成数据,构建了一批高质量、具有专业知识的 UI 数据。

“数据量少并不是问题,高密度才是关键。”赵薇表示,在领域迁移中,不用海量的 UI 领域对齐数据,依然可以实现有效对齐。

如何提高信息密度?Motiff 妙多对 UI 数据进行了多维度的内容分析和层次结构描述。对每张 UI 图片,Motiff 妙多从布局、组件、功能、视觉效果和设计风格等多维度深入分析,并增加了 UI 特有的结构和定位知识。在随机采样的 1 万条数据中,每张图片的描述 token 数量从 20 增长到 628,信息密度提升了 30.4 倍。

企业微信截图_f28107cf-40fe-492c-98f3-643d792b2758

在生成合成数据过程中,Motiff 妙多引入了多个专家模型,将大量的专家知识提炼到合成数据中。以图标描述数据的合成为例,在整合人类专家知识后,Motiff 妙多的数据更加细粒度且情境相关。比如,针对“爱心”图标,Google 的 ScreenAI大模型只能描述图标类别,而Motiff 妙多大模型能够生成具体的功能描述,如“收藏按钮”。

截屏2024-10-18 05.54.51

(通过长期积累的专家模型,为合成数据注入大量专业知识)

丰富多样、接近真实世界的数据使得训练出的模型具备解决复杂问题的能力。在五个行业公认的 UI 能力基准测试集中,Motiff 妙多大模型的各项指标均超过了 GPT-4o 和苹果的 Ferret UI,多项指标追平谷歌的 ScreenAI ,并在 Screen2Words(界面描述与推断)和 Widget Captioning(部件描述)两大指标上超越了 ScreenAI 。要知道,ScreenAI 在训练时用了近4 亿条训练数据,相比之下,Motiff 妙多大模型所用的训练数据不到其 2%。

强化领域模型优势,快速孵化AI 功能

在完成数据收集与构建后,便进入模型基座与训练阶段。多模态大模型在近年来快速发展,但大多缺乏对 UI 领域的特殊适配。赵薇指出,通用模型在 UI 领域容易出现文字识别幻觉和定位偏移,这让 Motiff 妙多团队更加重视视觉编码器和位置感知训练。

通用视觉编码器在处理高分辨率和复杂布局时有明显的缺陷,容易导致信息丢失。因此,Motiff 妙多采用切图策略,将高清图片切成多张小图送入模型,确保信息完整并提升细节敏感度。

配图 4

(Motiff 妙多大模型架构)

Motiff 妙多通过保持长宽比和精准定位,进一步增强模型表现。通用大模型通常忽视了精准定位的能力,而 Motiff 妙多通过补充切割后小图的位置信息,提升了模型的位置感知。

通过改进模型基座,Motiff 妙多大模型更适配 UI 领域任务,具备“支持输入高清”、“保持图片长宽比”、“精准定位”三大优势,能更好地理解和处理UI 设计中的复杂元素。

“基于大模型的 AI 应用有启动成本低、算法建模简单、任务更加复杂等特点。”赵薇说。以 Motiff 妙多大模型为底座,团队迅速开创和升级了 AI 设计系统、AI 生成 UI 等功能。

企业微信截图_6af7fe33-694e-43a3-9d25-485927a996b7

以 Motiff 妙多首创的 AI 设计系统功能为例,该功能能精确定位并理解设计稿中的所有设计组件。对于难以区分的组件(如 button 和 tag),Motiff 妙多大模型都能准确识别,准确率提升至 95% 以上。

赵薇称,Motiff 妙多计划在未来持续迭代大模型技术。实践证明,AI 在 UI 设计中的应用潜力巨大,Motiff 妙多将致力于 AI 与 UI 设计的深度融合,为设计师提供更高效、更智能的设计工具,推动 UI 设计行业变革。

转载请注明原文地址:https://www.gamev918.cn/tech/1390203.html