新搜媒体运营技术网

博文内容

新媒体运营,电商运营,市场营销,营销策略,新媒体运营,APP推广,直播带货,微信运营,短视频脚本,市场推广,移动互联网,各类文案,抖音运营

微软的研究团队近日推出了一种被称为 “大型行动模型”

新搜记述(https://www.xiseox.com/)2025年04月13日讯息：

微软的研究团队近日推出了一种被称为 “大型行动模型”（Large Action Model，简称 LAM）的人工智能技术，标志着 AI 的发展迎来了新的阶段。与传统的语言模型如 GPT-4o 不同，LAM 能够自主操作 Windows 程序，这意味着 AI 不仅仅能对话或提供建议，而是能真实地执行任务。

LAM 的优势在于其能够理解用户的各种输入，包括文字、语音和图像，然后将这些请求转化为详细的步骤计划。LAM 不仅能制定计划，还能根据实时情况调整其行动策略。构建 LAM 的过程主要分为四个步骤: 首先，模型学习将任务分解为逻辑步骤;接着，通过更先进的 AI 系统（如 GPT-4o）学习如何将这些计划转化为具体行动;然后，LAM 会独立探索新的解决方案，甚至解决其他 AI 系统无法应对的问题;最后，通过奖励机制进行微调训练。

在实验中，研究团队以 Mistral-7B 为基础构建了一个 LAM 模型，并在 Word 测试环境中进行测试。结果显示，该模型成功完成任务的概率为 71%，相比之下，GPT-4o 在无视觉信息的情况下的成功率为63%。

此外，LAM 在任务执行速度上也表现优异，每个任务仅需30秒，而 GPT-4o 则需要86秒。虽然在处理视觉信息时，GPT-4o 的成功率提高至 75.5%，但总体来看，LAM 在速度和效果上均有显著优势。

为了构建训练数据，研究团队最初收集了29，000对任务和计划的示例，这些数据来自微软文档、wikiHow 文章和必应搜索。之后，他们利用 GPT-4o 将简单任务转化为复杂任务，从而将数据集扩展到76，000 对，增加了150%。最终，约2，000个成功的行动序列被纳入到最终的训练集中。

尽管 LAM 展示了其在 AI 发展中的潜力，研究团队仍然面临一些挑战，如 AI 行动可能出错的问题、监管的相关问题，以及在不同应用中扩展和适应的技术限制。不过，研究人员相信，LAM 代表了 AI 发展的一次重要转变，预示着人工智能助手将能更积极地协助人类完成实际任务。

来源：佚名

网友提供内容
2025年04月15日 (阅读:95次)

网友评论：

暂时没有人评论

...

登陆用户可以发表评论

博文内容

更多相关内容...

1.

2.

3.

4.

5.

6.

7.

8.