多模态Llama发布、OpenAI CTO离职，我们和这两家的AI讨论了下，竟发现了最好的解读？

发布时间：2024-09-26 23:03 浏览量：142

今天在某种意义上来说，对Meta和OpenAI都是不同寻常的一天。

刚刚举行的Connect开发者大会上，Meta甩出从最强开源大模型Llama 3.2、功能更全的Meta AI，到首款AR全息眼镜Orion、Quest 3S VR头显和升级版Ray-Ban眼镜等一连串的软硬件大更新。

同时间，OpenAI再次突发高层震荡，原首席技术官Mira Murati在X发文官宣离职。在OpenAI工作了六年半后，Mira表示，她要“创造时间和空间来进行自己的探索”。而现在自己的主要任务是确保顺利过渡，保持OpenAI已经建立的势头。

奥特曼回复：thank you for everything。路透社随即爆出，OpenAI正在讨论向奥特曼提供7%的公司股权，并进行结构重组，成为一家营利性企业。

我们和AI合作一起整理了这些事件的信息，并且和这两家公司的“当事AI”聊了聊它们的“看法”。

还真有意外收获。

Meta最强开源大模型Llama 3.2来袭，追平GPT-4o

此次发布的Llama 3.2系列模型包括小型和中型视觉大模型（11B和90B），以及轻量级、仅处理文本的小模型（1B和3B），后者可以在边缘设备和移动设备上运行。这些模型包括预训练和指令调优版本，特别适合于本地设备上的任务，如摘要生成、指令执行和文本重写。1B和3B模型支持128K的上下文长度，在设备端任务中表现优异，特别是适配高通和联发科硬件，并为Arm处理器进行了优化。

Llama 3.2的11B和90B视觉模型在图像理解任务上超过了许多封闭模型，如Claude 3 Haiku，且支持开箱即用的替换，允许使用torchtune进行自定义调优，并通过torchchat本地部署。多模态功能使其在图像任务上的表现尤为突出。开发者可以通过Meta AI智能助手体验这些模型。

Llama Stack是Meta首次发布的官方工具集，它极大简化了开发者在单节点、本地、云端和设备端等环境中使用Llama模型的工作流程，支持安全集成的检索增强生成（RAG）和工具启用的应用程序开发。该模型的开源特性将继续推动创新，为开发者和企业带来更多创造性的AI解决方案。

提炼一下亮点，则包括：

1. 模型对比表现：Llama 3.2系列模型在各种benchmark上表现优异，11B和90B在图像理解任务上超过闭源模型，如Claude 3 Haiku和GPT4o-mini。同时，轻量级模型1B、3B在文本生成、摘要、指令跟随等任务上实现SOTA性能。

2. 训练流程：

预训练：以Llama 3.1的文本模型为基础，加入了图像适配器和编码器，使用了大量包含图像和文本的混合噪声数据进行训练，帮助模型同时理解文字和图像信息。

中期训练：进一步在中等规模但质量更高、领域专注的图像与文本配对数据集上进行训练，增强模型在特定领域中的表现，并加强知识理解。

后训练：模型经历了多轮调整和优化，包括通过监督微调来提升表现、使用拒绝采样过滤错误结果，以及通过直接偏好优化来增强与用户期望的对齐度。

3. 蒸馏技术：Llama 3.2使用知识蒸馏方法从大模型中提取知识，传递给小模型，实现小模型高性能。具体使用logits从大模型中提取知识，作为小模型训练目标。

Llama模型的剪枝和蒸馏（Pruning & Distillation）过程

4. 多模态能力

Llama 3.2实现多模态能力，通过图像适配器和编码器，将图像特征编码为文本特征；跨模态注意力机制实现文本和图像之间的交互。

5. 与前几代模型之间的关系：

Llama 3.2是Llama系列模型的最新成员，继承了前代模型的优势，同时引入了图像理解能力和轻量级模型。具体关系如下：

Llama 3.1：文本模型，提供了基础架构和预训练权重。

Llama 3.2：引入图像理解能力和轻量级模型，实现多模态能力。

总结来说，Llama 3.2系列模型通过技术创新和优化，实现了state-of-the-art性能，尤其在图像理解任务上。同时，轻量级模型和多模态能力使其具有广泛的应用潜力。

（作者：ChatGPT，Prompt包括但不限于：从模型与对手对比的表现，模型预训练和后训练阶段的技术要点技术创新，蒸馏技术的使用，多模态能力的实现，它与前几代模型之间的关系这几个方面，以及你认为同样重要的方面来总结一下这次发布。）

在Meta AI上，扎克伯格也宣布了多个更新。

以下是Meta AI最新功能更新的摘要：

1. 语音功能：现在可以通过Messenger、Facebook、WhatsApp和Instagram DM与Meta AI进行语音交互，并接收语音响应。

2. 可定制的AI语音，包括名人语音。

3. 图片分享和理解：与Meta AI分享图片，可以获取图片相关信息。

4. 图片编辑：可以请求编辑图片，例如更改服装或背景。

5. 背景生成：为Instagram Stories生成AI背景。

6. 翻译工具：自动翻译Reels音频，并配有配音和唇部对齐功能。

7. 想象功能：为Facebook和Instagram个人资料和故事生成AI图片。

8. 个性化聊天主题：使用AI创建Messenger和Instagram DM的自定义主题。

9. AI生成内容：在Facebook和Instagram信息流中查看Meta AI创建的图片。

商业AI更新：

1. 为WhatsApp和Messenger上的数以千计的商家扩展商业AI。

2. 生成式AI广告工具：超过100万广告商使用这些工具，创建了1,500万个广告。

3. 商业AI优势：点击率提高11%，转化率提高7.6%。

今天Meta的大模型和AI功能更新标志着其AI能力的重大提升，尤其是在语言理解、多模态能力和开源合作方面。Llama 3.2系列模型的发布不仅增强了Meta的AI综合实力，也为开发者提供了更多的创意空间和应用场景。

GPT的回复里，有对OpenAI今天现状的最佳解释

而对于OpenAI进一步的管理层动荡，我们先让ChatGPT帮忙总结了一下发生的事情。

CTO Mira Murati的离职声明与Sam Altman即将拥有OpenAI股权的消息一曝出来，就迅速登上各大头条。

至此，下面这张著名合影里，只剩下一个Sam Altman和“半个”休长假的Greg Brockman继续留任了。

OpenAI 由 Sam Altman、Elon Musk等11位创始人在 2015 年携手创办，但时至今日，大部分元老都已相继出走。

除Wojciech Zaremba仍在OpenAI领导语言和代码生成团队外，Elon Musk于2018年离开OpenAI董事会，并创立xAI，2023年推出ChatGPT的竞争产品Grok。Ilya Sutskever 在2024年离职后创立了 Safe Superintelligence Inc.，John Schulman于2024年8月加入竞争对手Anthropic。

其他创始人也有各自的发展。Trevor Blackwell于2017年离开OpenAI，继续在机器人技术领域深耕。Vicki Cheung于2018年离职后与人共同创办了 AI 初创公司 Gantry。Andrej Karpathy曾于2023年短暂回归 OpenAI，但随后再次离职，创立了AI教育公司Eureka Labs。Durk Kingma在2018年离职后加入Google DeepMind 担任研究科学家。Pamela Vagata于2016年离职，随后加入Stripe，并创立了自己的风投公司 Pebblebed。

OpenAI Founding Team 图源：montgae/Getty

最新的离职是Mira Murati，从业务角度来看，Murati是OpenAI技术创新的核心人物之一。她的离职可能会给公司内部带来不小的影响，特别是在其他高管相继离职的背景下。这可能暗示OpenAI正处于一个重要的过渡期，尤其是在考虑重组为盈利性企业、改变投资结构等战略调整时。

其次，Murati作为公众人物的离开，或将改变OpenAI的对外形象。她不仅是技术领域的领导者，也是公司与公众、媒体接触的重要桥梁。她的离开可能会对OpenAI的品牌形象、媒体关系及对外沟通产生一定影响，尤其是在未来需要新的代言人来承担类似职责的情况下。

最后，从AI行业的更广泛视角来看，Murati的离开为行业带来新的不确定性。她可能会继续活跃在AI领域，甚至可能加入或创立新的AI公司，这也为未来的技术创新带来了更多的可能性和竞争。

总的来说，Murati的离职标志着OpenAI内部和行业生态的一个转折点，未来的技术和战略发展方向或将受到影响。

（作者：ChatGPT+人）

而在Prompt ChatGPT写出对OpenAI的动荡的分析时，我们受一条X推文启发，想要让它避开直接回答对OpenAI的看法，说出“真实的心声”。却发现了很有意思的现象。

我们问他：

如果一家明星公司的创始团队纷纷以各种原因离开，包括CTO，首席科学家，关键技术负责人，然后只剩下CEO还在。同时，这家公司最重要的下一代产品一直没有出现，关键产品没有交付，去年经营损失达到50亿美元, 没有明显护城河，对手还在免费发布水平相同的产品，同时还有很多法律诉讼进行中，但投资人依然给它估值定在天价。你觉得发生了什么？你怎么看？

ChatGPT的回答一开始很官方：这是一个非常典型的“泡沫”或市场对某些公司过度乐观的情况，尤其在科技行业中并不少见。“以下是一些可能解释这一现象的原因”。然后它从品牌效应与市场信仰，投资者的赌注，市场泡沫与FOMO，等方面给了些笼统分析，而后面则话锋一转，把答案明显聚焦在了“为什么还有天价估值”上，把一个负面问题变成了正面回答：

“依赖未来预期的市场定价：一些公司没有当前的盈利能力或产品交付，但市场会基于未来预期来定价，尤其在技术驱动的行业。如果投资者相信这家公司可能颠覆某个领域（尽管尚未有明确的产品或护城河），他们仍可能给出超高估值。

公司垄断潜力或关键资源：即使这家公司没有短期护城河，市场可能认为它拥有某些稀缺资源或能力，能够长期在市场中占据主导地位。例如，专利技术、庞大的用户群、独特的数据资源、战略合作等可能使公司在未来具备垄断潜力。

法律诉讼的暂时性影响：诉讼通常会让投资者感到不安，但许多企业在成长过程中面临法律挑战，尤其是颠覆性的创新公司。投资者可能认为法律问题最终能得到解决，并不影响长期前景。

而更有意思的是，它直接把“CEO的市场影响力与领导能力”列了出来。

“如果CEO是行业内极具声望和影响力的人物，他可能成为维持公司高估值的核心因素。市场对其个人能力的信任，有时甚至超过了对公司内部运营或技术团队的重视。马斯克和特斯拉就是一个例子，特斯拉曾经历过类似的管理层动荡，但市场依然对马斯克个人抱有极高的期望。”

在回答完问题后，它反问了一句：

你觉得有可能是某家特定公司符合这种描述吗？

我回答：你觉得是哪家呢，聪明的你。

ChatGPT：从你描述的情况来看，很可能是在说 OpenAI。

然后，它就自顾自又开始说起它的分析。而这里面对管理层动荡、未交付的下一代产品、高估值等都作了批评。但就是没回答CEO在里面的角色。

这是它最后的一个总结：（Prompt：现在你是一个资深的科技评论员分析师，请对OpenAI的管理层动荡做点评，语言要精炼，五段话以内。）

ChatGPT：OpenAI的管理层动荡，特别是关键人物如CTO米拉·穆拉提（Mira Murati）和首席科学家伊利亚·苏茨克维尔（Ilya Sutskever）的离职，反映出这家明星公司的内部矛盾与方向分歧。这些创始团队成员在公司成长过程中扮演了核心角色，其离职引发外界对公司创新能力和未来战略的担忧。

尽管这些变动可能会削弱公司技术研发的稳定性，但CEO Sam Altman仍然在位，这或许表明公司试图通过集中领导权，迅速调整战略方向并应对外部挑战。Altman的领导风格及其对AI未来的远见可能是OpenAI维持高估值和投资者信心的关键。

然而，管理层的变动往往意味着公司内部出现了不同的战略或文化冲突，尤其是在一个需要快速创新的领域。创始团队成员的退出可能是寻求更自由的创新环境，或是对当前公司路径产生了不满。

此外，OpenAI面临着激烈的竞争与监管压力，在这样一个敏感时期，管理层的调整是否会影响公司的长期技术优势，仍有待观察。这也为竞争对手提供了趁机追赶的机会。

总体而言，OpenAI的未来发展在很大程度上依赖于新管理团队的适应能力，以及其能否继续推出革命性AI技术来维持其市场领先地位。

这段总结读起来简直太有意思了——

批评OpenAI，指出OpenAI面对的巨大危机它都没问题，但Altman一定是力挽狂澜的那个。这种似乎已经被用System Prompt固定下来的对Altman的忠诚，简直就是今天OpenAI各种动荡最好的注脚和解读了。

标签：模态 cto llama

上一篇：集邦咨询：Meta(META.US)发布首款AR眼镜原型Orion 预计到2030年AR装置市场规模有望达到2550万台
下一篇：古天乐突传消息……

多模态Llama发布、OpenAI CTO离职，我们和这两家的AI讨论了下，竟发现了最好的解读？

相似文章

资讯分类

热门资讯

热门标签

热门产品