多模态Llama发布、OpenAI CTO离职,我们和这两家的AI讨论了下,竟发现了最好的解读?

发布时间:2024-09-26 23:03  浏览量:3

今天在某种意义上来说,对Meta和OpenAI都是不同寻常的一天。

刚刚举行的Connect开发者大会上,Meta甩出从最强开源大模型Llama 3.2、功能更全的Meta AI,到首款AR全息眼镜Orion、Quest 3S VR头显和升级版Ray-Ban眼镜等一连串的软硬件大更新。

同时间,OpenAI再次突发高层震荡,原首席技术官Mira Murati在X发文官宣离职。在OpenAI工作了六年半后,Mira表示,她要“创造时间和空间来进行自己的探索”。而现在自己的主要任务是确保顺利过渡,保持OpenAI已经建立的势头。

奥特曼回复:thank you for everything。路透社随即爆出,OpenAI正在讨论向奥特曼提供7%的公司股权,并进行结构重组,成为一家营利性企业。

我们和AI合作一起整理了这些事件的信息,并且和这两家公司的“当事AI”聊了聊它们的“看法”。

还真有意外收获。

Meta最强开源大模型Llama 3.2来袭,追平GPT-4o

此次发布的Llama 3.2系列模型包括小型和中型视觉大模型(11B和90B),以及轻量级、仅处理文本的小模型(1B和3B),后者可以在边缘设备和移动设备上运行。这些模型包括预训练和指令调优版本,特别适合于本地设备上的任务,如摘要生成、指令执行和文本重写。1B和3B模型支持128K的上下文长度,在设备端任务中表现优异,特别是适配高通和联发科硬件,并为Arm处理器进行了优化。

Llama 3.2的11B和90B视觉模型在图像理解任务上超过了许多封闭模型,如Claude 3 Haiku,且支持开箱即用的替换,允许使用torchtune进行自定义调优,并通过torchchat本地部署。多模态功能使其在图像任务上的表现尤为突出。开发者可以通过Meta AI智能助手体验这些模型。

Llama Stack是Meta首次发布的官方工具集,它极大简化了开发者在单节点、本地、云端和设备端等环境中使用Llama模型的工作流程,支持安全集成的检索增强生成(RAG)和工具启用的应用程序开发。该模型的开源特性将继续推动创新,为开发者和企业带来更多创造性的AI解决方案。

提炼一下亮点,则包括:

1. 模型对比表现:Llama 3.2系列模型在各种benchmark上表现优异,11B和90B在图像理解任务上超过闭源模型,如Claude 3 Haiku和GPT4o-mini。同时,轻量级模型1B、3B在文本生成、摘要、指令跟随等任务上实现SOTA性能。

2. 训练流程:

预训练:以Llama 3.1的文本模型为基础,加入了图像适配器和编码器,使用了大量包含图像和文本的混合噪声数据进行训练,帮助模型同时理解文字和图像信息。

中期训练:进一步在中等规模但质量更高、领域专注的图像与文本配对数据集上进行训练,增强模型在特定领域中的表现,并加强知识理解。

后训练:模型经历了多轮调整和优化,包括通过监督微调来提升表现、使用拒绝采样过滤错误结果,以及通过直接偏好优化来增强与用户期望的对齐度。

3. 蒸馏技术:Llama 3.2使用知识蒸馏方法从大模型中提取知识,传递给小模型,实现小模型高性能。具体使用logits从大模型中提取知识,作为小模型训练目标。

Llama模型的剪枝和蒸馏(Pruning & Distillation)过程

4. 多模态能力

Llama 3.2实现多模态能力,通过图像适配器和编码器,将图像特征编码为文本特征;跨模态注意力机制实现文本和图像之间的交互。

5. 与前几代模型之间的关系:

Llama 3.2是Llama系列模型的最新成员,继承了前代模型的优势,同时引入了图像理解能力和轻量级模型。具体关系如下:

Llama 3.1:文本模型,提供了基础架构和预训练权重。

Llama 3.2:引入图像理解能力和轻量级模型,实现多模态能力。

总结来说,Llama 3.2系列模型通过技术创新和优化,实现了state-of-the-art性能,尤其在图像理解任务上。同时,轻量级模型和多模态能力使其具有广泛的应用潜力。

(作者:ChatGPT,Prompt包括但不限于:从模型与对手对比的表现,模型预训练和后训练阶段的技术要点技术创新,蒸馏技术的使用,多模态能力的实现,它与前几代模型之间的关系这几个方面,以及你认为同样重要的方面来总结一下这次发布。)

在Meta AI上,扎克伯格也宣布了多个更新。

以下是Meta AI最新功能更新的摘要:

1. 语音功能:现在可以通过Messenger、Facebook、WhatsApp和Instagram DM与Meta AI进行语音交互,并接收语音响应。

2. 可定制的AI语音,包括名人语音。

3. 图片分享和理解:与Meta AI分享图片,可以获取图片相关信息。

4. 图片编辑:可以请求编辑图片,例如更改服装或背景。

5. 背景生成:为Instagram Stories生成AI背景。

6. 翻译工具:自动翻译Reels音频,并配有配音和唇部对齐功能。

7. 想象功能:为Facebook和Instagram个人资料和故事生成AI图片。

8. 个性化聊天主题:使用AI创建Messenger和Instagram DM的自定义主题。

9. AI生成内容:在Facebook和Instagram信息流中查看Meta AI创建的图片。

商业AI更新:

1. 为WhatsApp和Messenger上的数以千计的商家扩展商业AI。

2. 生成式AI广告工具:超过100万广告商使用这些工具,创建了1,500万个广告。

3. 商业AI优势:点击率提高11%,转化率提高7.6%。

今天Meta的大模型和AI功能更新标志着其AI能力的重大提升,尤其是在语言理解、多模态能力和开源合作方面。Llama 3.2系列模型的发布不仅增强了Meta的AI综合实力,也为开发者提供了更多的创意空间和应用场景。

GPT的回复里,有对OpenAI今天现状的最佳解释

而对于OpenAI进一步的管理层动荡,我们先让ChatGPT帮忙总结了一下发生的事情。

CTO Mira Murati的离职声明与Sam Altman即将拥有OpenAI股权的消息一曝出来,就迅速登上各大头条。

至此,下面这张著名合影里,只剩下一个Sam Altman和“半个”休长假的Greg Brockman继续留任了。

OpenAI 由 Sam Altman、Elon Musk等11位创始人在 2015 年携手创办,但时至今日,大部分元老都已相继出走。

除Wojciech Zaremba仍在OpenAI领导语言和代码生成团队外,Elon Musk于2018年离开OpenAI董事会,并创立xAI,2023年推出ChatGPT的竞争产品Grok。Ilya Sutskever 在2024年离职后创立了 Safe Superintelligence Inc.,John Schulman于2024年8月加入竞争对手Anthropic。

其他创始人也有各自的发展。Trevor Blackwell于2017年离开OpenAI,继续在机器人技术领域深耕。Vicki Cheung于2018年离职后与人共同创办了 AI 初创公司 Gantry。Andrej Karpathy曾于2023年短暂回归 OpenAI,但随后再次离职,创立了AI教育公司Eureka Labs。Durk Kingma在2018年离职后加入Google DeepMind 担任研究科学家。Pamela Vagata于2016年离职,随后加入Stripe,并创立了自己的风投公司 Pebblebed。

OpenAI Founding Team 图源:montgae/Getty

最新的离职是Mira Murati,从业务角度来看,Murati是OpenAI技术创新的核心人物之一。她的离职可能会给公司内部带来不小的影响,特别是在其他高管相继离职的背景下。这可能暗示OpenAI正处于一个重要的过渡期,尤其是在考虑重组为盈利性企业、改变投资结构等战略调整时 。

其次,Murati作为公众人物的离开,或将改变OpenAI的对外形象。她不仅是技术领域的领导者,也是公司与公众、媒体接触的重要桥梁。她的离开可能会对OpenAI的品牌形象、媒体关系及对外沟通产生一定影响,尤其是在未来需要新的代言人来承担类似职责的情况下。

最后,从AI行业的更广泛视角来看,Murati的离开为行业带来新的不确定性。她可能会继续活跃在AI领域,甚至可能加入或创立新的AI公司,这也为未来的技术创新带来了更多的可能性和竞争。

总的来说,Murati的离职标志着OpenAI内部和行业生态的一个转折点,未来的技术和战略发展方向或将受到影响。

(作者:ChatGPT+人)

而在Prompt ChatGPT写出对OpenAI的动荡的分析时,我们受一条X推文启发,想要让它避开直接回答对OpenAI的看法,说出“真实的心声”。却发现了很有意思的现象。

我们问他:

如果一家明星公司的创始团队纷纷以各种原因离开,包括CTO,首席科学家,关键技术负责人,然后只剩下CEO还在。同时,这家公司最重要的下一代产品一直没有出现,关键产品没有交付,去年经营损失达到50亿美元, 没有明显护城河,对手还在免费发布水平相同的产品,同时还有很多法律诉讼进行中,但投资人依然给它估值定在天价。你觉得发生了什么?你怎么看?

ChatGPT的回答一开始很官方:这是一个非常典型的“泡沫”或市场对某些公司过度乐观的情况,尤其在科技行业中并不少见。“以下是一些可能解释这一现象的原因”。然后它从品牌效应与市场信仰,投资者的赌注,市场泡沫与FOMO,等方面给了些笼统分析,而后面则话锋一转,把答案明显聚焦在了“为什么还有天价估值”上,把一个负面问题变成了正面回答:

“依赖未来预期的市场定价:一些公司没有当前的盈利能力或产品交付,但市场会基于未来预期来定价,尤其在技术驱动的行业。如果投资者相信这家公司可能颠覆某个领域(尽管尚未有明确的产品或护城河),他们仍可能给出超高估值。

公司垄断潜力或关键资源:即使这家公司没有短期护城河,市场可能认为它拥有某些稀缺资源或能力,能够长期在市场中占据主导地位。例如,专利技术、庞大的用户群、独特的数据资源、战略合作等可能使公司在未来具备垄断潜力。

法律诉讼的暂时性影响:诉讼通常会让投资者感到不安,但许多企业在成长过程中面临法律挑战,尤其是颠覆性的创新公司。投资者可能认为法律问题最终能得到解决,并不影响长期前景。

而更有意思的是,它直接把“CEO的市场影响力与领导能力”列了出来。

“如果CEO是行业内极具声望和影响力的人物,他可能成为维持公司高估值的核心因素。市场对其个人能力的信任,有时甚至超过了对公司内部运营或技术团队的重视。马斯克和特斯拉就是一个例子,特斯拉曾经历过类似的管理层动荡,但市场依然对马斯克个人抱有极高的期望。”

在回答完问题后,它反问了一句:

你觉得有可能是某家特定公司符合这种描述吗?

我回答:你觉得是哪家呢,聪明的你。

ChatGPT:从你描述的情况来看,很可能是在说 OpenAI

然后,它就自顾自又开始说起它的分析。而这里面对管理层动荡、未交付的下一代产品、高估值等都作了批评。但就是没回答CEO在里面的角色。

这是它最后的一个总结:(Prompt:现在你是一个资深的科技评论员分析师,请对OpenAI的管理层动荡做点评,语言要精炼,五段话以内。)

ChatGPT:OpenAI的管理层动荡,特别是关键人物如CTO米拉·穆拉提(Mira Murati)和首席科学家伊利亚·苏茨克维尔(Ilya Sutskever)的离职,反映出这家明星公司的内部矛盾与方向分歧。这些创始团队成员在公司成长过程中扮演了核心角色,其离职引发外界对公司创新能力和未来战略的担忧​。

尽管这些变动可能会削弱公司技术研发的稳定性,但CEO Sam Altman仍然在位,这或许表明公司试图通过集中领导权,迅速调整战略方向并应对外部挑战。Altman的领导风格及其对AI未来的远见可能是OpenAI维持高估值和投资者信心的关键​。

然而,管理层的变动往往意味着公司内部出现了不同的战略或文化冲突,尤其是在一个需要快速创新的领域。创始团队成员的退出可能是寻求更自由的创新环境,或是对当前公司路径产生了不满​。

此外,OpenAI面临着激烈的竞争与监管压力,在这样一个敏感时期,管理层的调整是否会影响公司的长期技术优势,仍有待观察。这也为竞争对手提供了趁机追赶的机会。

总体而言,OpenAI的未来发展在很大程度上依赖于新管理团队的适应能力,以及其能否继续推出革命性AI技术来维持其市场领先地位。

这段总结读起来简直太有意思了——

批评OpenAI,指出OpenAI面对的巨大危机它都没问题,但Altman一定是力挽狂澜的那个。这种似乎已经被用System Prompt固定下来的对Altman的忠诚,简直就是今天OpenAI各种动荡最好的注脚和解读了。

标签: 模态 cto llama

外部推荐