豆包视觉理解大模型概念公司梳理(附:AI智能眼镜公司)

发布时间:2024-12-19 10:57  浏览量:2

12 月 18 日,字节跳动在北京正式发布了豆包视觉理解模型,旨在为企业提供更加高效、经济的多模态大模型能力。该模型的千 tokens 输入费用仅为 3 厘,一元钱即可处理 284 张 720P 的图片,相比行业平均水平下降了 85%,极大降低了企业使用 AI 技术的门槛,也标志着视觉理解模型进入了 “厘时代”,展现出了极高的性价比。

火山引擎总裁谭待表示,人类接受的信息超过 80% 来自视觉,视觉理解将极大地拓展大模型的能力边界,同时也会降低人们与大模型交互的门槛,为大模型解锁更丰富的应用场景。而豆包视觉理解模型已成功接入到豆包 App 及 PC 端,不仅注重多模态输入的创新发展,包括语音和视觉识别,还通过火山引擎平台向外开放这些功能,进一步推动了 AI 技术的普及和应用。

除此之外,在此次发布会上,豆包 3D 生成模型也首次亮相。该模型与火山引擎的数字孪生平台 veOmniverse 结合,能够高效完成智能训练、数据合成及数字资产制作,提供一套强大的物理世界仿真模拟工具,支持 AIGC(AI 生成内容)的创作需求。同时,豆包大模型的多款产品也同期更新,例如,豆包通用模型 Pro 已全面对齐 GPT-4o,使用价格仅为后者的 1/8;音乐模型则将生成的限制从 60 秒扩展到 3 分钟的完整作品;文生图模型 2.1 版本更是首次实现精准的汉字生成和 P 图能力,已接入即梦 AI 和豆包 App。

从应用层面来看,豆包大模型的渗透速度迅猛,目前已与 80% 的主流汽车品牌展开合作,并针对多款手机、PC 等智能终端进行了系统接入,覆盖约 3 亿台设备。仅在过去半年内,来自智能终端的调用量增长了 100 倍,在信息处理、客服销售等场景中都展现出企业对这一技术的广泛需求,例如,在信息处理场景中,调用量增长了 39 倍,客服与销售场景也增长了 16 倍。

豆包视觉理解模型具备多个功能亮点,使其在众多模型中脱颖而出。

首先,它有着非常强的内容识别能力,不仅能精准识别图像中的物体类别和形状等基本元素,还能深入理解它们之间的关系、空间结构以及场景的整体语义。比如面对一张包含多种物品的图片,它可以准确分辨出各个物品是什么,以及它们所处的位置、相互之间的关联等。

其次,该模型具备强大的理解和推理能力,除了能够更高效地识别内容,还能基于文字与图像信息进行复杂的逻辑推演与计算。像是在解答微积分题和高考物理题时,豆包视觉理解模型都能正确理解题意,并根据提示给出清晰解题思路,甚至还能依据相关知识点给出新的练习题,堪称家长辅导作业的神器。

再者,其拥有细致入微的视觉描述和创作能力。例如给它一张动物影子的照片,它可以根据轮廓识别出这是一只猫;在旅行时,只要拍下一个建筑,它就能介绍其背后的历史和各种细节。如果随手画一幅涂鸦,还能让它编写一个故事,或者根据一张风景照让它作一首诗,然后将诗句创作成海报等,结合其视觉理解能力,让 AI 创作功能有了更多可玩性。

在 12 月 18 日举办的火山引擎 FORCE 大会上,豆包大模型多款产品迎来了重要更新,进一步拓展了其能力边界,为用户提供更强大、多元的服务。

豆包通用模型 Pro 在综合能力、推理、指令遵循、代码、数学等方面进行了全方位提升,已全面对齐 GPT-4o。数据显示,对比今年 5 月时的版本,其综合能力提升 32%,指令遵循能力提升 9%,代码能力提升 58%,专业知识能力提升 54%,数学能力提升 43%,推理能力也提升了 13%,而使用价格仅为 GPT-4o 的 1/8,这使得更多企业和用户能够以更低的成本享受到先进的大模型服务,为企业的 AI 升级助力。

豆包音乐模型也有了令人瞩目的创新升级,从原本只能生成 60 秒的简单结构,升级到如今可生成 3 分钟的完整作品,并且还支持全曲生成和局部修改功能。用户通过简单的文字描述或上传一张图片,就能让它生成一首包含前奏、主歌、副歌、间奏和尾奏的完整音乐,同时还能对生成的音乐中不合心意的细节进行修改,确保整个乐曲保持音乐的连贯性,使音乐创作变得更加灵活和多样化。

文生图模型 2.1 版本更是在业界首次实现精准生成汉字和一句话 P 图的产品化能力,该能力已经在抖音、剪映、豆包、星绘等字节系 App 中落地,并通过火山引擎服务了三星、努比亚等企业客户,目前日均图生图数量达到数千万张。此外,用户还可以在提示词中增加指定的文本要求,豆包将会在图片生成时生成带有指定文字的图片,文字与画面更为融合,其图像编辑和原生文字渲染能力的新突破,让 AI 创作的视觉呈现更加贴合用户心意,该模型已接入即梦 AI 和豆包 App,方便用户随时使用。

豆包大模型凭借其不断升级的强大功能,在各个领域的应用落地呈现出加速渗透的态势,无论是在 B 端还是 C 端,都展现出了巨大的价值和潜力。

在 B 端,豆包大模型已经与八成主流汽车品牌达成合作,成为汽车智能化发展的有力支撑,比如在 AI 座舱场景中,汽车用户可以通过豆包大模型进行自然语言交互、享受个性化服务以及实现多模态交互等,极大提升了驾乘体验。同时,它还针对多款手机、PC 等智能终端进行了系统接入,覆盖约 3 亿台设备,为不同设备的用户带来便捷智能服务。仅在过去半年内,来自智能终端的调用量增长了 100 倍,在与企业生产力相关的各个场景中,也都获得了众多企业客户青睐。比如在信息处理场景中,调用量增长了 39 倍,能够帮助企业更高效地处理各类数据信息;客服与销售场景增长了 16 倍,助力企业提升客户服务质量和销售效率;硬件终端场景增长了 13 倍,更好地推动了硬件设备与智能服务的融合;AI 工具场景增长了 9 倍,为企业开发和运用 AI 工具提供有力支持;学习教育等场景也有大幅增长,为教育行业的智能化变革添砖加瓦。

而在 C 端,豆包大模型更是深入到用户生活的方方面面,成为大家日常学习、生活和娱乐的好帮手。用户会使用豆包大模型做各种各样富有创意的事,有的人用它练习英语对话,提升语言能力;有的人用它教孩子奥数,辅助孩子学习;也有的人用它做旅行规划,让出行更加省心便捷。总之,豆包大模型正以其广泛的应用场景和优质的服务,逐渐走入千家万户,为人们的生活和工作带来诸多改变。

在豆包视觉理解大模型发布后,不少上市公司纷纷与其展开合作,展现出这一模型在产业应用方面的强大吸引力以及广阔前景,以下是部分典型案例:

蓝色光标在互动平台表示,11 月已与火山引擎达成深度合作,双方将基于火山方舟、豆包・视频生成模型、扣子专业版智能体开发平台,在视频生成、视频服务解决方案以及营销行业智能体应用等领域展开深入合作,共同推动 AI 与营销体系的深度整合、加速营销行业 AI 化进程。蓝色光标凭借丰富的营销场景、创作经验和数据积累,在自有平台 ——Blue AI 心影创作平台中实现了专业工作流的贯通和营销内容的沉淀。后续,豆包・视频生成模型以其精准的语义理解、强大的动态表现与多样化运镜、一致性多镜头生成、多风格多比例支持,以及高保真高美感等优势,为 Blue AI 心影创作平台提供高质量的视频生成模型,结合其视频服务能力,提供更专业的创作服务,双方携手优化内容创意、品牌广告、电商广告等多个内容方向的工作流,提升生成结果的可控性,并有望继续加速 AI 视频生成的创新与应用。

宣亚国际也积极与豆包大模型进行结合应用,其 OrangeGPT 在为客户提供短视频创意、内容制作等服务中,通过调用豆包 Pro 大模型(包括其语音模型),可以生成更贴合抖音平台广告投放场景的内容素材。研发团队依托公司丰富的内容数据积累和行业 Know-How 储备,对豆包 Pro 大模型进行了微调优化,使其更好地贴合短视频平台目标用户群体偏好,从而为客户提供更专业、更精准的视频内容制作解决方案。

这些合作案例不仅体现了上市公司对于豆包视觉理解大模型价值的认可,更展现出产业合作的新趋势,通过优势互补,能够更好地挖掘 AI 技术在不同业务场景中的潜力,为企业自身发展注入新动力的同时,也推动了整个行业朝着智能化、创新化的方向迈进,未来或许还会有更多的合作模式和应用场景被不断开发出来。

12 月 18 日火山引擎发布豆包视觉理解大模型后,在资本市场上引起了强烈反响,A 股相关概念股表现十分亮眼。

视觉中国、博瑞传播、天娱数科、遥望科技等股票冲击涨停,紫天科技、三维通信等股票也出现跟涨。例如博瑞传播,在消息发布后的几个交易日内,走势相当强劲,走出了 “4 天 3 板” 的亮眼成绩,充分展现出市场对其与豆包视觉理解大模型关联发展前景的看好。而视觉中国也曾因与字节跳动相关业务关联预期等因素,股价出现大幅波动,在 2024 年 12 月中旬,更是有着 “10 天 5 板” 的突出表现,虽然期间也引发了监管层关注并进行核实,但足以见得市场对其相关概念股属性的高度关注。

从整体来看,这一模型的发布给市场带来了新鲜感,众多投资者对相关概念股青睐有加,使得这些股票在短期内获得了较高的涨幅,也反映出资本市场对豆包视觉理解大模型未来应用拓展以及商业价值的积极预期。不过股价波动往往受多种因素影响,后续这些概念股能否持续保持良好表现,还需要进一步结合企业自身业务发展以及市场整体环境等综合判断。

近年来,随着人工智能技术的快速发展,智能眼镜作为一种新兴的可穿戴设备,逐渐成为市场的焦点,更被视作端侧 AI 最具性价比落地硬件,其发展现状值得我们深入探究。

从技术成熟度来看,AI 智能眼镜相关技术正日益精进。如今,智能眼镜能够集成先进的传感器、处理器以及 AI 算法,像物体识别、语音交互等功能已经愈发精准和流畅,为实现更多创新应用奠定了坚实基础。

在参与玩家方面,众多科技巨头和行业内的创新企业纷纷入局。例如,百度、Rokid 等相继发布搭载 AI 的智能眼镜新品,计划于 2025 年上半年正式发售;OPPO、vivo、华为、腾讯、字节跳动等科技巨头也都积极布局 AI 眼镜项目。整个市场呈现出一片热闹景象,各路玩家都在凭借自身优势,试图在这一潜力巨大的领域分得一杯羹。

而产品的推出情况同样十分可观,其中,Meta 与 Ray-Ban 联手推出的 Ray-Ban Meta 智能眼镜堪称当前代表产品。初代产品 Ray-Ban Stories 于 2021 年 9 月发布,初期销量不太理想,但随着技术改进和市场认知度提升,2023 年 9 月推出的第二代产品 Ray-Ban Meta 迅速走红。仅 2023 年四季度,其销量就超过了一代眼镜全生命周期的出货量,最近三个季度,Ray-Ban Meta 的出货量已经超过了 100 万副,市场预计 2024 年全年出货量可能超过 150 万副,且持续处于缺货状态,足见其受欢迎程度。

再看 Ray-Ban Meta 这款热门产品的具体情况,它在多方面展现出强大的竞争力。其设计理念注重佩戴的舒适性与时尚感,基于传统的近视眼镜和墨镜的形式,重量仅为 49 克,大大降低了用户在日常使用中的负担。硬件配置上,配备了全新的高通骁龙 AR1 Gen1 平台,能够提供高质量的照片和视频处理能力,也保证了电池使用的长效性;同时搭载一颗 12MP 超广角摄像头,支持录制 1080P 视频,为用户提供完整的第一视角记录体验。软件生态方面,支持与 Meta 自有应用(如 Instagram、WhatsApp、Messenger)的无缝连接,用户不仅可以实时录制视频、与朋友在线互动,还能通过语音指令操作设备,真正实现边录制边分享的便捷体验,这也极大地激发了用户的使用热情。

总体而言,AI 智能眼镜行业正在经历一场由 AI 驱动的变革,虽然目前仍存在一些如重磅产品缺乏、出货量有待进一步提高、渗透率不足等挑战,但趋势已然向好,未来有望成为人们日常生活中不可或缺的智能助手。

AI 智能眼镜与豆包视觉理解大模型的结合,无疑将碰撞出令人期待的火花,为行业发展开拓出更为广阔的前景。

在功能实现上,当 AI 智能眼镜搭载豆包视觉理解大模型后,能够解锁诸多强大且实用的新功能。比如在实时交互方面,用户可以通过语音指令或者眼镜捕捉到的画面信息,即时与模型进行交互,无论是询问周边环境信息、查询商品详情,还是寻求路线导航等,都能迅速得到准确回应;在场景识别上,眼镜能够精准分辨所处场景,是商场、公园还是办公场所等,并依据场景提供相应的服务,例如在商场时推荐热门店铺、优惠活动,在公园时介绍景点历史文化等;而在辅助决策领域,面对复杂的情况,模型可以基于眼镜收集的数据进行分析,辅助用户做出合理决策,像是出行时选择更优的交通方式等。

从对产业链的带动作用来看,这种结合的影响力也是不容小觑的。在芯片环节,为了更好地适配豆包大模型的运行以及满足智能眼镜多功能的算力需求,会推动芯片企业研发更具高性能、低功耗的 AI 芯片,像恒玄科技、星宸科技、安凯微等企业或将迎来新的发展机遇,加速技术迭代;存储方面,随着智能眼镜功能增多、数据量增大,对于存储容量和读写速度的要求也相应提高,例如 Ray-Ban Meta 的不同版本在存储配置上就有明显升级,从 Ray-Ban Stories 的 “512MB LPDDR3+4GB eMMC 5.0” 到 Ray-Ban Meta 的 “2GB LPDDR4X+32GB eMMC 5.1”,未来也会促使存储相关企业如东芯股份、普冉股份等不断优化产品,扩大市场份额;光学领域同样如此,为了给用户带来更清晰、舒适的视觉体验,无论是镜片的材质、镀膜技术,还是显示模块的清晰度、色彩还原度等,都需要不断改进,这将带动整个光学产业链的发展,促使相关企业加大研发投入,提升产品品质。

可以说,AI 智能眼镜与豆包大模型的结合,有望重塑智能眼镜的生态,为用户创造出更加智能、便捷的使用体验,同时也会为产业链上下游企业带来新的增长引擎,推动整个行业朝着更高质量、更具创新力的方向大步迈进,未来的发展值得我们拭目以待。

行业发展趋势分析

随着科技的飞速发展,豆包视觉理解大模型及 AI 智能眼镜所在的行业正呈现出蓬勃的发展态势,未来有着诸多值得期待的发展方向。

在豆包视觉理解大模型方面,技术上有望持续迭代升级,其内容识别、理解推理以及视觉描述等能力会更加精进,比如在复杂场景下能实现更精准的物体与关系识别,解答更具难度的专业学科问题等。从市场需求来看,应用场景将进一步拓展,目前已涉足金融、医疗、建筑等多个行业,后续还会深入到更多细分领域,像制造业的质量检测环节,借助其视觉理解能力实现自动化的瑕疵甄别等,从而释放更大的商业价值,吸引更多企业采用这一模型,改变相关行业的成本结构和竞争格局。同时,随着越来越多企业的接入,围绕该模型的生态也会逐渐丰富,不同企业基于其开发出各种特色的应用产品,形成差异化竞争。

而对于 AI 智能眼镜行业,技术成熟度会继续提升,例如传感器的灵敏度、处理器的运算速度以及 AI 算法的智能程度都将不断优化,让眼镜的功能愈发强大且多样化。市场规模有望持续扩大,据相关数据显示,2024 年全球智能眼镜市场规模已达到 394.73 亿元人民币,并预计到 2029 年将达到 1067.78 亿元,年均复合增长率达到 18.56%,众多科技巨头和创新企业的入局也会加剧竞争,促使各企业不断推陈出新。产品形态方面,会朝着更轻便、舒适以及功能集成度更高的方向发展,从目前的以记录、交互功能为主,逐渐拓展到能实现更多复杂任务,如辅助医疗诊断(通过检测佩戴者身体数据等)、充当专业领域的操作助手等。

此外,二者的融合趋势也越发明显,AI 智能眼镜作为端侧的重要硬件载体,将成为豆包大模型落地应用的关键一环,二者相互促进,共同推动行业的智能化变革,为用户创造出全新的使用体验,重塑智能眼镜的生态,也带动产业链上下游企业协同发展。

基于上述行业的发展趋势,对于关注豆包视觉理解大模型概念公司以及 AI 智能眼镜相关产业链公司的投资者,以下是一些投资建议供参考。

首先,要重视技术实力强劲的公司。对于豆包视觉理解大模型相关概念公司而言,那些具备自主研发能力、能够深度参与模型优化与应用开发的企业更值得关注,比如在模型训练算法优化、多模态融合等方面有技术优势的公司,有望在后续众多企业接入模型的过程中,凭借技术壁垒获取更多合作机会和市场份额。而在 AI 智能眼镜产业链上,像在芯片环节能够研发高性能、低功耗 AI 芯片的恒玄科技、星宸科技等企业,以及在光学领域不断提升镜片材质、显示模块清晰度等关键技术的相关企业,更有可能在激烈的市场竞争中脱颖而出,因为它们能为智能眼镜的功能升级提供核心支撑,从而占据产业链中的优势地位。

其次,关注市场布局广泛且合作进展顺利的企业。例如已经与豆包大模型展开深度合作,并在自身业务领域有明确应用落地方案的上市公司,像蓝色光标、宣亚国际等,它们通过与模型的结合实现了业务创新,未来也可能持续拓展合作的深度和广度,带来业绩的增长。在 AI 智能眼镜方面,积极与各大科技平台或者内容提供商合作,构建完善软件生态的品牌商,能提升产品的附加值和用户粘性,值得投资者留意。

再者,要考虑产业链的协同效应。投资者可以从产业链上下游整体的角度去筛选投资标的,如既关注为豆包大模型提供算力支持的硬件企业,又关注利用模型开发创新应用的软件企业;对于 AI 智能眼镜产业链,关注从芯片、存储、光学部件到组装、销售等各环节的优质企业,因为整个产业链的繁荣才能保障企业的持续稳定发展。

不过,投资也存在潜在风险点需要警惕。一方面,技术发展具有不确定性,无论是豆包大模型的迭代进度,还是 AI 智能眼镜相关技术的突破,都可能不及预期,导致企业前期投入无法及时转化为收益,影响其市场表现和盈利能力。另一方面,市场竞争激烈,新的参与者可能随时进入,打乱原有的市场格局,使得部分企业面临份额下滑、产品滞销等问题。此外,行业政策环境的变化、宏观经济形势对消费市场的影响等外部因素,也会对相关企业的经营和发展产生不可忽视的作用。投资者需要综合考量这些因素,进行分散投资,避免将资金集中于单一标的.

外部推荐