水木梧桐创投旗下子品牌"梧桐荟"近日举办多模态AI主题闭门沙龙,邀请当红的AI创业公司的创始人、市场负责人、大厂的产品设计师以及头部基金的投资人进行会谈。在三个小时的深度交流中,与会嘉宾围绕多模态AI的技术演进与商业落地展开激烈思辨,揭示了行业前沿趋势与实战经验。
议程一:嘉宾分享
针对行业痛点,珀乐互动CEO杨晟认为,当前多数AI视频团队易陷入三个“致命陷阱”:一是追逐微工具创新,却忽视底层模型迭代可能让所有插件归零;二是盲目崇拜产能数据,忽视以质量取胜的根本逻辑,每月产出较多低质内容反会加速市场淘汰;三是迷信技术万能论,而真正成功路径是行业需求驱动技术适配。通过拆解《我的丧尸老公》的完整商业链路,杨晟指出,AI多模态应用的未来需坚持“内容为王”在内容消费领域的根本逻辑,同时用好的内容推进IP商业化实现长链路营销,才能实现企业良性、持续性发展。
HuggingFace每日AI论文速递主理人段珺在分享会上通过对比演示揭示了2025年头部AI视频生成技术现状,包括OpenAI Sora、Google Veo3、Runaway Gen-4 等,并进一步解析了视频生成AI的共同技术“基座”和差异化创新路径,包括使用混合专家模型(MoE/Mixture-of-Experts )实现“降本增效”,使用音频、视频等多模态融合技术解决传统音视频分离问题,开辟新的应用场景,针对特定群体加强专项能力。
段珺指出,未来多模态AI的发展会呈现三个趋势:一是长篇叙事技术的突破,主要表现为从短片段到完整故事的演进;二是计算效率革命的兴起,激增的算力需求倒逼大模型性能转型升级;三是中国大模型的崛起,AI庞大的短视频生态数据、市场驱动的商业模式和快速的产品迭代能力正推动中国AI从追赶者向领跑者转变。
ListenHub CMO Max介绍了ListenHub在播客创作领域的功能和作用,强调ListenHub的语音内容生产不局限于语音输出,而是向“理解用户--陪伴用户”的方向发展。他现场演示了语音AI的颠覆性体验:当ListenHub旗下的语音产品FlowSpeech实时解析《诡秘之主》文本时,系统不仅能模仿人声音色,更捕捉到主角头痛时的气息颤动。在商业层面,Max预测语音交互将重塑硬件生态:"当Vision Pro取代手机成为新终端,语音必然替代键盘成为核心交互方式。ListenHub即将上线打断响应功能,实现人类对话般的自然交流。"
ListenHub创始人兼CEO冯雷Leo为MiniMax万卷、海螺负责人,文本大模型、语音大模型的专家,于BOSS直聘任职10年以上,具备丰富的工具产品和内容社区产品经验,同时是AI 行业头部 KOL,在全网拥有16万垂类AI粉丝。联合创始人兼CTO为徐文健Kris,已有表单识别大模型、个性化育儿、小语种 TTS模型等连续AI创业经历。团队成员均来自字节、语雀、猿辅导、百度等大厂。
议程二:圆桌论坛
圆桌论坛由水木梧桐创投董事总经理杨博主持,锦秋基金投资副总裁石亚琼、AI教育出海初创公司TalkMe CEO贾子健与技术专家段珺展开深度交锋。
一、什么是多模态?
论坛伊始,主持人杨博针对嘉宾的不同身份,抛出首个关键问题:从各位嘉宾的专业领域看,什么是多模态?
贾子健 认为多模态本质是信息在不同介质间的跨域交流,如图文、音视频之间的转换。他从技术角度补充说,多模态实现了从单纯数据到高维张量结构的跨越,信息密度更高、内容更丰富。他举例说明,同一杯水可通过图像、3D模型或实物等不同模态呈现,底层是信息在不同介质间的流转。
段珺 赞同贾子健的观点,认为世界本身就是多模态的。他从技术实现角度指出,多模态模型分原生与非原生,非原生模型将图像等内容对齐到文本再处理,但文本信息密度远低于图像。他认为多模态的终极形态应接近真实世界,包含可感知与不可感知的全部信息。
石亚琼 从投资视角提出,多模态的定义多元,包括理解模型、生成模型乃至具身智能、VR/AR等技术。她认为多模态的价值为帮助机器从“看图说话”到“看图做事”,如具身智能应用中,通过对视觉、听觉、触觉等多模态信息的解读扩展具身智能使用场景。由此,多模态在解决技术、产品、应用等环节的卡点上具备强大潜力,在她多模态能带来大幅度的产业提升,这也是她今后重要的投资方向。
二、To 贾子健:结合TalkMe业务,分享多模态的具体应用及创业动机。
贾子健 介绍,TalkMe在产品功能和运营营销两大方面应用多模态:一是所有图文内容均由大模型生成,例如“哪里不会拍哪里”功能,用户拍照即可练习场景对话;二是多模态技术用于生成广告素材,如与谷歌联合发布的AI微电影,大幅降低成本并提升质量。
关于创业动机,他强调是行业需求驱动而非技术驱动。全球语言学习存在大量未被满足的场景,多模态技术使其得以实现,如个性化学习和音图文结合的学习产品。
三、To 段珺:多模态在其内容创作中的具体应用及前沿技术动态?
段珺 表示AI生成技术在其自媒体工作中应用广泛,涵盖信息收集、内容提炼、总结分类及最终生成图文音频的全流程。他目前已成熟运用文生图、音视频生成等技术,并计划探索知识型视频生成。
关于前沿技术,他提到多模态、具身智能和Agent是当前热点,尤其Agent天然适合多模态交互,需理解图像、网页等多元信息才能完成复杂任务。
四、To 石亚琼:从投资角度分享对多模态赛道的洞见及布局?
石亚琼 表示,锦秋基金通过自上而下研判行业前景,和与创业者密切交流开展投资,去年投的30多个项目,今年已交割22个,其中59%为首轮投资。她基于四点判断看好AI发展:一是机器生产传播知识带来知识密度提升,群体智能发展提升人类知识密度和传播速度;二是数字劳动力进阶为数字专家,大模型知识面更广泛、推理更深入;三是Infra层面将发生巨变,包括芯片、数据库、数字安全等领域;四是大模型能力提升对大创作平台的核心业务造成一定冲击,创业公司仍有时间窗口和结构机会。
她透露当前投资配比为:60%AI应用(均涉及多模态),20%具身与交互,20%AI Infra。她认为生成式AI正改变供给端,未来将在TOC情绪经济、TOB增收场景(如营销、法律、医疗)等领域带来机会。
五、中国与海外在多模态商业化应用上的差异?
石亚琼 认为中国创业者在本轮AI浪潮中具备优势:一是中国创业者能力不输美国但融资环境更严峻,经历残酷竞争后更具全球竞争力;二是DeepSeek等应用让美国市场看到中国技术产品能力;三是大模型削弱语言文化障碍,助力中国公司全球化。但她仍补充,美国在TOB投资和专业服务上更成熟,相比之下,中国更有机会在TOC领域突破。
段珺 赞同语言边界因AI减弱的观点,国内出海开发者利用AI解决营销语言问题,产品国际化成本大幅降低。他认为商业化仍是主要挑战,尤其国内合规要求更高,需寻找海外渠道支持。
贾子健 认为中美开发者之间具备显著差异,一方面,美国TOB需本地化经营,而中国TOC团队在创业能力和工程化迭代上优势明显。他以TalkMe为例,指出华人团队效率可达竞品5-10倍,但竞品资金为TalkMe的20-30倍;另一方面,中国团队自身跨语言学习能力较强,产品新增语言的成本较低。他强调在做产品时应关注用户真实需求而非行业术语,多模态技术是阶段性工具,核心仍是解决用户问题。
议程三:答疑交流
Q1:多模态大模型在柔性生产、个性化定制方面应用到了什么阶段?
石亚琼:我们观察到在个性化生成环节,已有用户通过图文生成模型用于生产或3D打印;在流通环节,多模态技术提升营销效率和营销环境,如通过社交分析精准拓客。但目前全环节应用仍较少,成本依然是很大的问题。
Q2:在AI出海方面,嘉宾们有怎样的经验分享?
贾子健:出海需细分市场,如欧美市场有高净值的特点、东南亚具备庞大的用户量。选择方向要匹配地区特性,如软件行业应聚焦大市场或高价值用户,并重视本地化运营。
Q3:AI在心理健康领域的创业机会如何?
石亚琼:这方面我不擅长,建议会后详细交流。目前医疗AI创业多处于技术驱动阶段,商业落地多由原有产品增强AI功能实现。
Q4:石总在AI安全领域是否有投资布局?如深度伪造防治。
石亚琼:我们从两三年前就开始关注AI安全,包括模型安全、应用安全(如深度伪造)和自身安全。中国目前在该领域融资的业绩不如美国,美国在该领域融资较为活跃,每周都有千万级融资,安全为美国Top15天使投资人主要的投资方向之一。
Q5:数字人赛道是否值得转型ToC?
石亚琼:我认为ToC和ToB所需能力完全不同,ToC重产品能力、用户体验和投放能力,ToB重资源和销售。建议根据团队能力和成本进行抉择。从我们的角度,大家可能不会从技术出发去考虑转型方向,而是通过用户端的价值驱动考虑用户需求。
“梧桐荟”是由水木梧桐创投发起设立的高端产业交流平台。作为产学研融领域的高端对话枢纽,我们致力于构建产业生态闭环,通过前沿思想碰撞激发创新势能,推动新质生产力发展与产业格局重构。




