谷歌Gemini横空出世,再次让大家的目光聚焦在了多模态大模型上。
Gemini1.0号称具有原生多模态能力,能够处理视频、音频、图像、文本和代码等多种形式的内容,且性能优于现有的“拼接型”多模态大模型。从谷歌官方公布的技术文档中的示例来看,Gemini不仅能够进行双模态之间的转换(如文生图或文生视频),亦能处理需要进行多模态转换的复杂任务。
多模态的意义在于,为AI应用带来了更多可能性,是通用人工智能(AGI)发展的关键。
从这个角度来看,Gemini上线是AI产业发展的里程碑事件,其代表的原生多模态大模型有望拓展大模型的应用场景和边界。国盛证券称,Gemini的问世有望为业界贡献大模型泛化能力的全新范式,加速AIGC向AIAgent的转变。
而谷歌作为科技巨头,拥有丰富的软硬件生态。国海证券表示,如果谷歌将旗下产品全面接入Gemini,其搜索引擎和办公软件将能够与微软的NewBing及Microsoft 365 Copilot对垒;此外,谷歌亦有可能在搭载Android系统的移动设备上推出类似于Windows Copilot的AI助手,充分发挥其在2C端的用户优势,顺应当前AI手机的发展潮流。
▌多个多模态AI应用惊艳亮相
最近已有多个多模态AI应用惊艳亮相,包括爆火出圈的Pika,以及三大图片转视频神器——阿里的Animate Anyone、字节跳动的Magic Animate、微软的GAIA。
对于Pika,大家已经耳熟能详,它是对标Runway Gen-2的AI视频生成平台,对于Animate Anyone和Magic Animate,《科创板日报》此前已做过详细报道。GAIA相关论文发布于,该AI工具的效果同样出色,能让一张人物肖像/照片“张嘴说话”,还附带音频。
另有多家科技公司在文生视频领域取得新进展:Meta发布工具Emu Video,能够基于文本和图像输入生成视频剪辑;Runway在Gen2中上线Motion Brush动态笔刷功能,只需对着图像任意位置一刷,就能让静止的一切物体动起来;Stable AI推出Stable Video Diffusion,可以从图像中生成高品质的视频剪辑。
开源证券表示,科技巨头之间多模态大模型的竞争日益激烈,同时驱动着底层多模态大模型的能力不断突破,叠加GPTs等AI应用形式的出现,AI应用有望迎来快速增长期。
▌再次呼唤更多算力
多模态大模型的算力需求远高于纯文本模态。以Gemini为例,其强大的多模态能力背后,是庞大的算力需求。虽然没有正式公布,但根据内部消息,Gemini有万亿参数,训练所用的算力甚至达到GPT-4的五倍。
有别于传统大模型对英伟达硬件及生态的依赖,Gemini训练所需的算力基于谷歌自研的TPU v4和v5e等硬件。在推出新模型的同时,谷歌顺势宣布推出迄今为止功能最强大、最高效、可扩展性最强的TPU系统Cloud TPU v5p,将用于开发更高层次的AI大模型。
其TPU v5p的训练性能是上一代TPU v4的2.8倍,内存带宽提升3倍,芯片间互联带宽翻倍,达到4.8Tbps,同时,v5p单个POD中的芯片数量翻倍,达到8960颗。
民生证券认为,谷歌作为自研算力新势力,有望激化算力市场良性竞争,进而降低算力使用成本。在海外互联网巨头AI模型军备竞赛下算力基建产业链将持续受益。国盛证券也表示,谷歌作有望为算力供需双方提供全新选项,从供应侧看,有利于技术的良性竞争,从需求侧看,充分的市场竞争也有利于降低算力的使用成本。
另一方面,因Gemini Nano将登陆谷歌Pixel 8 Pro手机,端侧算力也受到重视。此前高通发布的报告显示,未来AI推理的规模将远高于AI训练,推理成本将随着日活用户数量及其使用频率的增加而增加,而云端推理的成本掌握在云厂商手中,这将导致规模化扩展难以持续,因此布署端侧算力是生成式AI规模化扩展至关重要的一步。
放眼全球AI产业,OpenAI于11月份发布了GPT-4 Turbo且开放了GPTs,谷歌紧随其后发布Gemini,表明人工智能巨头在大模型领域的竞争依然白热化。
平安证券表示网上配资股票开户,在此背景下继续看好AI算力需求的增长。国信证券也称,ChatGPT外,绘图、视频等多类AI应用陆续取得进展,训练与后续推理需求持续,算力基础设施长期景气度持续。