周三,谷歌(GOOGL.US)发布了Gemini 2.0系列人工智能模型的第一个版本。该模型被称为Gemini 2.0 Flash,其聊天版本可供全球用户使用,而具有文本到语音和图像生成功能的实验多模式版本则可供开发人员使用。

谷歌表示,这是他们迄今为止最强大的人工智能模型,“专为智能体时代设计”,并同时介绍了多个智能体应用(AI Agent)。对于Gemini 2.0模型,谷歌表示会先将开放给开发者以及受信任的测试人员,并将其整合到产品中。Gemini 2.0基于谷歌定制的硬件第六代TPUTrillium构建而成。谷歌表示,TPU为Gemini2.0的训练和推理提供100%算力支持。

谷歌首席执行官Sundar Pichai在一份声明中表示:“如果说Gemini 1.0是关于组织和理解信息,那么Gemini 2.0是关于让信息变得更有用。”

谷歌发布新一代AI模型Gemini 2.0 Flash  第1张

目前谷歌完全对外开放的新模型是Gemini 2.0 Flash体验版,这是谷歌的主力模型,具有低延迟特性。与此前的1.5 Flash版本相比,Gemini 2.0 Flash在同样快速的响应时间下性能进一步增强。谷歌提到,2.0 Flash在关键基准测试中甚至超越了此前的旗舰模型1.5 Pro,其速度是1.5 Pro 的两倍。

同时Gemini 2.0 Flash还具有新功能,除了能够支持图片、视频和音频等多模态输入,Gemini 2.0 Flash可以支持多模态输出,例如可以直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音(TTS)音频。它还可以原生调用Google Search、代码执行以及第三方用户定义的函数等工具。

作为提供给开发者的体验版模型,Gemini 2.0 Flash 现在可以通过Google AI Studio和Vertex AI中的Gemini API获取,所有开发者均可使用多模态输入和文本输出。该产品将于明年1月全面上市,谷歌称届时将推出更多型号。

Gemini 2.0系列模型代表了谷歌在科技行业竞争日益激烈的人工智能竞赛中的最新努力。其竞争对手包括微软(MSFT.US)和Meta(META.US),以及OpenAI等初创公司。

值得注意的是,除了最新发布的Gemini 2.0 Flash,在发布产品的同时,Sundar Pichai在X上着重提到了智能体Project Astra,认为其“展示了通用AI助手的曙光”。

据悉,Project Astra是谷歌最初在5月的I/O大会上首次对外发布的AI助手,彼时主要是对标OpenAI的GPT-4o,其主要功能包括实时语音和视觉处理,能够通过手机或谷歌眼镜进行跨文本、音频、视频的多模态实时推理。谷歌在此次的博客中将其称为“使用多模态理解现实世界的智能体”。

对于此次正式发布的Project Astra,谷歌表示,它能够流畅地在多种语言和混合语言之间进行对话,并且能够理解不同口音和生僻单词。此外,借助Gemini 2.0,Project Astra可以使Google Search、Google Lens和Google Maps,从而在日常生活中发挥助手的作用。

谷歌发布新一代AI模型Gemini 2.0 Flash  第2张

谷歌增强了Project Astra的记忆能力,这一助手目前可以记住长达 10 分钟的会话内容,并且可以回忆起过去与它进行的更多对话,能提供个性化服务。

谷歌表示,AI智能体在现实中的应用是一个令人振奋且充满可能性的研究领域,团队正在探索这个全新的领域,并开发出了一系列原型,帮助人们完成任务。除了Project Astra的升级版,这次谷歌发布的智能体还包括:完成复杂任务的智能体Project Mariner,能够帮助开发者的编码智能体Jules,以及游戏和其他领域的智能体。