Google深夜狙击OpenAIGemini 2.0登场!全面转向Agent多模态输入输出,免费随便玩

分类:资讯 日期:

在OpenAI宣布连发12天更新后,Google选择12月11日深夜(在OpenAI发布更新之前),发布新模型Gemini 2.0。

图片来源:Google官网截图

在多次发布被OpenAI精准狙击后,Google扳回一局,发布了Gemini 2.0,直指Agent使用。Agent功能,也称为智能体功能,通常指的是AI能够感知环境、执行任务并在一定程度上独立做出决策的能力,也就是能更自动化完成任务的功能。

此次Google似乎赌对了。OpenAI凌晨两点的发布,主要宣布了和Apple Intelligence的合作,一个普遍被期待能与Agent能力强相关的合作。

Google,则一次性发布了四个Agent相关的功能:

Project Astra,能够在Gemini应用中直接调用Google Lens和地图功能帮用户解决问题;

Project Mariner(海员项目),Chrome浏览器的实验性功能,可以通过提示词直接帮用户浏览网页做任务;

Jules,可以嵌入GitHub的编程Agent,使用自然语言描述问题,就能直接生成可以合并到GitHub项目中的代码;

游戏Agent,能够实时解读屏幕画面,直接在你打游戏的时候通过和你语音交流,给你AI打法提示。

据悉,Gemini 2.0 Flash及API免费可用!可以通过Google AI Studio和Vertex AI中的Gemini API使用,基本不要钱,每分钟*多15个提问,每天*多1500个提问。明年初全面开放。

谷歌Gemini 2.0炸裂功能

Gemini 2.0 Flash是2.0家族*个模型,主推原生多模态输入输出+Agent,速度比1.5 Pro快两倍,关键性能指标甚至超过了1.5 Pro!支持原生工具调用、以及实时音视频流输入等新功能。

速度更快,多模态、文本、代码、视频、空间理解和推理能力全面提升!新能力比如空间理解,视频理解等可以通过Googele AI Studio的Starter Apps来体验;

例如1,Gemini 2.0对空间的理解,利用Spatial Understanding,上传一张图片,Gemini快速进行图像中的物体检测和标注,并生成结构化的数据(JSON格式)。它的设计直观,用户可以通过简单的交互操作快速获得检测结果。这种工具可能用于机器学习训练数据准备、图像分析或计算机视觉研究等场景;

例如2,Gemini 2.0地图交互,利用Map explorer,show一下世界上*有意思的大城市;

全新输出模态:支持文本、音频和图像的集成响应,多语言原生音频输出,8种高品质语音,多种语言和口音!原生图像输出,还能进行多轮编辑迭代直到生成满意的图像;

原生工具使用:Gemini 2.0可以直接调用Google搜索、代码执行等工具,还能通过函数调用使用自定义的第三方函数!

多模态实时API:支持实时音视频流输入,还能进行语音活动检测,甚至可以集成多个工具完成复杂任务!现在通过Stream Realtime就可以体验;

例如,把电脑屏幕交给Gemini 2.0接管,它可以在你与模型实时交互的同时进行搜索和编码。

谷歌正在积极探索AI“代理”的应用,目标是打造能够自主理解、规划和执行任务的智能助手。他们已经推出了一系列Agent原型(目前仅供测试人员使用),展示了AI代理在不同领域的巨大潜力:

Jules,你的AI编程伙伴:想象一下,你的团队刚完成了一轮bug排查,一堆bug亟待修复。现在,你可以把Python和JavaScript的编码任务交给Jules。它与你的GitHub工作流无缝集成,可以异步处理bug修复和其他耗时的任务,让你专注于核心开发工作。Jules会创建全面的、多步骤的计划来解决问题,高效地修改多个文件,甚至能准备pull requests,直接将修复提交到GitHub!更重要的是,Jules赋予开发者更多自主权:你可以随时查看Jules创建的计划,提供反馈或要求调整,并轻松审查和合并Jules编写的代码。

Colab数据科学代理,你的AI分析师:繁琐的数据分析Colab数据科学代理帮你搞定!只需用自然语言描述你的分析目标,Colab就能自动生成一个完整的notebook,并在几分钟内提供洞察。所有分析都基于一个可运行的Colab notebook,保证结果的可靠性和可重复性。这将极大地加速你的研究和数据分析进程。

Project Mariner,重新定义人机交互:Project Mariner旨在探索人机交互的未来,从浏览器开始。它是一个实验性的Chrome扩展程序,可以让AI代理在你的浏览器中执行各种任务,例如查找信息、填写表格、甚至与网站进行交互。

Gemini Advance模式:谷歌在*版中推出一项名为"深度研究"的新代理功能,这是一个研究助手,可以深入研究复杂的主题,并为你创建带有相关来源链接的报告,感觉这是直接写科研论文的节奏。

游戏和其他领域的AI代理:DeepMind在游戏AI领域积累了丰富的经验,现在他们将Gemini 2.0应用于游戏代理的开发。例如,一个AI伙伴陪你一起玩游戏,还能提供专业的指导,游戏体验将提升到一个全新的层次!更牛的是,这些代理还能连接到Google搜索,获取海量的游戏知识,成为你真正的游戏专家!目前,他们正与Supercell等游戏开发商合作,在“部落冲突”和“卡通农场”等游戏中测试这些代理。

谷歌推出突破性量子芯片

谷歌9日宣布推出最新量子芯片Willow。谷歌首席执行官孙达尔·皮柴称其为迈向打造实用量子计算机的重要一步。

谷歌在官方博客刊文说,Willow取得了两项重大成就:首先,使用更多量子比特进行扩展,可大幅度减少错误,解决了量子纠错领域近30年来一直试图攻克的关键难题。另外,在标准基准计算测试中,Willow展示了非常高的性能。

量子比特利用叠加态来进行计算,对环境扰动极其敏感。通常量子比特越多,发生的错误就越多,而新研究有助解决这一难题。这一已发布在《自然》杂志上的研究显示,在Willow芯片中使用的量子比特越多,系统的错误率越低,“取得了‘低于阈值’的历史性成就,即在增加量子比特数量的同时降低错误率”。

谷歌量子人工智能实验室创始人和领导者哈特穆特·内文说,作为*个低于阈值的系统,这是迄今为止*可信的可扩展逻辑量子比特原型。Willow芯片的推出让量子计算向商业应用方向迈进了一大步。下一步挑战是展示量子芯片超越经典计算机,又能解决现实问题的能力。

内文还表示,谷歌首创的随机电路采样(RCS)基准,已被*用于量子计算领域,是当今量子计算机可完成的难度*高的经典基准。Willow基于该基准取得了惊人表现,在不到五分钟的时间完成了当今领先的超级计算机需要10的25次方年才能完成的计算,“这一令人难以置信的数字超出了物理学中已知的时间尺度,远远超过了宇宙年龄”。

内文说,人工智能和量子计算将被证明是当代*具变革性的两项技术,先进的人工智能将从量子计算中受益匪浅。这也是他将实验室命名为量子人工智能的原因。