GPT-4的竞争对手Google进入高能+高产模式-快科技-科技改变未来

   日期:2025-07-09     来源:本站    作者:admin    浏览:91    
核心提示:      在这场争夺AIGC话语权和领导权的战斗中,谷歌和微软正在竞相展示自己的实力。Gemini 1.5 Pro的出现,将多模态大模的

  

  

  在这场争夺AIGC话语权和领导权的战斗中,谷歌和微软正在竞相展示自己的实力。Gemini 1.5 Pro的出现,将多模态大模的标准提升到了一个新的高度。

  1. 极端性能背后的模型架构

  当地时间2月15日,Alphabet和谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)与首席科学家杰夫·迪恩(Jeff Dean)等高管在X平台上发布了多模态模型Gemini 1.5 Pro。这是继2月7日的Gemini 1.0 Ultra之后,Google在多模态大型模型轨道上的又一杰作。

  来源:X平台Alphabet和谷歌首席科学家Jeff Dean的推特

  “巧合的是”,在Gemini 1.5 Pro正式发布两小时后,Open AI发布了重磅游戏《Sora》,相当“有竞争力”。只是因为目前大家关注的焦点都在视频领域,Sora是OpenAI首次发布Vincent视频模型,所以它别无选择,只能抢占头条。

  来源:微博评论

  Gemini 1.5 Pro基于Google对Transformer和MoE架构的领先研究。传统的Transformer作为一个大型神经网络,而MoE(混合专家)模型被分成更小的“专家”神经网络。在这种结构下,通过将模型参数分成多组来实现稀疏计算。即每次执行推理任务时,MoE模型将根据输入类型的判断选择性地通过门控网络。神经网络中最适合指令的专家被激活参与计算。

  这种专业化和模块化的划分可以提高预训练的计算效率,同时提高大型模型处理复杂任务的性能,在保证准确性的同时更快地学习复杂任务。MoE模型的预训练速度比dense模型快;在变压器中使用MoE层代替前馈网络(FFN)层。因此,采用right可以弥补Transformer架构的计算效率问题。

  在Switch-Transformer和M4等领域,谷歌一直是深度学习MoE技术的早期采用者。目前大多数关于大型语言模型的开源和学术工作都没有使用MoE架构。据悉,GPT-4还采用了由8个专家模型组成的集成系统。Mistral AI于2023年12月8日发布的midtral 8x7B也使用了这种架构。目前国内大型模型中,只有Minimax采用了MoE架构。

  2. 膨胀后的co是多少文本窗口意味着什么?

  虽然Gemini 1.5 Pro是Gemini 1.5系列的第一代版本,但第一代表现良好。展开上下文窗口后的高水平性能是Gemini 1.5 Pro的一大亮点。

  如今,大型多模态模型的体积和上下文窗口的容量已经成为提高其理解能力的关键制约因素。以前的SOTA模型将上下文窗口容量增加到200,000个令牌。Google的Gemini 1.5 Pro直接将上下文窗口容量提高到100万个代币(上限为1000万个代币),远远超过了Gemini 1.0最初的3.2万个代币,创下了最长上下文窗口的记录。

  对于文本处理,Gemini 1.5 Pro在处理多达530,000个令牌的文本时能够实现100%的检索完整性,在处理1,000,000个令牌的文本时能够实现99.7%的检索完整性。即使在处理多达10,000,000个文本标记时,检索准确率仍然高达99.2%。在音频处理方面,Gemini 1.5 Pro能够在大约11小时的音频数据中100%成功地检索各种隐藏的音频剪辑。在视频处理方面,Gemini 1.5 Pro能够在大约3小时的视频内容中100%成功检索各种隐藏的视觉元素。

  来源:Gemini 1.5 Pro官方测试数据

  Gemini 1.5 Pro的表现明显优于Gemini 1.0 Pro,在27个基准(31个基准)上表现更好,特别是在数学、科学和推理(+28.9%)、多语言(+22.3%)、视频理解(+ 11.2%)和代码(+8.9%)方面。即使与Gemini系列的高端产品相比,Gemini 1.0 Ultra和Gemini 1.5 Pro在超过一半的基准测试(16/31)上表现更好,尤其是文本基准测试(10/13)和许多视觉基准测试(6/13)。在NIAH测试中,Gemini 1.5 Pro能够找到隐藏在文本块中的特定信息的文本片段,准确率高达99%,最多可达100万个令牌。

  来源:Gemini 1.5 Pro官方测试数据

  这样的背景长度使得Gemini 1.5 Pro可以轻松地处理22小时的录音,是1440页(587287字)的整本书的十倍多。《战争与和平》,以及4万多行代码和3个小时的视频。

  3. 机器大脑有多有用?

  除了高效的架构和强大的上下文处理能力外,Gemini 1.5 Pro的突出品质还在于它的“情境学习”技能,它可以根据长时间的提示从从未见过的信息中学习新技能,而无需额外的微调。较强的学习能力、信息检索和数据分析能力,使知识海洋中的“大海捞针”从想象体现为现实。

  根据官方测试报告,在给予卡拉曼语(一种全球使用人数不到200人的语言)的语法手册(500页语言文献,一本词典和400个平行句子)的情况下,Gemini 1.5 Pro模型可以学习将英语翻译成卡拉曼语,其水平与学习相同内容的水平相似。

  来源:Gemini 1.5 Pro官方演示样本

  当巴斯特·基顿(Buster Keaton)的45分钟电影《神探夏洛克》(1924)(2674帧,1FPS, 684k代币)提示时,Gemini 1.5 Pro可以从其中的特定帧中检索和提取文本信息,并提供相应的时间戳。也可以从手绘草图中识别电影中的场景。不像那些关注特定事实或细节来衡量模型检索能力的任务,这些问题通常需要理解跨越大量文本的信息片段之间的关系。

  来源:Gemini 1.5 Pro官方演示样本

  在处理10万行以上的代码时,Gemini 1.5 Pro也有很强的解题能力。面对庞大的代码量,它可以深入分析每个示例,提出切实可行的修改建议,并详细解释代码的监管框架。给定整个746,152个token的JAX代码库,Gemini 1.5 Pro可以识别核心自动区分方法的确切位置。开发人员可以直接上传新的代码库,并使用该模型快速熟悉和理解代码结构。

  来源:Gemini 1.5 Pro官方演示样本

  正如NVIDIA资深科学家Jim Fan所说,Gemini 1.5 Pro意味着LLM能力的巨大飞跃,这对小型个体经营公司来说是一个巨大的飞跃。

  在探索人机协作的过程中,单一的文本交互难以满足多场景、多样化内容生产的需求。多模式信息处理和生成能力显然是技术变革的起点。纽约大学计算机科学助理教授谢思宁表示,人才第一,数据第二,计算能力第三。没有什么是不可替代的。Gemini 1.5 Pro是谷歌与顶级玩家竞争的另一个强大工具。也许AGI时代正在加速发展。

 
打赏
 
更多>同类文章

推荐图文
推荐文章
点击排行