米兰体育官网 Gemini镶嵌API + LLM

发布日期：2026-03-18 16:24 点击次数：81

Google 的 gemini-embedding-2-preview 是 Gemini API 中首个多模态镶嵌模子。它将文本、图像、视频、音频和文档映射到一个长入的 3072 维镶嵌空间——支撑跨 100 多种谈话的跨模态搜索、分类和聚类。

咱们提倡了这么一个问题：能否将其从头用作冻结谈话学习模子 (LLM) 的多模态编码器？

确立很是浅易——只需一次 API 调用、一个微型学习适配器和一个冻结的 Qwen3-4B 模子。无需自界说编码器，无需对 LLM 进行微调，即可获取 1700 万个可查考参数。在单个 GPU 上查考只需不到 1 分钟。

代码和权重不错从这里下载。

1、经由

每个输入（图像或音频）都经过三个阶段：

冻结的 Gemini Embedding API — 一次调用 → 3072 维向量

学习 MLP 适配器（1700 万个参数）— 投影到 k 个造谣符号

冻结的 Qwen3-4B — 造谣符号 + 文本辅导 → 摆脱设施谜底

仅查考 MLP 适配器。任务提供监督信息：分类任务提供（图像，标签）对，语音转文本任务提供（音频，文本转录）对。使用交叉熵耗费函数，以着实标签符号动作基准。

各个任务的成果

2、各个任务的成果

咱们针对音频和图像的 8 个任务永诀查考了适配器。所格外据均为在预留测试集上的精准匹配准确率（摆脱生成，绸缪解码）：

物体分类（CIFAR-10）：97%

性别分类（RAVDESS）：99%

词级语音转录（语音号召）：94%

句子级语音转录（畅通语音号召）：89%

服装分类（Fashion-MNIST）：83%

数字分类（SVHN）：62%

心情分类（RAVDESS）：53%

场景文本/OCR（IIIT-5K）：33%

一个3072维向量、一个1700万参数的多层感知器（MLP）和一个冻结的LLM——物体分类准确率达到97%，句子级号召转录准确率达到89%。

3、最令东说念主讶异的成果：跨模态迁徙

咱们使用CIFAR-10图像查考的适配器，并将其输入ESC-50的环境声息。查考技术未给与到任何音频。

狗吠 → “狗”识别率 95%

鸟鸣 → “鸟”识别率 81%

NBA下注app官网下载

猫叫 → “猫”识别率 70%

蛙鸣 → “鸟”识别率 2%（显著，青蛙的叫声听起来像鸟）

总体识别率 59.8%，比当场基线超越 3.6 倍。

Gemini 镶嵌空间具有着实的跨模态对皆智商。“狗”或“鸟”等语义办法变成逾越音频和图像的聚类。

经过音频查考的性别分类器也能部分迁徙到东说念主脸图像：在查考技术仅听到声息的情况下，对 CelebA 东说念主脸的识别率达到 62%。

4、一个适配器不错完成扫数任务吗？

咱们随后查考了一个分享的适配器，用于扫数 8 个任务（4 个音频任务 + 4 个图像任务）。使用调换的 MLP，每个任务使用不同的文本辅导。并调动了造谣符号的数目。

使用 1 个造谣符号时，模子崩溃。扫数单词默意识别为“狗”。

使用 8 个符号时，单词 STT 收复到 90%，物体收复到 69%。

使用 32 个符号（2.61 亿个参数，米兰体育官网LLM 仍然冻结）时，物体达到 85%，服装达到 62%。但句子 STT 和 OCR 仍然无法泛泛责任。

标签集较小的浅易任务不错收复。需要良好输出的复杂任务则无法收复。

5、问题场所：洞开词汇表转录

89% 的句子 STT 适用于包含 169 个号召的阻塞数据集。它能进行着实的转录吗？

咱们在 LibriSpeech（1000 个不同的句子）上进行了测试。完满匹配率 0% — 咱们尝试的扫数确立：

单镶嵌，1 个 token → 0%

单镶嵌，32 个 token → 0%

2 秒片断，每个片断 1 个 token → 0%

1 秒片断，每个片断 1 个 token → 0%

该模子生成的英语畅通当然，与实质语音的词语相同度为零。在阻塞数据集上看似转录的成果实质上是聚类识别——适配器学习的是它正在识别的 169 个已知聚类中的哪一个，而不是实质内容。

8、论断

关于单个任务，Gemini 镶嵌动作洞开式 LLM 的即插即用多模态编码器推崇出色。只需一次 API 调用，一个不到一分钟即可查考完成的微型适配器，一个冻结的 LLM——图像分类准确率达 97%，号召转录准确率达 89%，开箱即用，支撑跨模态迁徙。

无需自界说编码器。无需 LLM 微调。关于任何洞开权重模子而言，这都是一个极具招引力的来源米兰体育官网，不错添增多模态功能。