Gemini通用对话文档

概述

本文档介绍如何通过 gravitex API 的 OpenAI 兼容接口调用 Google Gemini 通用对话模型（含思考模式与搜索）。

基础信息

项目	内容
Base URL	`https://api.gravitex.ai/v1/chat/completions`
认证方式	API Key (Token)
请求头	`Authorization: Bearer sk-xxxx`、`Content-Type: application/json`

支持的模型（示例）

gemini-2.5-flash / gemini-2.5-flash-preview-09-2025

gemini-2.5-flash-lite-preview-09-2025

gemini-2.5-pro

gemini-3-pro-preview（默认开启思考，使用 thinking_level）

gemini-3-pro-preview-thinking-low

gemini-3-pro-preview-thinking-high

以路由配置为准，如有疑问请咨询管理员。

API 接口

1. 最小示例（非流式）

2. 流式 SSE 示例

3. 常用参数

采样与控制：temperature、top_p、max_tokens、stop

结构化输出：response_format/json_schema

工具调用：tools/tool_choice（OpenAI 兼容格式）

思考模式：thinking_budget（2.5 系列）或 thinking_level（3 Pro Preview）

搜索：googleSearch 工具

4. 工具调用（Functions / Tools）

OpenAI 兼容写法：

原生搜索透传（可选，二选一或并存）：

"extra_body": {
  "google": {
    "tools": [
      { "googleSearch": {} }
    ]
  }
}

5. 思考能力（Thinking）

2.5 系列：使用 thinking_budget（数字）。-1 自动，0 关闭，>0 指定预算。

3 Pro Preview：使用 thinking_level（LOW/HIGH），默认 HIGH，无需数字预算。

示例：2.5 系列指定预算

示例：3 Pro Preview 指定思考级别并开启搜索（推荐写法）

响应与用量

非流式：一次性返回 choices、usage

流式：SSE 分片返回；若渠道支持 stream_options.include_usage=true，可在分片内返回实时用量

常见问题（FAQ）

与 OpenAI 兼容程度？

使用 OpenAI Chat Completions 格式；少数字段可能因渠道差异被忽略。

思考模式如何开启？

2.5：thinking_budget 或模型后缀 -thinking/-thinking-<数字>，-nothinking 关闭。

3 Pro Preview：thinking_level（LOW/HIGH），或后缀 -thinking-low/-thinking-high（如 gemini-3-pro-preview-thinking-low），默认 HIGH。

搜索如何开启？

推荐 tools 函数 googleSearch（兼容格式）；或 extra_body.google.tools 透传原生。

会计费吗？

思考消耗计入输出 token；搜索按渠道策略计费。

最佳实践

使用流式提升首字时间与交互体验。

结构化/确定性输出时降低 temperature，控制 max_tokens。

工具调用做好超时与重试；搜索结果可做兜底校验。

Gemini通用对话文档

概述#

基础信息#

支持的模型（示例）#

API 接口#

1. 最小示例（非流式）#

2. 流式 SSE 示例#

3. 常用参数#

4. 工具调用（Functions / Tools）#

5. 思考能力（Thinking）#

响应与用量#

常见问题（FAQ）#

最佳实践#

概述