模型Token服務
按需計費模式-Tokens
本節為您詳細介紹按需計費模式-Tokens。
Token 概念
在模型服務中,一個核心概念是“token”。當您調用模型進行推理服務時,輸入內容會首先經過分詞處理,轉換成模型能夠識別的token形式。隨后,這些token經過模型的處理,再以token的形式輸出,并最終轉化為您所需的文本。
模型服務費用 = token 使用數量 * token 單價
不同的模型可能采用不同的分詞策略,同一段文本在不同模型上的 tokens 計量會存在差異。
產品價格
按 token 使用量付費
出賬時間:每小時出賬。
付款類型:按量后付費。
免費額度:使用模型時,將優先消耗免費額度,免費額度耗盡后,調用將會失敗;如需繼續使用,需要手動開通對應的模型付費服務。
在線推理
標準時段:08:00-24:00,各模型價格如下表,實際購買價格以下單頁面為準。
|
模型名稱 |
條件 |
服務類型 |
計費單位 (元/百萬tokens) |
計費單位 (元/千tokens) |
免費說明 |
|---|---|---|---|---|---|
| DeepSeek-V4-Pro | 輸入 | 12 | 0.012 |
每個模型可免費使用50萬tokens,從第一次使用開始限期兩周。免費額度用完或到期后,可以付費開通服務。 |
|
| 輸出 | 24 | 0.024 | |||
| DeepSeek-V4-Flash | 輸入 | 1 | 0.001 | ||
| 輸出 | 2 | 0.002 | |||
| GLM-5.1 | 輸入(0, 32k] |
輸入 |
6 | 0.006 | |
|
輸出 |
24 | 0.024 | |||
| 輸入(32k, 200k] |
輸入 |
8 | 0.008 | ||
|
輸出 |
28 | 0.028 | |||
| GLM4.6V | 輸入(0, 32k] |
輸入 |
1 | 0.001 | |
|
輸出 |
3 | 0.003 | |||
| 輸入(32k, 128k] |
輸入 |
2 | 0.002 | ||
|
輸出 |
6 | 0.006 | |||
| Qwen3.5-122B-A10B | 輸入(0, 128k] |
輸入 |
0.8 | 0.0008 | |
|
輸出 |
6.4 | 0.0064 | |||
| 輸入(128k, 256k] |
輸入 |
2 | 0.002 | ||
|
輸出 |
16 | 0.016 | |||
| Qwen3.5-35B-A3B | 輸入(0, 128k] |
輸入 |
0.4 | 0.0004 | |
|
輸出 |
3.2 | 0.0032 | |||
| 輸入(128k, 256k] |
輸入 |
1.6 | 0.0016 | ||
|
輸出 |
12.8 | 0.0128 | |||
| Qwen3-Next-80B-A3B-Instruct |
輸入 |
1 | 0.001 | ||
|
輸出 |
4 | 0.004 | |||
| Qwen3-VL-235B-A22B-Instruct |
輸入 |
2 | 0.002 | ||
|
輸出 |
8 | 0.008 | |||
| Kimi-K2.5 |
輸入 |
4 | 0.004 | ||
|
輸出 |
21 | 0.021 | |||
| Minimax-M2.5 |
輸入 |
2.1 | 0.0021 | ||
|
輸出 |
8.4 | 0.0084 | |||
| Qwen3.5-397B-A17B(正式版) | 輸入(0, 128k] |
輸入 |
1.2 |
0.0012 |
每個模型可免費使用2500萬tokens,從第一次使用開始限期兩周。免費額度用完或到期后,可以付費開通服務。 |
|
輸出 |
7.2 | 0.0072 | |||
| 輸入(128k, 256k] |
輸入 |
3 | 0.003 | ||
|
輸出 |
18 |
0.018 | |||
| GLM-5(正式版) | 輸入(0, 32k] |
輸入 |
4 |
0.004 | |
|
輸出 |
18 |
0.018 | |||
| 輸入(32k,200k] |
輸入 |
6 | 0.006 | ||
|
輸出 |
22 | 0.022 | |||
| DeepSeek-V3.2(旗艦版) |
輸入 |
2 |
0.002 | ||
| 輸入(緩存命中) | 0.2 | 0.0002 | |||
|
輸出 |
3 |
0.003 | |||
|
DeepSeek-V3.1 |
輸入 |
4 |
0.004 | ||
|
輸入(緩存命中) |
0.5 |
0.0005 | |||
|
輸出 |
16 | 0.016 | |||
| DeepSeek-R1-0528 |
輸入 |
4 |
0.004 | ||
|
輸出 |
16 |
0.016 | |||
|
DeepSeek-R1 |
輸入 |
4 |
0.004 | ||
|
輸出 |
16 |
0.016 | |||
|
DeepSeek-V3 |
輸入 |
2 |
0.002 | ||
|
輸出 |
8 |
0.008 | |||
|
DeepSeek-V3-0324 |
輸入 |
2 |
0.002 | ||
|
輸出 |
8 |
0.008 | |||
|
DeepSeek-R1-Distill-Llama-70B |
輸入 |
4.1 |
0.0041 | ||
|
輸出 |
4.1 |
0.0041 | |||
|
DeepSeek-R1-Distill-Qwen-32B |
輸入 |
1.3 |
0.0013 | ||
|
輸出 |
1.3 |
0.0013 | |||
| Qwen3-VL-30B-A3B-Instruct |
輸入 |
0.75 | 0.00075 |
每個模型可免費使用100萬tokens,從第一次使用開始限期兩周。免費額度用完或到期后,可以付費開通服務。 |
|
|
輸出 |
3 | 0.003 | |||
|
Qwen3-Coder-480B-A35B-Instruct |
輸入 |
8 | 0.008 | ||
|
輸出 |
16 | 0.016 | |||
| Qwen3-235B-A22B-Instruct-2507 |
輸入 |
2 | 0.002 | ||
|
輸出 |
8 | 0.008 | |||
|
Qwen3-235B-A22B |
輸入 |
2.5 | 0.0025 | ||
|
輸出 |
10 | 0.01 | |||
| Qwen3-30B-A3B |
輸入 |
1 | 0.001 | ||
|
輸出 |
4 | 0.004 | |||
| Qwen3-32B |
輸入 |
1 | 0.001 | ||
|
輸出 |
4 | 0.004 | |||
| Qwen3-14B |
輸入 |
0.8 |
0.0008 | ||
|
輸出 |
1.6 |
0.0016 | |||
|
Qwen3-8B |
輸入 |
0.3 |
0.0003 | ||
|
輸出 |
0.6 |
0.0006 | |||
| Qwen3-4B |
輸入 |
0.3 | 0.0003 | ||
|
輸出 |
0.6 | 0.0006 | |||
|
Qwen2.5-72B-Instruct |
輸入 |
4.13 |
0.00413 | ||
|
輸出 |
4.13 |
0.00413 | |||
|
Qwen2.5-VL-72B-Instruct |
輸入 |
4.13 |
0.00413 | ||
|
輸出 |
4.13 |
0.00413 | |||
|
Qwen-VL-Chat |
輸入 |
0.8 |
0.0008 | ||
|
輸出 |
1.6 |
0.0016 | |||
| BGE-m3 |
輸入 |
0.5 | 0.0005 | ||
| BGE-Reranker-Large |
輸入 |
0.5 | 0.0005 | ||
|
Kimi-K2-Instruct |
輸入 |
4 | 0.004 | ||
|
輸出 |
16 | 0.016 | |||
|
其他系列模型 |
每個模型可免費使用一定額度tokens,用盡后不支持tokens計費模式。 |
||||
優惠時段
優惠時段:00:00-08:00,各模型價格如下表,實際購買價格以下單頁面為準。
說明:優惠時段不適用于緩存命中價格,緩存命中價格全天一致。
| 模型名稱 | 條件 | 服務類型 |
計費單位 (元/百萬tokens) |
計費單位 (元/千tokens) |
優惠時段說明 |
|---|---|---|---|---|---|
| Qwen3.5-397B-A17B(正式版) | 輸入(0, 128k] |
輸入 |
0.6 |
0.0006 |
優惠時段時間范圍:00:00-08:00 |
|
輸出 |
3.6 |
0.0036 | |||
| 輸入(128, 256k] |
輸入 |
1.5 |
0.0015 | ||
|
輸出 |
9 |
0.009 | |||
| GLM-5(正式版) | 輸入(0, 32k] |
輸入 |
2 |
0.002 | |
|
輸出 |
9 |
0.009 | |||
| 輸入(32k,200k] |
輸入 |
3 |
0.003 | ||
|
輸出 |
11 |
0.011 | |||
| DeepSeek-V3.2(旗艦版) |
輸入 |
1 | 0.001 | ||
|
輸出 |
1.5 | 0.0015 | |||
| DeepSeek-V3.1 |
輸入 |
2 | 0.002 | ||
|
輸出 |
8 | 0.008 | |||
| DeepSeek-R1-0528 |
輸入 |
1 | 0.001 | ||
|
輸出 |
4 | 0.004 | |||
| DeepSeek-V3-0324 |
輸入 |
1 | 0.001 | ||
|
輸出 |
4 | 0.004 | |||
| DeepSeek-R1 |
輸入 |
1 | 0.001 | ||
|
輸出 |
4 | 0.004 | |||
| DeepSeek-V3 |
輸入 |
1 | 0.001 | ||
|
輸出 |
4 | 0.004 | |||
批量推理
| 模型名稱 | 服務類型 |
計費單位 (元/百萬tokens) |
計費單位 (元/千tokens) |
批量推理說明 |
|---|---|---|---|---|
| DeepSeek-V3.1 |
輸入 |
1.6 |
0.0016 |
適用于無需實時響應的業務場景,可通過離線方式進行大規模數據處理。價格為在線推理標準時段的40% |
|
輸出 |
6.4 |
0.0064 | ||
| DeepSeek-V3-0324 |
輸入 |
0.8 |
0.0008 | |
|
輸出 |
3.2 |
0.0032 | ||
| DeepSeek-V3 |
輸入 |
0.8 |
0.0008 | |
|
輸出 |
3.2 |
0.0032 | ||
| DeepSeek-R1-0528 |
輸入 |
1.6 |
0.0016 | |
|
輸出 |
6.4 |
0.0064 | ||
| DeepSeek-R1 |
輸入 |
1.6 |
0.0016 | |
|
輸出 |
6.4 |
0.0064 |
使用限制
當前對模型設置了 RPM(Requests Per Minute,每分鐘請求數)及 TPM(Tokens Per Minute,每分鐘 token 數量)的調用限制,具體限制可在模型廣場模型詳情頁中查看。
