分类	参数	作用	典型值/备注
输出长度	max_tokens	限制胜场最大长度（单位：token）	一般256~2048，根据任务定
输出长度	min_tokens	限制最小输出长度	部分接口支持
随机性 & 多样性	temperature	控制随机性，越大越随机	1.0
随机性 & 多样性	top_n	仅考虑前 N 个概率最高的候选
随机性 & 多样性	top_p	概率累积采样，控制多样性
随机性 & 多样性	frequency_penalty	惩罚重复内容频率	-2 ~ 2，常用 0~1
随机性 & 多样性	presence_penalty	惩罚已出现过的内容，鼓励新内容	-2 ~ 2，常用 0~1
输出控制	stop	停止符，遇到即停止输出
输出控制	best_of	生成多个候选，取最优	资源消耗大
输出控制	n	返回多个候选	常用于对比
输出控制	logprobs	返回 token 概率	调试/可解释性
上下文相关	prompt	输入内容	文本/对话
上下文相关	suffix	输出必须接在的内容	不常用
上下文相关	echo	是否返回 prompt	调试用
聊天/角色控制	system	定义系统角色
聊天/角色控制	user	用户角色
聊天/角色控制	assistant	大模型角色
聊天/角色控制	tools/functions	调用外部函数或工具
其他	logit_bias	调整特定token频率
其他	stream	流式输出	实时场景
其他	seed	随机数种子	结果可复现

大模型推理参数讲解