【问题解决】放心部署：Python + Gradio 搭建大模型 WebUI，闪退/跨域/报错全解决

本文总结了使用Python + Gradio搭建大模型WebUI时常见的闪退、跨域和报错问题及其解决方案。闪退问题主要由内存/显存不足、异常未捕获等引起；跨域问题源于CORS配置错误或服务器设置不当；报错问题多由模型路径、权限或网络问题导致。文章提供了一个稳定的Gradio应用实现方案，包含模型加载、日志记录、异常处理和UI界面设计等功能，通过异常捕获、日志记录和资源管理确保应用稳定性，同时处理了

步入烟尘

9人浏览 · 2026-02-19 21:24:33

步入烟尘 · 2026-02-19 21:24:33 发布

【问题解决】放心部署：Python + Gradio 搭建大模型 WebUI，闪退/跨域/报错全解决

问题现象

在使用Python + Gradio搭建大模型WebUI时，经常遇到以下问题：

# 闪退问题
# 程序启动后立即退出
# 运行一段时间后崩溃
# 内存溢出
# 进程被杀死

# 跨域问题
# CORS错误
# 前端无法访问
# WebSocket连接失败
# API调用被阻止

# 报错问题
# 模型加载失败
# 推理错误
# 超时错误
# 资源不足

这些问题影响WebUI的稳定性和可用性。本文将提供完整的解决方案。

问题原因分析

闪退问题原因

内存不足
GPU显存不足
异常未捕获
依赖库版本冲突
资源泄漏

跨域问题原因

CORS配置错误
服务器配置不当
防火墙阻止
代理设置错误
端口被占用

报错问题原因

模型路径错误
权限不足
配置文件错误
网络问题
API密钥错误

解决方案

方案一：稳定的Gradio应用

import gradio as gr
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from typing import Optional
import logging
import traceback
from pathlib import Path

class StableGradioApp:
    """稳定的Gradio应用"""
    def __init__(
        self,
        model_path: str,
        device: str = "cuda",
        max_length: int = 512
    ):
        self.model_path = model_path
        self.device = device
        self.max_length = max_length

        self.model = None
        self.tokenizer = None

        self._setup_logging()
        self._load_model()

    def _setup_logging(self):
        """设置日志"""
        logging.basicConfig(
            level=logging.INFO,
            format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
            handlers=[
                logging.FileHandler('gradio_app.log'),
                logging.StreamHandler()
            ]
        )
        self.logger = logging.getLogger('GradioApp')

    def _load_model(self):
        """加载模型"""
        try:
            self.logger.info(f"开始加载模型: {self.model_path}")

            self.tokenizer = AutoTokenizer.from_pretrained(self.model_path)

            self.model = AutoModelForCausalLM.from_pretrained(
                self.model_path,
                torch_dtype=torch.float16,
                device_map="auto"
            )

            if self.tokenizer.pad_token is None:
                self.tokenizer.pad_token = self.tokenizer.eos_token

            self.logger.info("模型加载成功")

        except Exception as e:
            self.logger.error(f"模型加载失败: {str(e)}")
            self.logger.error(traceback.format_exc())
            raise

    def generate(
        self,
        prompt: str,
        temperature: float = 0.7,
        top_p: float = 0.9,
        max_new_tokens: int = 256
    ) -> str:
        """生成文本"""
        try:
            inputs = self.tokenizer(
                prompt,
                return_tensors="pt",
                truncation=True,
                max_length=self.max_length
            ).to(self.device)

            with torch.no_grad():
                outputs = self.model.generate(
                    **inputs,
                    max_new_tokens=max_new_tokens,
                    temperature=temperature,
                    top_p=top_p,
                    do_sample=True,
                    pad_token_id=self.tokenizer.pad_token_id
                )

            generated_text = self.tokenizer.decode(
                outputs[0],
                skip_special_tokens=True
            )

            return generated_text

        except Exception as e:
            self.logger.error(f"生成失败: {str(e)}")
            self.logger.error(traceback.format_exc())
            return f"生成失败: {str(e)}"

    def create_interface(self):
        """创建界面"""
        with gr.Blocks(title="大模型WebUI") as interface:
            gr.Markdown("# 大模型WebUI")

            with gr.Row():
                with gr.Column():
                    prompt_input = gr.Textbox(
                        label="输入",
                        placeholder="请输入提示词...",
                        lines=5
                    )

                    with gr.Row():
                        temperature = gr.Slider(
                            minimum=0.1,
                            maximum=2.0,
                            value=0.7,
                            step=0.1,
                            label="Temperature"
                        )

                        top_p = gr.Slider(
                            minimum=0.1,
                            maximum=1.0,
                            value=0.9,
                            step=0.1,
                            label="Top P"
                        )

                        max_tokens = gr.Slider(
                            minimum=64,
                            maximum=512,
                            value=256,
                            step=32,
                            label="Max Tokens"
                        )

                    generate_btn = gr.Button("生成", variant="primary")

                with gr.Column():
                    output = gr.Textbox(
                        label="输出",
                        lines=10,
                        readonly=True
                    )

            generate_btn.click(
                fn=self.generate,
                inputs=[prompt_input, temperature, top_p, max_tokens],
                outputs=output
            )

        return interface

    def launch(
        self,
        server_name: str = "0.0.0.0",
        server_port: int = 7860,
        share: bool = False
    ):
        """启动应用"""
        try:
            interface = self.create_interface()

            self.logger.info(f"启动Gradio应用: {server_name}:{server_port}")

            interface.launch(
                server_name=server_name,
                server_port=server_port,
                share=share,
                prevent_thread_lock=True
            )

        except Exception as e:
            self.logger.error(f"启动失败: {str(e)}")
            self.logger.error(traceback.format_exc())
            raise

# 使用示例
app = StableGradioApp(
    model_path="meta-llama/Llama-2-7b-hf",
    device="cuda",
    max_length=512
)

app.launch(
    server_name="0.0.0.0",
    server_port=7860,
    share=False
)

方案二：错误处理和恢复

import gradio as gr
import torch
from typing import Optional, Callable
import logging
import traceback
from functools import wraps

class ErrorHandler:
    """错误处理器"""
    def __init__(self):
        self.error_count = 0
        self.max_errors = 10

    def handle_error(self, error: Exception) -> str:
        """处理错误"""
        self.error_count += 1

        error_message = f"错误: {str(error)}"

        if self.error_count >= self.max_errors:
            error_message += "\n\n错误次数过多，请重启应用"

        return error_message

    def reset(self):
        """重置错误计数"""
        self.error_count = 0

def safe_generate(func: Callable) -> Callable:
    """安全生成装饰器"""
    @wraps(func)
    def wrapper(*args, **kwargs):
        try:
            return func(*args, **kwargs)
        except torch.cuda.OutOfMemoryError:
            torch.cuda.empty_cache()
            return "显存不足，请尝试减小batch size或使用更短的输入"
        except Exception as e:
            return f"生成失败: {str(e)}"
    return wrapper

class RobustGradioApp:
    """健壮的Gradio应用"""
    def __init__(self, model_path: str):
        self.model_path = model_path
        self.error_handler = ErrorHandler()

        self._setup_logging()
        self._load_model()

    def _setup_logging(self):
        """设置日志"""
        logging.basicConfig(
            level=logging.INFO,
            format='%(asctime)s - %(levelname)s - %(message)s'
        )
        self.logger = logging.getLogger('RobustApp')

    def _load_model(self):
        """加载模型"""
        try:
            from transformers import AutoModelForCausalLM, AutoTokenizer

            self.logger.info("加载模型...")

            self.tokenizer = AutoTokenizer.from_pretrained(self.model_path)
            self.model = AutoModelForCausalLM.from_pretrained(
                self.model_path,
                torch_dtype=torch.float16,
                device_map="auto"
            )

            if self.tokenizer.pad_token is None:
                self.tokenizer.pad_token = self.tokenizer.eos_token

            self.logger.info("模型加载成功")

        except Exception as e:
            self.logger.error(f"模型加载失败: {str(e)}")
            raise

    @safe_generate
    def generate(self, prompt: str, **kwargs) -> str:
        """生成文本"""
        try:
            inputs = self.tokenizer(
                prompt,
                return_tensors="pt",
                truncation=True,
                max_length=512
            ).to(self.model.device)

            with torch.no_grad():
                outputs = self.model.generate(
                    **inputs,
                    max_new_tokens=kwargs.get('max_tokens', 256),
                    temperature=kwargs.get('temperature', 0.7),
                    top_p=kwargs.get('top_p', 0.9),
                    do_sample=True,
                    pad_token_id=self.tokenizer.pad_token_id
                )

            generated_text = self.tokenizer.decode(
                outputs[0],
                skip_special_tokens=True
            )

            self.error_handler.reset()
            return generated_text

        except Exception as e:
            error_msg = self.error_handler.handle_error(e)
            self.logger.error(f"生成错误: {error_msg}")
            return error_msg

    def create_interface(self):
        """创建界面"""
        with gr.Blocks(title="健壮的大模型WebUI") as interface:
            gr.Markdown("# 健壮的大模型WebUI")

            with gr.Row():
                with gr.Column():
                    prompt_input = gr.Textbox(
                        label="输入",
                        placeholder="请输入提示词...",
                        lines=5
                    )

                    with gr.Row():
                        temperature = gr.Slider(
                            minimum=0.1,
                            maximum=2.0,
                            value=0.7,
                            step=0.1,
                            label="Temperature"
                        )

                        top_p = gr.Slider(
                            minimum=0.1,
                            maximum=1.0,
                            value=0.9,
                            step=0.1,
                            label="Top P"
                        )

                        max_tokens = gr.Slider(
                            minimum=64,
                            maximum=512,
                            value=256,
                            step=32,
                            label="Max Tokens"
                        )

                    generate_btn = gr.Button("生成", variant="primary")
                    clear_btn = gr.Button("清除")

                with gr.Column():
                    output = gr.Textbox(
                        label="输出",
                        lines=10,
                        readonly=True
                    )

                    status = gr.Textbox(
                        label="状态",
                        value="就绪",
                        readonly=True
                    )

            def update_status(status_text: str):
                """更新状态"""
                return status_text

            generate_btn.click(
                fn=lambda: update_status("生成中..."),
                outputs=status
            ).then(
                fn=self.generate,
                inputs=[prompt_input, temperature, top_p, max_tokens],
                outputs=output
            ).then(
                fn=lambda: update_status("就绪"),
                outputs=status
            )

            clear_btn.click(
                fn=lambda: ("", "", "就绪"),
                outputs=[prompt_input, output, status]
            )

        return interface

# 使用示例
app = RobustGradioApp(model_path="meta-llama/Llama-2-7b-hf")
interface = app.create_interface()
interface.launch(server_name="0.0.0.0", server_port=7860)

方案三：跨域问题解决

import gradio as gr
from typing import Optional
import logging

class CORSGradioApp:
    """支持CORS的Gradio应用"""
    def __init__(
        self,
        model_path: str,
        allowed_origins: Optional[list] = None
    ):
        self.model_path = model_path
        self.allowed_origins = allowed_origins or ["*"]

        self._setup_logging()
        self._load_model()

    def _setup_logging(self):
        """设置日志"""
        logging.basicConfig(
            level=logging.INFO,
            format='%(asctime)s - %(levelname)s - %(message)s'
        )
        self.logger = logging.getLogger('CORSApp')

    def _load_model(self):
        """加载模型"""
        from transformers import AutoModelForCausalLM, AutoTokenizer

        self.logger.info("加载模型...")

        self.tokenizer = AutoTokenizer.from_pretrained(self.model_path)
        self.model = AutoModelForCausalLM.from_pretrained(
            self.model_path,
            torch_dtype=torch.float16,
            device_map="auto"
        )

        if self.tokenizer.pad_token is None:
            self.tokenizer.pad_token = self.tokenizer.eos_token

        self.logger.info("模型加载成功")

    def generate(self, prompt: str, **kwargs) -> str:
        """生成文本"""
        import torch

        inputs = self.tokenizer(
            prompt,
            return_tensors="pt",
            truncation=True,
            max_length=512
        ).to(self.model.device)

        with torch.no_grad():
            outputs = self.model.generate(
                **inputs,
                max_new_tokens=kwargs.get('max_tokens', 256),
                temperature=kwargs.get('temperature', 0.7),
                top_p=kwargs.get('top_p', 0.9),
                do_sample=True,
                pad_token_id=self.tokenizer.pad_token_id
            )

        generated_text = self.tokenizer.decode(
            outputs[0],
            skip_special_tokens=True
        )

        return generated_text

    def create_interface(self):
        """创建界面"""
        with gr.Blocks(title="支持CORS的WebUI") as interface:
            gr.Markdown("# 支持CORS的大模型WebUI")

            with gr.Row():
                with gr.Column():
                    prompt_input = gr.Textbox(
                        label="输入",
                        placeholder="请输入提示词...",
                        lines=5
                    )

                    with gr.Row():
                        temperature = gr.Slider(
                            minimum=0.1,
                            maximum=2.0,
                            value=0.7,
                            step=0.1,
                            label="Temperature"
                        )

                        top_p = gr.Slider(
                            minimum=0.1,
                            maximum=1.0,
                            value=0.9,
                            step=0.1,
                            label="Top P"
                        )

                        max_tokens = gr.Slider(
                            minimum=64,
                            maximum=512,
                            value=256,
                            step=32,
                            label="Max Tokens"
                        )

                    generate_btn = gr.Button("生成", variant="primary")

                with gr.Column():
                    output = gr.Textbox(
                        label="输出",
                        lines=10,
                        readonly=True
                    )

            generate_btn.click(
                fn=self.generate,
                inputs=[prompt_input, temperature, top_p, max_tokens],
                outputs=output
            )

        return interface

    def launch(
        self,
        server_name: str = "0.0.0.0",
        server_port: int = 7860,
        share: bool = False,
        allowed_paths: Optional[list] = None
    ):
        """启动应用"""
        interface = self.create_interface()

        self.logger.info(f"启动Gradio应用: {server_name}:{server_port}")

        interface.launch(
            server_name=server_name,
            server_port=server_port,
            share=share,
            allowed_paths=allowed_paths,
            prevent_thread_lock=True
        )

# 使用示例
app = CORSGradioApp(
    model_path="meta-llama/Llama-2-7b-hf",
    allowed_origins=["*"]
)

app.launch(
    server_name="0.0.0.0",
    server_port=7860,
    share=False
)

方案四：资源管理

import gradio as gr
import torch
import gc
from typing import Optional
import logging

class ResourceManager:
    """资源管理器"""
    def __init__(self, max_memory_gb: float = 20.0):
        self.max_memory_gb = max_memory_gb
        self.logger = logging.getLogger('ResourceManager')

    def check_memory(self) -> dict:
        """检查内存"""
        if torch.cuda.is_available():
            allocated = torch.cuda.memory_allocated() / 1024**3
            reserved = torch.cuda.memory_reserved() / 1024**3
            total = torch.cuda.get_device_properties(0).total_memory / 1024**3

            return {
                "allocated_gb": allocated,
                "reserved_gb": reserved,
                "total_gb": total,
                "free_gb": total - reserved,
                "usage_percent": (reserved / total) * 100
            }
        else:
            return {"error": "CUDA不可用"}

    def cleanup(self):
        """清理资源"""
        gc.collect()
        if torch.cuda.is_available():
            torch.cuda.empty_cache()

        self.logger.info("资源已清理")

    def is_memory_available(self, required_gb: float = 2.0) -> bool:
        """检查是否有足够内存"""
        memory_info = self.check_memory()

        if "error" in memory_info:
            return False

        return memory_info["free_gb"] >= required_gb

class ResourceManagedGradioApp:
    """资源管理的Gradio应用"""
    def __init__(
        self,
        model_path: str,
        max_memory_gb: float = 20.0
    ):
        self.model_path = model_path
        self.resource_manager = ResourceManager(max_memory_gb)

        self._setup_logging()
        self._load_model()

    def _setup_logging(self):
        """设置日志"""
        logging.basicConfig(
            level=logging.INFO,
            format='%(asctime)s - %(levelname)s - %(message)s'
        )
        self.logger = logging.getLogger('ResourceApp')

    def _load_model(self):
        """加载模型"""
        from transformers import AutoModelForCausalLM, AutoTokenizer

        self.logger.info("加载模型...")

        self.tokenizer = AutoTokenizer.from_pretrained(self.model_path)
        self.model = AutoModelForCausalLM.from_pretrained(
            self.model_path,
            torch_dtype=torch.float16,
            device_map="auto"
        )

        if self.tokenizer.pad_token is None:
            self.tokenizer.pad_token = self.tokenizer.eos_token

        self.logger.info("模型加载成功")

    def generate(self, prompt: str, **kwargs) -> str:
        """生成文本"""
        if not self.resource_manager.is_memory_available(required_gb=2.0):
            self.resource_manager.cleanup()

        try:
            inputs = self.tokenizer(
                prompt,
                return_tensors="pt",
                truncation=True,
                max_length=512
            ).to(self.model.device)

            with torch.no_grad():
                outputs = self.model.generate(
                    **inputs,
                    max_new_tokens=kwargs.get('max_tokens', 256),
                    temperature=kwargs.get('temperature', 0.7),
                    top_p=kwargs.get('top_p', 0.9),
                    do_sample=True,
                    pad_token_id=self.tokenizer.pad_token_id
                )

            generated_text = self.tokenizer.decode(
                outputs[0],
                skip_special_tokens=True
            )

            return generated_text

        except torch.cuda.OutOfMemoryError:
            self.resource_manager.cleanup()
            return "显存不足，已清理缓存，请重试"

        except Exception as e:
            return f"生成失败: {str(e)}"

    def get_memory_info(self) -> str:
        """获取内存信息"""
        memory_info = self.resource_manager.check_memory()

        if "error" in memory_info:
            return memory_info["error"]

        return (
            f"已分配: {memory_info['allocated_gb']:.2f} GB\n"
            f"已保留: {memory_info['reserved_gb']:.2f} GB\n"
            f"空闲: {memory_info['free_gb']:.2f} GB\n"
            f"使用率: {memory_info['usage_percent']:.1f}%"
        )

    def create_interface(self):
        """创建界面"""
        with gr.Blocks(title="资源管理的WebUI") as interface:
            gr.Markdown("# 资源管理的大模型WebUI")

            with gr.Row():
                with gr.Column():
                    prompt_input = gr.Textbox(
                        label="输入",
                        placeholder="请输入提示词...",
                        lines=5
                    )

                    with gr.Row():
                        temperature = gr.Slider(
                            minimum=0.1,
                            maximum=2.0,
                            value=0.7,
                            step=0.1,
                            label="Temperature"
                        )

                        top_p = gr.Slider(
                            minimum=0.1,
                            maximum=1.0,
                            value=0.9,
                            step=0.1,
                            label="Top P"
                        )

                        max_tokens = gr.Slider(
                            minimum=64,
                            maximum=512,
                            value=256,
                            step=32,
                            label="Max Tokens"
                        )

                    generate_btn = gr.Button("生成", variant="primary")
                    cleanup_btn = gr.Button("清理缓存")

                with gr.Column():
                    output = gr.Textbox(
                        label="输出",
                        lines=10,
                        readonly=True
                    )

                    memory_info = gr.Textbox(
                        label="内存信息",
                        value=self.get_memory_info(),
                        readonly=True,
                        lines=4
                    )

            generate_btn.click(
                fn=self.generate,
                inputs=[prompt_input, temperature, top_p, max_tokens],
                outputs=output
            ).then(
                fn=self.get_memory_info,
                outputs=memory_info
            )

            cleanup_btn.click(
                fn=lambda: (self.resource_manager.cleanup(), self.get_memory_info()),
                outputs=[output, memory_info]
            )

        return interface

# 使用示例
app = ResourceManagedGradioApp(
    model_path="meta-llama/Llama-2-7b-hf",
    max_memory_gb=20.0
)

interface = app.create_interface()
interface.launch(server_name="0.0.0.0", server_port=7860)

方案五：完整的生产级应用

import gradio as gr
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from typing import Optional, Dict
import logging
import traceback
from pathlib import Path
import json
from datetime import datetime

class ProductionGradioApp:
    """生产级Gradio应用"""
    def __init__(
        self,
        model_path: str,
        config_path: Optional[str] = None,
        log_dir: str = "./logs"
    ):
        self.model_path = model_path
        self.config_path = config_path
        self.log_dir = Path(log_dir)
        self.log_dir.mkdir(parents=True, exist_ok=True)

        self.config = self._load_config()
        self._setup_logging()
        self._load_model()

        self.request_count = 0
        self.error_count = 0

    def _load_config(self) -> Dict:
        """加载配置"""
        default_config = {
            "max_length": 512,
            "max_new_tokens": 256,
            "temperature": 0.7,
            "top_p": 0.9,
            "device": "cuda",
            "max_memory_gb": 20.0
        }

        if self.config_path and Path(self.config_path).exists():
            with open(self.config_path, 'r', encoding='utf-8') as f:
                user_config = json.load(f)
                default_config.update(user_config)

        return default_config

    def _setup_logging(self):
        """设置日志"""
        log_file = self.log_dir / f"app_{datetime.now().strftime('%Y%m%d')}.log"

        logging.basicConfig(
            level=logging.INFO,
            format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
            handlers=[
                logging.FileHandler(log_file, encoding='utf-8'),
                logging.StreamHandler()
            ]
        )
        self.logger = logging.getLogger('ProductionApp')

    def _load_model(self):
        """加载模型"""
        try:
            self.logger.info(f"加载模型: {self.model_path}")

            self.tokenizer = AutoTokenizer.from_pretrained(self.model_path)

            self.model = AutoModelForCausalLM.from_pretrained(
                self.model_path,
                torch_dtype=torch.float16,
                device_map="auto"
            )

            if self.tokenizer.pad_token is None:
                self.tokenizer.pad_token = self.tokenizer.eos_token

            self.logger.info("模型加载成功")

        except Exception as e:
            self.logger.error(f"模型加载失败: {str(e)}")
            self.logger.error(traceback.format_exc())
            raise

    def generate(self, prompt: str, **kwargs) -> str:
        """生成文本"""
        self.request_count += 1

        try:
            self.logger.info(f"请求 #{self.request_count}: {prompt[:50]}...")

            inputs = self.tokenizer(
                prompt,
                return_tensors="pt",
                truncation=True,
                max_length=self.config["max_length"]
            ).to(self.model.device)

            with torch.no_grad():
                outputs = self.model.generate(
                    **inputs,
                    max_new_tokens=kwargs.get('max_tokens', self.config["max_new_tokens"]),
                    temperature=kwargs.get('temperature', self.config["temperature"]),
                    top_p=kwargs.get('top_p', self.config["top_p"]),
                    do_sample=True,
                    pad_token_id=self.tokenizer.pad_token_id
                )

            generated_text = self.tokenizer.decode(
                outputs[0],
                skip_special_tokens=True
            )

            self.logger.info(f"请求 #{self.request_count} 完成")
            return generated_text

        except torch.cuda.OutOfMemoryError:
            self.error_count += 1
            self.logger.error(f"请求 #{self.request_count} 失败: 显存不足")
            torch.cuda.empty_cache()
            return "显存不足，已清理缓存，请重试"

        except Exception as e:
            self.error_count += 1
            self.logger.error(f"请求 #{self.request_count} 失败: {str(e)}")
            self.logger.error(traceback.format_exc())
            return f"生成失败: {str(e)}"

    def get_stats(self) -> str:
        """获取统计信息"""
        success_rate = (
            (self.request_count - self.error_count) / self.request_count * 100
            if self.request_count > 0 else 100
        )

        return (
            f"总请求数: {self.request_count}\n"
            f"错误数: {self.error_count}\n"
            f"成功率: {success_rate:.1f}%"
        )

    def get_memory_info(self) -> str:
        """获取内存信息"""
        if torch.cuda.is_available():
            allocated = torch.cuda.memory_allocated() / 1024**3
            reserved = torch.cuda.memory_reserved() / 1024**3
            total = torch.cuda.get_device_properties(0).total_memory / 1024**3

            return (
                f"已分配: {allocated:.2f} GB\n"
                f"已保留: {reserved:.2f} GB\n"
                f"空闲: {total - reserved:.2f} GB\n"
                f"使用率: {(reserved / total) * 100:.1f}%"
            )
        else:
            return "CUDA不可用"

    def create_interface(self):
        """创建界面"""
        with gr.Blocks(title="生产级大模型WebUI") as interface:
            gr.Markdown("# 生产级大模型WebUI")

            with gr.Tabs():
                with gr.Tab("对话"):
                    with gr.Row():
                        with gr.Column():
                            prompt_input = gr.Textbox(
                                label="输入",
                                placeholder="请输入提示词...",
                                lines=5
                            )

                            with gr.Row():
                                temperature = gr.Slider(
                                    minimum=0.1,
                                    maximum=2.0,
                                    value=self.config["temperature"],
                                    step=0.1,
                                    label="Temperature"
                                )

                                top_p = gr.Slider(
                                    minimum=0.1,
                                    maximum=1.0,
                                    value=self.config["top_p"],
                                    step=0.1,
                                    label="Top P"
                                )

                                max_tokens = gr.Slider(
                                    minimum=64,
                                    maximum=512,
                                    value=self.config["max_new_tokens"],
                                    step=32,
                                    label="Max Tokens"
                                )

                            with gr.Row():
                                generate_btn = gr.Button("生成", variant="primary")
                                clear_btn = gr.Button("清除")
                                cleanup_btn = gr.Button("清理缓存")

                        with gr.Column():
                            output = gr.Textbox(
                                label="输出",
                                lines=10,
                                readonly=True
                            )

                    generate_btn.click(
                        fn=self.generate,
                        inputs=[prompt_input, temperature, top_p, max_tokens],
                        outputs=output
                    )

                    clear_btn.click(
                        fn=lambda: ("",),
                        outputs=[prompt_input]
                    )

                    cleanup_btn.click(
                        fn=lambda: (torch.cuda.empty_cache() if torch.cuda.is_available() else None, "缓存已清理"),
                        outputs=[output]
                    )

                with gr.Tab("监控"):
                    with gr.Row():
                        stats = gr.Textbox(
                            label="统计信息",
                            value=self.get_stats(),
                            readonly=True,
                            lines=3
                        )

                        memory_info = gr.Textbox(
                            label="内存信息",
                            value=self.get_memory_info(),
                            readonly=True,
                            lines=4
                        )

                    refresh_btn = gr.Button("刷新")

                    refresh_btn.click(
                        fn=lambda: (self.get_stats(), self.get_memory_info()),
                        outputs=[stats, memory_info]
                )

        return interface

    def launch(
        self,
        server_name: str = "0.0.0.0",
        server_port: int = 7860,
        share: bool = False
    ):
        """启动应用"""
        try:
            interface = self.create_interface()

            self.logger.info(f"启动Gradio应用: {server_name}:{server_port}")

            interface.launch(
                server_name=server_name,
                server_port=server_port,
                share=share,
                prevent_thread_lock=True
            )

        except Exception as e:
            self.logger.error(f"启动失败: {str(e)}")
            self.logger.error(traceback.format_exc())
            raise

# 使用示例
app = ProductionGradioApp(
    model_path="meta-llama/Llama-2-7b-hf",
    config_path="config.json",
    log_dir="./logs"
)

app.launch(
    server_name="0.0.0.0",
    server_port=7860,
    share=False
)

常见场景解决

场景1：多模型支持

class MultiModelGradioApp:
    """多模型Gradio应用"""
    def __init__(self, models: Dict[str, str]):
        self.models = models
        self.current_model = list(models.keys())[0]

        self._load_models()

    def _load_models(self):
        """加载所有模型"""
        from transformers import AutoModelForCausalLM, AutoTokenizer

        self.loaded_models = {}

        for name, path in self.models.items():
            print(f"加载模型: {name}")

            tokenizer = AutoTokenizer.from_pretrained(path)
            model = AutoModelForCausalLM.from_pretrained(
                path,
                torch_dtype=torch.float16,
                device_map="auto"
            )

            if tokenizer.pad_token is None:
                tokenizer.pad_token = tokenizer.eos_token

            self.loaded_models[name] = {
                "model": model,
                "tokenizer": tokenizer
            }

    def switch_model(self, model_name: str):
        """切换模型"""
        if model_name in self.loaded_models:
            self.current_model = model_name
            return f"已切换到模型: {model_name}"
        else:
            return f"模型不存在: {model_name}"

    def generate(self, prompt: str, **kwargs) -> str:
        """生成文本"""
        model_data = self.loaded_models[self.current_model]
        model = model_data["model"]
        tokenizer = model_data["tokenizer"]

        inputs = tokenizer(
            prompt,
            return_tensors="pt",
            truncation=True,
            max_length=512
        ).to(model.device)

        with torch.no_grad():
            outputs = model.generate(
                **inputs,
                max_new_tokens=kwargs.get('max_tokens', 256),
                temperature=kwargs.get('temperature', 0.7),
                top_p=kwargs.get('top_p', 0.9),
                do_sample=True,
                pad_token_id=tokenizer.pad_token_id
            )

        generated_text = tokenizer.decode(
            outputs[0],
            skip_special_tokens=True
        )

        return generated_text

    def create_interface(self):
        """创建界面"""
        with gr.Blocks(title="多模型WebUI") as interface:
            gr.Markdown("# 多模型WebUI")

            model_dropdown = gr.Dropdown(
                choices=list(self.models.keys()),
                value=self.current_model,
                label="选择模型"
            )

            switch_btn = gr.Button("切换模型")

            with gr.Row():
                prompt_input = gr.Textbox(
                    label="输入",
                    placeholder="请输入提示词...",
                    lines=5
                )

                output = gr.Textbox(
                    label="输出",
                    lines=10,
                    readonly=True
                )

            generate_btn = gr.Button("生成", variant="primary")

            switch_btn.click(
                fn=self.switch_model,
                inputs=[model_dropdown],
                outputs=output
            )

            generate_btn.click(
                fn=self.generate,
                inputs=[prompt_input],
                outputs=output
            )

        return interface

# 使用示例
app = MultiModelGradioApp({
    "Llama-2-7B": "meta-llama/Llama-2-7b-hf",
    "Llama-2-13B": "meta-llama/Llama-2-13b-hf"
})

interface = app.create_interface()
interface.launch(server_name="0.0.0.0", server_port=7860)

场景2：流式输出

class StreamingGradioApp:
    """流式输出Gradio应用"""
    def __init__(self, model_path: str):
        self.model_path = model_path

        from transformers import AutoModelForCausalLM, AutoTokenizer

        self.tokenizer = AutoTokenizer.from_pretrained(model_path)
        self.model = AutoModelForCausalLM.from_pretrained(
            model_path,
            torch_dtype=torch.float16,
            device_map="auto"
        )

        if self.tokenizer.pad_token is None:
            self.tokenizer.pad_token = self.tokenizer.eos_token

    def generate_stream(self, prompt: str, **kwargs):
        """流式生成"""
        inputs = self.tokenizer(
            prompt,
            return_tensors="pt",
            truncation=True,
            max_length=512
        ).to(self.model.device)

        streamer = self.model.generate(
            **inputs,
            max_new_tokens=kwargs.get('max_tokens', 256),
            temperature=kwargs.get('temperature', 0.7),
            top_p=kwargs.get('top_p', 0.9),
            do_sample=True,
            pad_token_id=self.tokenizer.pad_token_id,
            streamer=gradio_utils.TextIteratorStreamer(
                self.tokenizer,
                skip_prompt=True,
                skip_special_tokens=True
            )
        )

        for text in streamer:
            yield text

    def create_interface(self):
        """创建界面"""
        with gr.Blocks(title="流式输出WebUI") as interface:
            gr.Markdown("# 流式输出WebUI")

            with gr.Row():
                prompt_input = gr.Textbox(
                    label="输入",
                    placeholder="请输入提示词...",
                    lines=5
                )

                output = gr.Textbox(
                    label="输出",
                    lines=10,
                    readonly=True
                )

            generate_btn = gr.Button("生成", variant="primary")

            generate_btn.click(
                fn=self.generate_stream,
                inputs=[prompt_input],
                outputs=output
            )

        return interface

# 使用示例
app = StreamingGradioApp("meta-llama/Llama-2-7b-hf")
interface = app.create_interface()
interface.launch(server_name="0.0.0.0", server_port=7860)

场景3：API集成

import gradio as gr
import requests

class APIIntegratedGradioApp:
    """API集成的Gradio应用"""
    def __init__(self, api_url: str, api_key: str):
        self.api_url = api_url
        self.api_key = api_key

    def generate(self, prompt: str, **kwargs) -> str:
        """通过API生成"""
        headers = {
            "Authorization": f"Bearer {self.api_key}",
            "Content-Type": "application/json"
        }

        data = {
            "prompt": prompt,
            "max_tokens": kwargs.get('max_tokens', 256),
            "temperature": kwargs.get('temperature', 0.7),
            "top_p": kwargs.get('top_p', 0.9)
        }

        try:
            response = requests.post(
                self.api_url,
                headers=headers,
                json=data,
                timeout=30
            )

            response.raise_for_status()

            result = response.json()
            return result.get("text", "生成失败")

        except Exception as e:
            return f"API调用失败: {str(e)}"

    def create_interface(self):
        """创建界面"""
        with gr.Blocks(title="API集成WebUI") as interface:
            gr.Markdown("# API集成WebUI")

            with gr.Row():
                prompt_input = gr.Textbox(
                    label="输入",
                    placeholder="请输入提示词...",
                    lines=5
                )

                output = gr.Textbox(
                    label="输出",
                    lines=10,
                    readonly=True
                )

            generate_btn = gr.Button("生成", variant="primary")

            generate_btn.click(
                fn=self.generate,
                inputs=[prompt_input],
                outputs=output
            )

        return interface

# 使用示例
app = APIIntegratedGradioApp(
    api_url="https://api.example.com/generate",
    api_key="your-api-key"
)

interface = app.create_interface()
interface.launch(server_name="0.0.0.0", server_port=7860)

场景4：Docker部署

# Dockerfile
FROM python:3.9-slim

WORKDIR /app

COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt

COPY . .

EXPOSE 7860

CMD ["python", "app.py"]

# docker-compose.yml
version: '3.8'

services:
  gradio-app:
    build: .
    ports:
      - "7860:7860"
    volumes:
      - ./models:/app/models
      - ./logs:/app/logs
    environment:
      - CUDA_VISIBLE_DEVICES=0
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
    restart: unless-stopped

场景5：Nginx反向代理

# nginx.conf
server {
    listen 80;
    server_name your-domain.com;

    location / {
        proxy_pass http://localhost:7860;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        proxy_set_header X-Forwarded-Proto $scheme;

        proxy_http_version 1.1;
        proxy_set_header Upgrade $http_upgrade;
        proxy_set_header Connection "upgrade";

        proxy_read_timeout 86400;
    }
}

高级技巧

1. 会话管理

from typing import Dict, List

class SessionManager:
    """会话管理器"""
    def __init__(self):
        self.sessions = {}

    def create_session(self, session_id: str):
        """创建会话"""
        self.sessions[session_id] = {
            "messages": [],
            "created_at": datetime.now()
        }

    def add_message(self, session_id: str, role: str, content: str):
        """添加消息"""
        if session_id in self.sessions:
            self.sessions[session_id]["messages"].append({
                "role": role,
                "content": content
            })

    def get_messages(self, session_id: str) -> List[Dict]:
        """获取消息"""
        if session_id in self.sessions:
            return self.sessions[session_id]["messages"]
        return []

2. 速率限制

import time
from typing import Dict

class RateLimiter:
    """速率限制器"""
    def __init__(self, max_requests: int = 10, time_window: int = 60):
        self.max_requests = max_requests
        self.time_window = time_window
        self.requests = {}

    def is_allowed(self, user_id: str) -> bool:
        """检查是否允许请求"""
        now = time.time()

        if user_id not in self.requests:
            self.requests[user_id] = []

        self.requests[user_id] = [
            t for t in self.requests[user_id]
            if now - t < self.time_window
        ]

        if len(self.requests[user_id]) < self.max_requests:
            self.requests[user_id].append(now)
            return True

        return False

3. 缓存机制

from typing import Dict, Optional
import hashlib
import json

class CacheManager:
    """缓存管理器"""
    def __init__(self, max_size: int = 1000):
        self.max_size = max_size
        self.cache = {}

    def get(self, key: str) -> Optional[str]:
        """获取缓存"""
        return self.cache.get(key)

    def set(self, key: str, value: str):
        """设置缓存"""
        if len(self.cache) >= self.max_size:
            oldest_key = next(iter(self.cache))
            del self.cache[oldest_key]

        self.cache[key] = value

    def generate_key(self, prompt: str, **kwargs) -> str:
        """生成缓存键"""
        data = {"prompt": prompt, **kwargs}
        return hashlib.md5(json.dumps(data).encode()).hexdigest()

最佳实践

1. 完整的部署流程

class CompleteDeploymentPipeline:
    """完整部署流程"""
    def __init__(self, config: Dict):
        self.config = config

    def deploy(self):
        """部署"""
        print("开始部署...")

        print("\n1. 检查环境")
        self._check_environment()

        print("\n2. 加载模型")
        self._load_model()

        print("\n3. 创建应用")
        app = self._create_app()

        print("\n4. 启动服务")
        app.launch(
            server_name=self.config.get("server_name", "0.0.0.0"),
            server_port=self.config.get("server_port", 7860),
            share=self.config.get("share", False)
        )

    def _check_environment(self):
        """检查环境"""
        import torch

        print(f"Python版本: {torch.__version__}")
        print(f"CUDA可用: {torch.cuda.is_available()}")

        if torch.cuda.is_available():
            print(f"CUDA版本: {torch.version.cuda}")
            print(f"GPU数量: {torch.cuda.device_count()}")

    def _load_model(self):
        """加载模型"""
        from transformers import AutoModelForCausalLM, AutoTokenizer

        print(f"加载模型: {self.config['model_path']}")

        self.tokenizer = AutoTokenizer.from_pretrained(self.config["model_path"])
        self.model = AutoModelForCausalLM.from_pretrained(
            self.config["model_path"],
            torch_dtype=torch.float16,
            device_map="auto"
        )

        print("模型加载完成")

    def _create_app(self):
        """创建应用"""
        app = ProductionGradioApp(
            model_path=self.config["model_path"],
            config_path=self.config.get("config_path"),
            log_dir=self.config.get("log_dir", "./logs")
        )

        return app

# 使用示例
config = {
    "model_path": "meta-llama/Llama-2-7b-hf",
    "server_name": "0.0.0.0",
    "server_port": 7860,
    "share": False,
    "log_dir": "./logs"
}

pipeline = CompleteDeploymentPipeline(config)
pipeline.deploy()

2. 监控和告警

class MonitoringSystem:
    """监控系统"""
    def __init__(self):
        self.metrics = {
            "requests": 0,
            "errors": 0,
            "avg_response_time": 0
        }

    def record_request(self, response_time: float, success: bool):
        """记录请求"""
        self.metrics["requests"] += 1

        if not success:
            self.metrics["errors"] += 1

        total = self.metrics["requests"]
        current_avg = self.metrics["avg_response_time"]
        self.metrics["avg_response_time"] = (
            (current_avg * (total - 1) + response_time) / total
        )

    def check_alerts(self) -> Dict:
        """检查告警"""
        alerts = []

        if self.metrics["errors"] / self.metrics["requests"] > 0.1:
            alerts.append("错误率过高")

        if self.metrics["avg_response_time"] > 5:
            alerts.append("响应时间过长")

        return {
            "alerts": alerts,
            "metrics": self.metrics
        }