--- title: Chatbot em Cascata com Llama 3.1 emoji: 🤖 colorFrom: blue colorTo: green sdk: gradio sdk_version: 6.0.2 python_version: '3.11' suggested_hardware: cpu-basic app_file: app.py pinned: false short_description: Chatbot em cascata usando Llama 3.1 e modelos auxiliares models: - meta-llama/Llama-3.1-8B-Instruct - google/flan-t5-large - facebook/bart-large-cnn datasets: [] tags: - chatbot - nlp - cascade --- # Chatbot em Cascata com Llama 3.1 ## Como Funciona Este Space implementa um **chatbot em cascata** usando o modelo **Llama 3.1** via **Inference API** da Hugging Face. Dependendo da query do usuário, o chatbot aciona **dois outros modelos auxiliares** para gerar respostas, resumir ou buscar informações. ### Fluxo do Chatbot 1. **Llama 3.1** → processamento principal do prompt do usuário 2. **FLAN-T5** → processamento auxiliar (ex.: reformulação ou classificação) 3. **BART Large** → geração de resumo ou respostas adicionais --- ## Setup / Configuração 1. **Crie um token na Hugging Face:** [https://huggingface.co/settings/tokens](https://huggingface.co/settings/tokens) 2. **Adicione o token no Space como Secret:** - Vá em **Settings → Secrets → New Secret** - **Name:** `HF_TOKEN` - **Value:** cole o token 3. **Suba os arquivos no Space:** - `app.py` → código principal do chatbot - `requirements.txt` → dependências (`gradio`, `huggingface-hub`) - `README.md` → este arquivo > Todos os arquivos devem estar na **raiz do Space**. --- ## Como Rodar - O Space inicia automaticamente a interface Gradio - Digite um prompt na interface e veja a resposta do chatbot - Teste todos os fluxos da cascata para confirmar que todos os modelos estão sendo chamados --- ## Boas Práticas - Nunca exponha o token (`HF_TOKEN`) no código - Trate exceções da API com `try/except` - Use a **Inference API** para modelos grandes e evitar MemoryError - Monitore o consumo da API (chamadas podem gerar custo)