Spaces:
Sleeping
Sleeping
| title: Chatbot em Cascata com Llama 3.1 | |
| emoji: 🤖 | |
| colorFrom: blue | |
| colorTo: green | |
| sdk: gradio | |
| sdk_version: 6.0.2 | |
| python_version: '3.11' | |
| suggested_hardware: cpu-basic | |
| app_file: app.py | |
| pinned: false | |
| short_description: Chatbot em cascata usando Llama 3.1 e modelos auxiliares | |
| models: | |
| - meta-llama/Llama-3.1-8B-Instruct | |
| - google/flan-t5-large | |
| - facebook/bart-large-cnn | |
| datasets: [] | |
| tags: | |
| - chatbot | |
| - nlp | |
| - cascade | |
| # Chatbot em Cascata com Llama 3.1 | |
| ## Como Funciona | |
| Este Space implementa um **chatbot em cascata** usando o modelo **Llama 3.1** via **Inference API** da Hugging Face. | |
| Dependendo da query do usuário, o chatbot aciona **dois outros modelos auxiliares** para gerar respostas, resumir ou buscar informações. | |
| ### Fluxo do Chatbot | |
| 1. **Llama 3.1** → processamento principal do prompt do usuário | |
| 2. **FLAN-T5** → processamento auxiliar (ex.: reformulação ou classificação) | |
| 3. **BART Large** → geração de resumo ou respostas adicionais | |
| --- | |
| ## Setup / Configuração | |
| 1. **Crie um token na Hugging Face:** | |
| [https://huggingface.co/settings/tokens](https://huggingface.co/settings/tokens) | |
| 2. **Adicione o token no Space como Secret:** | |
| - Vá em **Settings → Secrets → New Secret** | |
| - **Name:** `HF_TOKEN` | |
| - **Value:** cole o token | |
| 3. **Suba os arquivos no Space:** | |
| - `app.py` → código principal do chatbot | |
| - `requirements.txt` → dependências (`gradio`, `huggingface-hub`) | |
| - `README.md` → este arquivo | |
| > Todos os arquivos devem estar na **raiz do Space**. | |
| --- | |
| ## Como Rodar | |
| - O Space inicia automaticamente a interface Gradio | |
| - Digite um prompt na interface e veja a resposta do chatbot | |
| - Teste todos os fluxos da cascata para confirmar que todos os modelos estão sendo chamados | |
| --- | |
| ## Boas Práticas | |
| - Nunca exponha o token (`HF_TOKEN`) no código | |
| - Trate exceções da API com `try/except` | |
| - Use a **Inference API** para modelos grandes e evitar MemoryError | |
| - Monitore o consumo da API (chamadas podem gerar custo) |