Spaces:
Sleeping
Sleeping
File size: 2,017 Bytes
db1a73e c20c6e6 db1a73e 53815d6 db1a73e c20c6e6 53815d6 c20c6e6 53815d6 db1a73e 8c337f2 c20c6e6 76d67a7 db1a73e c20c6e6 76d67a7 db1a73e 122aa06 db1a73e c20c6e6 53815d6 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 |
---
title: Chatbot em Cascata com Llama 3.1
emoji: 🤖
colorFrom: blue
colorTo: green
sdk: gradio
sdk_version: 6.0.2
python_version: '3.11'
suggested_hardware: cpu-basic
app_file: app.py
pinned: false
short_description: Chatbot em cascata usando Llama 3.1 e modelos auxiliares
models:
- meta-llama/Llama-3.1-8B-Instruct
- google/flan-t5-large
- facebook/bart-large-cnn
datasets: []
tags:
- chatbot
- nlp
- cascade
---
# Chatbot em Cascata com Llama 3.1
## Como Funciona
Este Space implementa um **chatbot em cascata** usando o modelo **Llama 3.1** via **Inference API** da Hugging Face.
Dependendo da query do usuário, o chatbot aciona **dois outros modelos auxiliares** para gerar respostas, resumir ou buscar informações.
### Fluxo do Chatbot
1. **Llama 3.1** → processamento principal do prompt do usuário
2. **FLAN-T5** → processamento auxiliar (ex.: reformulação ou classificação)
3. **BART Large** → geração de resumo ou respostas adicionais
---
## Setup / Configuração
1. **Crie um token na Hugging Face:**
[https://huggingface.co/settings/tokens](https://huggingface.co/settings/tokens)
2. **Adicione o token no Space como Secret:**
- Vá em **Settings → Secrets → New Secret**
- **Name:** `HF_TOKEN`
- **Value:** cole o token
3. **Suba os arquivos no Space:**
- `app.py` → código principal do chatbot
- `requirements.txt` → dependências (`gradio`, `huggingface-hub`)
- `README.md` → este arquivo
> Todos os arquivos devem estar na **raiz do Space**.
---
## Como Rodar
- O Space inicia automaticamente a interface Gradio
- Digite um prompt na interface e veja a resposta do chatbot
- Teste todos os fluxos da cascata para confirmar que todos os modelos estão sendo chamados
---
## Boas Práticas
- Nunca exponha o token (`HF_TOKEN`) no código
- Trate exceções da API com `try/except`
- Use a **Inference API** para modelos grandes e evitar MemoryError
- Monitore o consumo da API (chamadas podem gerar custo) |