A newer version of the Gradio SDK is available:
6.1.0
metadata
title: Chatbot em Cascata com Llama 3.1
emoji: 🤖
colorFrom: blue
colorTo: green
sdk: gradio
sdk_version: 6.0.2
python_version: '3.11'
suggested_hardware: cpu-basic
app_file: app.py
pinned: false
short_description: Chatbot em cascata usando Llama 3.1 e modelos auxiliares
models:
- meta-llama/Llama-3.1-8B-Instruct
- google/flan-t5-large
- facebook/bart-large-cnn
datasets: []
tags:
- chatbot
- nlp
- cascade
Chatbot em Cascata com Llama 3.1
Como Funciona
Este Space implementa um chatbot em cascata usando o modelo Llama 3.1 via Inference API da Hugging Face.
Dependendo da query do usuário, o chatbot aciona dois outros modelos auxiliares para gerar respostas, resumir ou buscar informações.
Fluxo do Chatbot
- Llama 3.1 → processamento principal do prompt do usuário
- FLAN-T5 → processamento auxiliar (ex.: reformulação ou classificação)
- BART Large → geração de resumo ou respostas adicionais
Setup / Configuração
Crie um token na Hugging Face:
https://huggingface.co/settings/tokensAdicione o token no Space como Secret:
- Vá em Settings → Secrets → New Secret
- Name:
HF_TOKEN - Value: cole o token
Suba os arquivos no Space:
app.py→ código principal do chatbotrequirements.txt→ dependências (gradio,huggingface-hub)README.md→ este arquivo
Todos os arquivos devem estar na raiz do Space.
Como Rodar
- O Space inicia automaticamente a interface Gradio
- Digite um prompt na interface e veja a resposta do chatbot
- Teste todos os fluxos da cascata para confirmar que todos os modelos estão sendo chamados
Boas Práticas
- Nunca exponha o token (
HF_TOKEN) no código - Trate exceções da API com
try/except - Use a Inference API para modelos grandes e evitar MemoryError
- Monitore o consumo da API (chamadas podem gerar custo)