Spaces:

kawre
/

Huggingface_Chatbot_Cascade

Sleeping

App Files Files Community

Huggingface_Chatbot_Cascade / README.md

kawre

Update README.md

53815d6 verified 12 days ago

preview code

raw

history blame contribute delete

2.02 kB

	---
	title: Chatbot em Cascata com Llama 3.1
	emoji: 🤖
	colorFrom: blue
	colorTo: green
	sdk: gradio
	sdk_version: 6.0.2
	python_version: '3.11'
	suggested_hardware: cpu-basic
	app_file: app.py
	pinned: false
	short_description: Chatbot em cascata usando Llama 3.1 e modelos auxiliares
	models:
	- meta-llama/Llama-3.1-8B-Instruct
	- google/flan-t5-large
	- facebook/bart-large-cnn
	datasets: []
	tags:
	- chatbot
	- nlp
	- cascade
	---

	# Chatbot em Cascata com Llama 3.1

	## Como Funciona
	Este Space implementa um chatbot em cascata usando o modelo Llama 3.1 via Inference API da Hugging Face.
	Dependendo da query do usuário, o chatbot aciona dois outros modelos auxiliares para gerar respostas, resumir ou buscar informações.

	### Fluxo do Chatbot
	1. Llama 3.1 → processamento principal do prompt do usuário
	2. FLAN-T5 → processamento auxiliar (ex.: reformulação ou classificação)
	3. BART Large → geração de resumo ou respostas adicionais

	---

	## Setup / Configuração

	1. Crie um token na Hugging Face:
	[https://huggingface.co/settings/tokens](https://huggingface.co/settings/tokens)

	2. Adicione o token no Space como Secret:
	- Vá em Settings → Secrets → New Secret
	- Name: `HF_TOKEN`
	- Value: cole o token

	3. Suba os arquivos no Space:
	- `app.py` → código principal do chatbot
	- `requirements.txt` → dependências (`gradio`, `huggingface-hub`)
	- `README.md` → este arquivo

	> Todos os arquivos devem estar na raiz do Space.

	---

	## Como Rodar
	- O Space inicia automaticamente a interface Gradio
	- Digite um prompt na interface e veja a resposta do chatbot
	- Teste todos os fluxos da cascata para confirmar que todos os modelos estão sendo chamados

	---

	## Boas Práticas
	- Nunca exponha o token (`HF_TOKEN`) no código
	- Trate exceções da API com `try/except`
	- Use a Inference API para modelos grandes e evitar MemoryError
	- Monitore o consumo da API (chamadas podem gerar custo)