Spaces:

kawre
/

Huggingface_Chatbot_Cascade

Running

App Files Files Community

kawre commited on 9 days ago

Commit

e48436e

verified ·

1 Parent(s): e66ba96

Update app.py

Browse files

Files changed (1) hide show

app.py +49 -24

app.py CHANGED Viewed

@@ -1,41 +1,66 @@
 import gradio as gr
 from huggingface_hub import InferenceClient
-def respond(message, history, system_message, max_tokens, temperature, top_p, hf_token):
-    # Inicializa os 3 clientes
-    client_main = InferenceClient(token=hf_token, model="meta-llama/Llama-3.1-8B-Instruct")
-    client_aux1 = InferenceClient(token=hf_token, model="google/flan-t5-large")
-    client_aux2 = InferenceClient(token=hf_token, model="facebook/bart-large-cnn")
-    # Histórico e system message
     messages = [{"role": "system", "content": system_message}]
     messages.extend(history)
     messages.append({"role": "user", "content": message})
-    # Passo 1: Llama 3.1
-    response_main = client_main.text_generation(inputs=message, max_tokens=max_tokens)
-    # Passo 2: Aux1
-    response_aux1 = client_aux1.text_generation(inputs=response_main, max_new_tokens=max_tokens)
-    # Passo 3: Aux2
-    response_aux2 = client_aux2.text_generation(inputs=response_aux1, max_new_tokens=max_tokens)
-    return response_aux2
-# Interface Gradio
-chatbot = gr.ChatInterface(
-    fn=respond,
-    additional_inputs=[
-        gr.Textbox(value="You are a friendly Chatbot.", label="System message"),
-        gr.Slider(1, 2048, 512, label="Max new tokens"),
-        gr.Slider(0.1, 4.0, 0.7, label="Temperature"),
-        gr.Slider(0.1, 1.0, 0.95, label="Top-p (nucleus sampling)"),
-    ],
-)
 with gr.Blocks() as demo:
-    chatbot.render()
 if __name__ == "__main__":
     demo.launch()

+import os
 import gradio as gr
 from huggingface_hub import InferenceClient
+# Pega o token do Hugging Face dos Secrets
+HF_TOKEN = os.environ.get("HF_TOKEN")
+# Inicializa os clientes dos modelos
+client_main = InferenceClient(token=HF_TOKEN, model="meta-llama/Llama-3.1-8B-Instruct")
+client_aux1 = InferenceClient(token=HF_TOKEN, model="google/flan-t5-large")
+client_aux2 = InferenceClient(token=HF_TOKEN, model="facebook/bart-large-cnn")
+# Função principal de resposta
+def respond(message, history, system_message, max_tokens, temperature, top_p):
+    # Constrói o histórico completo com system message
     messages = [{"role": "system", "content": system_message}]
     messages.extend(history)
     messages.append({"role": "user", "content": message})
+    full_prompt = "\n".join([m["content"] for m in messages])
+    # Passo 1: Llama 3.1 - geração principal
+    response_main = client_main.text_generation(
+        inputs=full_prompt,
+        max_tokens=max_tokens,
+        temperature=temperature,
+        top_p=top_p
+    ).generated_text
+    # Passo 2: FLAN-T5 - reformulação
+    response_aux1 = client_aux1.text_generation(
+        inputs=f"Reformule este texto de forma clara e objetiva:\n{response_main}",
+        max_new_tokens=max_tokens
+    ).generated_text
+    # Passo 3: BART - resumo
+    response_aux2 = client_aux2.text_generation(
+        inputs=f"Resuma este texto em 3 frases:\n{response_aux1}",
+        max_new_tokens=150
+    ).generated_text
+    # Atualiza histórico do chat
+    history.append({"role": "user", "content": message})
+    history.append({"role": "assistant", "content": response_aux2})
+    return response_aux2, history
+# Interface Gradio
 with gr.Blocks() as demo:
+    gr.Markdown("## 🤖 Chatbot em Cascata (Llama 3.1 + FLAN-T5 + BART)")
+    system_message = gr.Textbox(value="Você é um chatbot amigável e prestativo.", label="System Message")
+    chatbot = gr.Chatbot()
+    msg = gr.Textbox(label="Digite sua mensagem")
+    max_tokens = gr.Slider(50, 2048, 512, step=50, label="Max Tokens")
+    temperature = gr.Slider(0.1, 1.0, 0.7, step=0.05, label="Temperature")
+    top_p = gr.Slider(0.1, 1.0, 0.95, step=0.05, label="Top-p (nucleus sampling)")
+    history = gr.State([])
+    def handle_submit(message, history, system_message, max_tokens, temperature, top_p):
+        return respond(message, history, system_message, max_tokens, temperature, top_p)
+    msg.submit(handle_submit, inputs=[msg, history, system_message, max_tokens, temperature, top_p], outputs=[chatbot, history])
 if __name__ == "__main__":
     demo.launch()