Spaces:

kawre
/

Huggingface_Chatbot_Cascade

Running

App Files Files Community

kawre commited on 9 days ago

Commit

d0cfe92

verified ·

1 Parent(s): 3dbcf4a

Update app.py

Browse files

Files changed (1) hide show

app.py +71 -18

app.py CHANGED Viewed

@@ -10,42 +10,95 @@ client_main = InferenceClient(token=HF_TOKEN, model="meta-llama/Llama-3.1-8B-Ins
 client_aux1 = InferenceClient(token=HF_TOKEN, model="google/flan-t5-large")
 client_aux2 = InferenceClient(token=HF_TOKEN, model="facebook/bart-large-cnn")
 # Função principal de resposta
 def respond(message, history, system_message, max_tokens, temperature, top_p):
     try:
-        # --- Passo 1: Llama 3.1 via ProxyClientChat ---
-        chat = client_main.chat  # objeto de chat, não chamável
-        chat.clear_messages()  # limpa mensagens anteriores do objeto (opcional)
-        # Adiciona mensagens do histórico
-        chat.add_message("system", system_message)
         for h in history:
-            chat.add_message(h['role'], h['content'])
-        chat.add_message("user", message)
-        # Gera resposta
-        response_main_obj = chat.send_message(
-            max_new_tokens=max_tokens,
-            temperature=temperature,
-            top_p=top_p
-        )
-        response_main = response_main_obj.content  # pega o texto gerado
         # --- Passo 2: FLAN-T5 (reformulação) ---
         result_aux1 = client_aux1.text_generation(
             prompt=f"Reformule este texto de forma clara e concisa:\n{response_main}",
             max_new_tokens=max_tokens
         )
-        response_aux1 = result_aux1.generated_text
         # --- Passo 3: BART (resumo em 3 frases) ---
         result_aux2 = client_aux2.text_generation(
             prompt=f"Resuma este texto em 3 frases:\n{response_aux1}",
             max_new_tokens=150
         )
-        response_aux2 = result_aux2.generated_text
     except Exception as e:
         response_aux2 = f"Erro ao gerar resposta: {e}"
     # Atualiza histórico no formato Gradio Chatbot

 client_aux1 = InferenceClient(token=HF_TOKEN, model="google/flan-t5-large")
 client_aux2 = InferenceClient(token=HF_TOKEN, model="facebook/bart-large-cnn")
+# Função utilitária para extrair texto gerado de objetos de resposta variados
+def _extract_text_from_response(obj):
+    # tenta algumas formas comuns de resposta dependendo da versão do SDK/backend
+    if obj is None:
+        return ""
+    # caso: objeto com atributo 'content'
+    if hasattr(obj, "content"):
+        try:
+            return obj.content
+        except Exception:
+            pass
+    # caso: objeto com atributo 'generated_text'
+    if hasattr(obj, "generated_text"):
+        try:
+            return obj.generated_text
+        except Exception:
+            pass
+    # caso: resposta no estilo choices -> choices[0].message["content"]
+    try:
+        if hasattr(obj, "choices") and len(obj.choices) > 0:
+            choice = obj.choices[0]
+            # se for um dict-like
+            if isinstance(choice, dict) and "message" in choice and "content" in choice["message"]:
+                return choice["message"]["content"]
+            # se choice tiver atributo 'message'
+            if hasattr(choice, "message") and isinstance(choice.message, dict) and "content" in choice.message:
+                return choice.message["content"]
+    except Exception:
+        pass
+    # fallback: str()
+    return str(obj)
 # Função principal de resposta
 def respond(message, history, system_message, max_tokens, temperature, top_p):
     try:
+        # --- Passo 1: Llama 3.1 via chamada stateless com lista de messages ---
+        # Monta lista de mensagens (system + histórico + user atual)
+        messages = []
+        messages.append({"role": "system", "content": system_message or ""})
         for h in history:
+            # espera itens do histórico no formato {"role": "user"/"assistant", "content": "..."}
+            role = h.get("role", "user")
+            content = h.get("content", "")
+            messages.append({"role": role, "content": content})
+        messages.append({"role": "user", "content": message})
+        # Envia as mensagens para o chat do Llama (stateless)
+        # Observação: alguns backends aceitam send_message(messages=...), outros aceitam send_message() após add_message.
+        # Aqui tentamos enviar a lista diretamente.
+        chat_proxy = client_main.chat
+        try:
+            # tentativa principal: enviar mensagens diretamente
+            response_main_obj = chat_proxy.send_message(
+                messages=messages,
+                max_new_tokens=max_tokens,
+                temperature=temperature,
+                top_p=top_p
+            )
+        except TypeError:
+            # se a assinatura não aceitar messages=..., tentamos criar um novo chat proxy e adicionar mensagens manualmente
+            # (nem todos os ProxyClientChat expõem criação limpa; então adicionamos e depois geramos)
+            # Este bloco tenta usar add_message() sequencialmente.
+            # Nota: se add_message falhar, cairá no except geral abaixo.
+            for msg_item in messages:
+                chat_proxy.add_message(msg_item["role"], msg_item["content"])
+            response_main_obj = chat_proxy.send_message(
+                max_new_tokens=max_tokens,
+                temperature=temperature,
+                top_p=top_p
+            )
+        response_main = _extract_text_from_response(response_main_obj)
         # --- Passo 2: FLAN-T5 (reformulação) ---
         result_aux1 = client_aux1.text_generation(
             prompt=f"Reformule este texto de forma clara e concisa:\n{response_main}",
             max_new_tokens=max_tokens
         )
+        response_aux1 = _extract_text_from_response(result_aux1)
         # --- Passo 3: BART (resumo em 3 frases) ---
         result_aux2 = client_aux2.text_generation(
             prompt=f"Resuma este texto em 3 frases:\n{response_aux1}",
             max_new_tokens=150
         )
+        response_aux2 = _extract_text_from_response(result_aux2)
     except Exception as e:
+        # Mensagem de erro amigável para o usuário (mantemos o traceback curto)
         response_aux2 = f"Erro ao gerar resposta: {e}"
     # Atualiza histórico no formato Gradio Chatbot