hazyresearch
/

M2-BERT-32K-Retrieval-Encoder-V1

Model card Files Files and versions

jonsaadfalcon commited on Jan 9, 2024

Commit

90b56d4

·

1 Parent(s): 434063d

Upload bert_layers.py

Files changed (1) hide show

bert_layers.py +4 -9

bert_layers.py CHANGED Viewed

@@ -610,7 +610,7 @@ class BertForMaskedLM(BertPreTrainedModel):
                 'If you want to use `BertForMaskedLM` make sure `config.is_decoder=False` for '
                 'bi-directional self-attention.')
-        self.bert = BertModel(config, add_pooling_layer=False)
         self.cls = BertOnlyMLMHead(config,
                                    self.bert.embeddings.word_embeddings.weight)
@@ -705,18 +705,13 @@ class BertForMaskedLM(BertPreTrainedModel):
                 return_dict=return_dict,
                 masked_tokens_mask=masked_tokens_mask,
             )
         if torch.isnan(outputs[0]).any():
             print("NaNs in outputs.")
             raise ValueError()
-        #print("MLM Outputs")
-        #print(outputs[0].shape)
-        pooled_output = outputs[0]
-        last_hidden_state_formatted = outputs[0][:,0,:].view(-1, self.config.hidden_size)
-        return {"sentence_embedding": last_hidden_state_formatted}
     def prepare_inputs_for_generation(self, input_ids: torch.Tensor,
                                       attention_mask: torch.Tensor,

                 'If you want to use `BertForMaskedLM` make sure `config.is_decoder=False` for '
                 'bi-directional self-attention.')
+        self.bert = BertModel(config, add_pooling_layer=True)
         self.cls = BertOnlyMLMHead(config,
                                    self.bert.embeddings.word_embeddings.weight)
                 return_dict=return_dict,
                 masked_tokens_mask=masked_tokens_mask,
             )
         if torch.isnan(outputs[0]).any():
             print("NaNs in outputs.")
             raise ValueError()
+        pooled_output = outputs[1]
+        return {"sentence_embedding": pooled_output}
     def prepare_inputs_for_generation(self, input_ids: torch.Tensor,
                                       attention_mask: torch.Tensor,