InstaDeepAI
/

BulkRNABert

Feature Extraction

transcriptomics

Model card Files Files and versions

mgelard commited on Nov 10

Commit

f5968bc

·

verified ·

1 Parent(s): acefdf1

Upload tokenizer

Files changed (2) hide show

tokenizer.py +1 -0
tokenizer_config.json +10 -11

tokenizer.py CHANGED Viewed

@@ -79,6 +79,7 @@ class BinnedOmicTokenizer(PreTrainedTokenizer):
             gene_expr = gene_expr / self.normalization_factor
         token_ids = np.digitize(gene_expr, self.bin_edges).astype(int)
         token_ids[gene_expr == 0.0] = 0
         if self.prepend_cls_token:

             gene_expr = gene_expr / self.normalization_factor
         token_ids = np.digitize(gene_expr, self.bin_edges).astype(int)
+        token_ids = np.clip(token_ids, 0, self.n_expressions_bins - 1)
         token_ids[gene_expr == 0.0] = 0
         if self.prepend_cls_token:

tokenizer_config.json CHANGED Viewed

@@ -1,17 +1,16 @@
 {
-  "tokenizer_class": "BinnedOmicTokenizer",
-  "n_expressions_bins": 64,
-  "min_omic_value": 0.0,
-  "max_omic_value": 1.0,
-  "use_max_normalization": true,
-  "normalization_factor": 5.547176906585117,
-  "prepend_cls_token": false,
-  "fixed_sequence_length": null,
-  "unpadded_length": null,
   "auto_map": {
     "AutoTokenizer": [
       "tokenizer.BinnedOmicTokenizer",
       null
     ]
-  }
-}

 {
+  "added_tokens_decoder": {},
   "auto_map": {
     "AutoTokenizer": [
       "tokenizer.BinnedOmicTokenizer",
       null
     ]
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<cls>",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "tokenizer_class": "BinnedOmicTokenizer"
+}