thai_sentence_embedding_benchmark

Running

App Files Files Community

panuthept commited on Aug 8, 2024

Commit

4fb8a8d

1 Parent(s): cf7ae80

add more results

Browse files

Files changed (1) hide show

app.py +205 -17

app.py CHANGED Viewed

@@ -5,28 +5,81 @@ from css_html_js import custom_css
 TITLE = """<h1 align="center" id="space-title">🇹🇭 Thai Sentence Embedding Leaderboard</h1>"""
 INTRODUCTION_TEXT = """
-📐 The 🇹🇭 Thai Sentence Embedding Leaderboard aims to track, rank and evaluate open embedding models on Thai sentence embedding tasks. All notebooks at https://github.com/mesolitica/llm-benchmarks, feel free to submit your own score at https://huggingface.co/spaces/mesolitica/malay-llm-leaderboard/discussions with link to the notebook.
-## Dataset
-📈 We evaluate models based on 3 datasets,
-1. BM-PT3 Paper 1, contains 54 questions, https://github.com/mesolitica/malaysian-dataset/tree/master/llm-benchmark/BM-pt3
-- This test is for 15 years old Malaysia student, it is about reading comprehension and general knowledge for malay language.
-2. Tatabahasa, contains 349 questions, https://github.com/mesolitica/malaysian-dataset/tree/master/llm-benchmark/tatabahasabm.tripod.com
-- This test is general test for malay grammar.
-3. General high school science questions, contains 323 questions, https://huggingface.co/datasets/mesolitica/mysoalan.com-qa
-- This test is general test for science.
-4. Translated MMLU, https://huggingface.co/datasets/mesolitica/translated-MMLU
-- This test is to test general knowledge, originally from MMLU.
-## Contributions
-1. Claude 1.3 and 2.0 Tatabahasa contributed by https://www.linkedin.com/in/fahim-surani
-2. Claude 3.0 contributed by https://github.com/theblackcat102, https://huggingface.co/theblackcat102
 ## Tagging
-🟢 Non-LLM ⭕ LLM 📦 API
 """
 results = [
     {
         'T': '🟢',
-        'model': '[BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3)',
         'Model Size (Million Parameters)': 570,
         'Embedding Dimensions': 1024,
         'Average (8 datasets)': 75.64,
@@ -35,9 +88,141 @@ results = [
         'PairClassification (1 datasets)': 79.02,
         'Retrieval (3 datasets)': 91.42,
     },
     {
         'T': '📦',
-        'model': 'Cohere-embed-multilingual-v3.0',
         'Embedding Dimensions': 1024,
         'Average (8 datasets)': 74.86,
         'STS Average (1 datasets)': 77.87,
@@ -47,6 +232,9 @@ results = [
     },
 ]
 data = pd.DataFrame(results)
 demo = gr.Blocks(css=custom_css)

 TITLE = """<h1 align="center" id="space-title">🇹🇭 Thai Sentence Embedding Leaderboard</h1>"""
 INTRODUCTION_TEXT = """
+📐 The 🇹🇭 Thai Sentence Embedding Leaderboard aims to track, rank and evaluate open embedding models on Thai sentence embedding tasks. Source code for evaluation at https://github.com/mrpeerat/Thai-Sentence-Vector-Benchmark, feel free to submit your own score at https://huggingface.co/spaces/panuthept/thai_sentence_embedding_benchmark/discussions.
 ## Tagging
+🟢 Open sourced 📦 API
 """
 results = [
     {
         'T': '🟢',
+        'Model Name': '[XLMR-base](https://huggingface.co/FacebookAI/xlm-roberta-base)',
+        'Model Size (Million Parameters)': 279,
+        'Embedding Dimensions': 768,
+        'Average (8 datasets)': 37.95,
+        'STS Average (1 datasets)': 44.48,
+        'Classification (3 datasets)': 58.42,
+        'PairClassification (1 datasets)': 57.62,
+        'Retrieval (3 datasets)': 5.57,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[XLMR-large](https://huggingface.co/FacebookAI/xlm-roberta-large)',
+        'Model Size (Million Parameters)': 561,
+        'Embedding Dimensions': 1024,
+        'Average (8 datasets)': 38.59,
+        'STS Average (1 datasets)': 38.31,
+        'Classification (3 datasets)': 59.51,
+        'PairClassification (1 datasets)': 54.56,
+        'Retrieval (3 datasets)': 11.80,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[WangchanBERTa](https://huggingface.co/airesearch/wangchanberta-base-att-spm-uncased)',
+        'Model Size (Million Parameters)': 106,
+        'Embedding Dimensions': 768,
+        'Average (8 datasets)': 36.34,
+        'STS Average (1 datasets)': 21.32,
+        'Classification (3 datasets)': 55.46,
+        'PairClassification (1 datasets)': 52.96,
+        'Retrieval (3 datasets)': 19.49,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[PhayaThaiBERT](https://huggingface.co/clicknext/phayathaibert)',
+        'Model Size (Million Parameters)': 278,
+        'Embedding Dimensions': 768,
+        'Average (8 datasets)': 55.38,
+        'STS Average (1 datasets)': 51.56,
+        'Classification (3 datasets)': 59.90,
+        'PairClassification (1 datasets)': 59.67,
+        'Retrieval (3 datasets)': 56.31,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[MPNet-multilingual](https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2)',
+        'Model Size (Million Parameters)': 278,
+        'Embedding Dimensions': 768,
+        'Average (8 datasets)': 66.14,
+        'STS Average (1 datasets)': 80.49,
+        'Classification (3 datasets)': 56.89,
+        'PairClassification (1 datasets)': 84.14,
+        'Retrieval (3 datasets)': 64.13,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[DistilUSE-multilingual](https://huggingface.co/sentence-transformers/distiluse-base-multilingual-cased-v2)',
+        'Model Size (Million Parameters)': 135,
+        'Embedding Dimensions': 512,
+        'Average (8 datasets)': 51.45,
+        'STS Average (1 datasets)': 65.37,
+        'Classification (3 datasets)': 50.93,
+        'PairClassification (1 datasets)': 65.94,
+        'Retrieval (3 datasets)': 42.72,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[BGE-M3](https://huggingface.co/BAAI/bge-m3)',
         'Model Size (Million Parameters)': 570,
         'Embedding Dimensions': 1024,
         'Average (8 datasets)': 75.64,
         'PairClassification (1 datasets)': 79.02,
         'Retrieval (3 datasets)': 91.42,
     },
+    {
+        'T': '🟢',
+        'Model Name': '[SimCSE-XLMR-base](https://huggingface.co/kornwtp/simcse-model-XLMR)',
+        'Model Size (Million Parameters)': 279,
+        'Embedding Dimensions': 768,
+        'Average (8 datasets)': 53.83,
+        'STS Average (1 datasets)': 63.98,
+        'Classification (3 datasets)': 49.44,
+        'PairClassification (1 datasets)': 61.87,
+        'Retrieval (3 datasets)': 54.17,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[SimCSE-WangchanBERTa](https://huggingface.co/kornwtp/simcse-model-wangchanberta)',
+        'Model Size (Million Parameters)': 106,
+        'Embedding Dimensions': 768,
+        'Average (8 datasets)': 54.01,
+        'STS Average (1 datasets)': 60.73,
+        'Classification (3 datasets)': 56.71,
+        'PairClassification (1 datasets)': 59.14,
+        'Retrieval (3 datasets)': 51.05,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[SimCSE-PhayaThaiBERT](https://huggingface.co/kornwtp/simcse-model-phayathaibert)',
+        'Model Size (Million Parameters)': 278,
+        'Embedding Dimensions': 768,
+        'Average (8 datasets)': 60.02,
+        'STS Average (1 datasets)': None,
+        'Classification (3 datasets)': None,
+        'PairClassification (1 datasets)': None,
+        'Retrieval (3 datasets)': None,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[SCT-XLMR-base](https://huggingface.co/kornwtp/SCT-model-XLMR)',
+        'Model Size (Million Parameters)': 279,
+        'Embedding Dimensions': 768,
+        'Average (8 datasets)': 57.69,
+        'STS Average (1 datasets)': None,
+        'Classification (3 datasets)': None,
+        'PairClassification (1 datasets)': None,
+        'Retrieval (3 datasets)': None,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[SCT-WangchanBERTa](https://huggingface.co/kornwtp/SCT-model-wangchanberta)',
+        'Model Size (Million Parameters)': 106,
+        'Embedding Dimensions': 768,
+        'Average (8 datasets)': 62.22,
+        'STS Average (1 datasets)': None,
+        'Classification (3 datasets)': None,
+        'PairClassification (1 datasets)': None,
+        'Retrieval (3 datasets)': None,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[SCT-PhayaThaiBERT](https://huggingface.co/kornwtp/SCT-model-phayathaibert)',
+        'Model Size (Million Parameters)': 278,
+        'Embedding Dimensions': 768,
+        'Average (8 datasets)': 63.28,
+        'STS Average (1 datasets)': None,
+        'Classification (3 datasets)': None,
+        'PairClassification (1 datasets)': None,
+        'Retrieval (3 datasets)': None,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[SCT-KD-XLMR-base](https://huggingface.co/kornwtp/SCT-KD-model-XLMR)',
+        'Model Size (Million Parameters)': 279,
+        'Embedding Dimensions': 768,
+        'Average (8 datasets)': 65.37,
+        'STS Average (1 datasets)': None,
+        'Classification (3 datasets)': None,
+        'PairClassification (1 datasets)': None,
+        'Retrieval (3 datasets)': None,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[SCT-KD-WangchanBERTa](https://huggingface.co/kornwtp/SCT-KD-model-wangchanberta)',
+        'Model Size (Million Parameters)': 106,
+        'Embedding Dimensions': 768,
+        'Average (8 datasets)': 63.55,
+        'STS Average (1 datasets)': None,
+        'Classification (3 datasets)': None,
+        'PairClassification (1 datasets)': None,
+        'Retrieval (3 datasets)': None,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[SCT-KD-PhayaThaiBERT](https://huggingface.co/kornwtp/SCT-KD-model-phayathaibert)',
+        'Model Size (Million Parameters)': 278,
+        'Embedding Dimensions': 768,
+        'Average (8 datasets)': 66.00,
+        'STS Average (1 datasets)': None,
+        'Classification (3 datasets)': None,
+        'PairClassification (1 datasets)': None,
+        'Retrieval (3 datasets)': None,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[ConGen-XLMR-base](https://huggingface.co/kornwtp/ConGen-model-XLMR)',
+        'Model Size (Million Parameters)': 279,
+        'Embedding Dimensions': 768,
+        'Average (8 datasets)': 66.84,
+        'STS Average (1 datasets)': None,
+        'Classification (3 datasets)': None,
+        'PairClassification (1 datasets)': None,
+        'Retrieval (3 datasets)': None,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[ConGen-WangchanBERTa](https://huggingface.co/kornwtp/ConGen-model-wangchanberta)',
+        'Model Size (Million Parameters)': 106,
+        'Embedding Dimensions': 768,
+        'Average (8 datasets)': 67.17,
+        'STS Average (1 datasets)': None,
+        'Classification (3 datasets)': None,
+        'PairClassification (1 datasets)': None,
+        'Retrieval (3 datasets)': None,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[ConGen-PhayaThaiBERT](https://huggingface.co/kornwtp/ConGen-model-phayathaibert)',
+        'Model Size (Million Parameters)': 278,
+        'Embedding Dimensions': 768,
+        'Average (8 datasets)': 66.94,
+        'STS Average (1 datasets)': None,
+        'Classification (3 datasets)': None,
+        'PairClassification (1 datasets)': None,
+        'Retrieval (3 datasets)': None,
+    },
     {
         'T': '📦',
+        'Model Name': 'Cohere-embed-multilingual-v3.0',
         'Embedding Dimensions': 1024,
         'Average (8 datasets)': 74.86,
         'STS Average (1 datasets)': 77.87,
     },
 ]
+# Sort by average
+results = sorted(results, key=lambda x: x['Average (8 datasets)'], reverse=True)
 data = pd.DataFrame(results)
 demo = gr.Blocks(css=custom_css)