thai_sentence_embedding_benchmark

Running

App Files Files Community

panuthept commited on Aug 8, 2024

Commit

a1f2fd3

1 Parent(s): 4fb8a8d

add more results

Browse files

Files changed (1) hide show

app.py +148 -40

app.py CHANGED Viewed

@@ -116,10 +116,10 @@ results = [
         'Model Size (Million Parameters)': 278,
         'Embedding Dimensions': 768,
         'Average (8 datasets)': 60.02,
-        'STS Average (1 datasets)': None,
-        'Classification (3 datasets)': None,
-        'PairClassification (1 datasets)': None,
-        'Retrieval (3 datasets)': None,
     },
     {
         'T': '🟢',
@@ -127,10 +127,10 @@ results = [
         'Model Size (Million Parameters)': 279,
         'Embedding Dimensions': 768,
         'Average (8 datasets)': 57.69,
-        'STS Average (1 datasets)': None,
-        'Classification (3 datasets)': None,
-        'PairClassification (1 datasets)': None,
-        'Retrieval (3 datasets)': None,
     },
     {
         'T': '🟢',
@@ -138,10 +138,10 @@ results = [
         'Model Size (Million Parameters)': 106,
         'Embedding Dimensions': 768,
         'Average (8 datasets)': 62.22,
-        'STS Average (1 datasets)': None,
-        'Classification (3 datasets)': None,
-        'PairClassification (1 datasets)': None,
-        'Retrieval (3 datasets)': None,
     },
     {
         'T': '🟢',
@@ -149,10 +149,10 @@ results = [
         'Model Size (Million Parameters)': 278,
         'Embedding Dimensions': 768,
         'Average (8 datasets)': 63.28,
-        'STS Average (1 datasets)': None,
-        'Classification (3 datasets)': None,
-        'PairClassification (1 datasets)': None,
-        'Retrieval (3 datasets)': None,
     },
     {
         'T': '🟢',
@@ -160,10 +160,10 @@ results = [
         'Model Size (Million Parameters)': 279,
         'Embedding Dimensions': 768,
         'Average (8 datasets)': 65.37,
-        'STS Average (1 datasets)': None,
-        'Classification (3 datasets)': None,
-        'PairClassification (1 datasets)': None,
-        'Retrieval (3 datasets)': None,
     },
     {
         'T': '🟢',
@@ -171,10 +171,10 @@ results = [
         'Model Size (Million Parameters)': 106,
         'Embedding Dimensions': 768,
         'Average (8 datasets)': 63.55,
-        'STS Average (1 datasets)': None,
-        'Classification (3 datasets)': None,
-        'PairClassification (1 datasets)': None,
-        'Retrieval (3 datasets)': None,
     },
     {
         'T': '🟢',
@@ -182,10 +182,10 @@ results = [
         'Model Size (Million Parameters)': 278,
         'Embedding Dimensions': 768,
         'Average (8 datasets)': 66.00,
-        'STS Average (1 datasets)': None,
-        'Classification (3 datasets)': None,
-        'PairClassification (1 datasets)': None,
-        'Retrieval (3 datasets)': None,
     },
     {
         'T': '🟢',
@@ -193,10 +193,10 @@ results = [
         'Model Size (Million Parameters)': 279,
         'Embedding Dimensions': 768,
         'Average (8 datasets)': 66.84,
-        'STS Average (1 datasets)': None,
-        'Classification (3 datasets)': None,
-        'PairClassification (1 datasets)': None,
-        'Retrieval (3 datasets)': None,
     },
     {
         'T': '🟢',
@@ -204,10 +204,10 @@ results = [
         'Model Size (Million Parameters)': 106,
         'Embedding Dimensions': 768,
         'Average (8 datasets)': 67.17,
-        'STS Average (1 datasets)': None,
-        'Classification (3 datasets)': None,
-        'PairClassification (1 datasets)': None,
-        'Retrieval (3 datasets)': None,
     },
     {
         'T': '🟢',
@@ -215,10 +215,108 @@ results = [
         'Model Size (Million Parameters)': 278,
         'Embedding Dimensions': 768,
         'Average (8 datasets)': 66.94,
-        'STS Average (1 datasets)': None,
-        'Classification (3 datasets)': None,
-        'PairClassification (1 datasets)': None,
-        'Retrieval (3 datasets)': None,
     },
     {
         'T': '📦',
@@ -230,6 +328,16 @@ results = [
         'PairClassification (1 datasets)': 73.28,
         'Retrieval (3 datasets)': 91.43,
     },
 ]
 # Sort by average

         'Model Size (Million Parameters)': 278,
         'Embedding Dimensions': 768,
         'Average (8 datasets)': 60.02,
+        'STS Average (1 datasets)': 67.82,
+        'Classification (3 datasets)': 53.50,
+        'PairClassification (1 datasets)': 63.35,
+        'Retrieval (3 datasets)': 66.05,
     },
     {
         'T': '🟢',
         'Model Size (Million Parameters)': 279,
         'Embedding Dimensions': 768,
         'Average (8 datasets)': 57.69,
+        'STS Average (1 datasets)': 68.91,
+        'Classification (3 datasets)': 55.93,
+        'PairClassification (1 datasets)': 66.49,
+        'Retrieval (3 datasets)': 54.90,
     },
     {
         'T': '🟢',
         'Model Size (Million Parameters)': 106,
         'Embedding Dimensions': 768,
         'Average (8 datasets)': 62.22,
+        'STS Average (1 datasets)': 71.35,
+        'Classification (3 datasets)': 59.19,
+        'PairClassification (1 datasets)': 67.04,
+        'Retrieval (3 datasets)': 63.83,
     },
     {
         'T': '🟢',
         'Model Size (Million Parameters)': 278,
         'Embedding Dimensions': 768,
         'Average (8 datasets)': 63.28,
+        'STS Average (1 datasets)': 74.08,
+        'Classification (3 datasets)': 58.77,
+        'PairClassification (1 datasets)': 65.87,
+        'Retrieval (3 datasets)': 66.20,
     },
     {
         'T': '🟢',
         'Model Size (Million Parameters)': 279,
         'Embedding Dimensions': 768,
         'Average (8 datasets)': 65.37,
+        'STS Average (1 datasets)': 78.78,
+        'Classification (3 datasets)': 56.87,
+        'PairClassification (1 datasets)': 79.78,
+        'Retrieval (3 datasets)': 65.02,
     },
     {
         'T': '🟢',
         'Model Size (Million Parameters)': 106,
         'Embedding Dimensions': 768,
         'Average (8 datasets)': 63.55,
+        'STS Average (1 datasets)': 77.77,
+        'Classification (3 datasets)': 56.33,
+        'PairClassification (1 datasets)': 77.04,
+        'Retrieval (3 datasets)': 62.38,
     },
     {
         'T': '🟢',
         'Model Size (Million Parameters)': 278,
         'Embedding Dimensions': 768,
         'Average (8 datasets)': 66.00,
+        'STS Average (1 datasets)': 77.80,
+        'Classification (3 datasets)': 57.27,
+        'PairClassification (1 datasets)': 77.84,
+        'Retrieval (3 datasets)': 67.94,
     },
     {
         'T': '🟢',
         'Model Size (Million Parameters)': 279,
         'Embedding Dimensions': 768,
         'Average (8 datasets)': 66.84,
+        'STS Average (1 datasets)': 79.69,
+        'Classification (3 datasets)': 56.90,
+        'PairClassification (1 datasets)': 81.47,
+        'Retrieval (3 datasets)': 68.03,
     },
     {
         'T': '🟢',
         'Model Size (Million Parameters)': 106,
         'Embedding Dimensions': 768,
         'Average (8 datasets)': 67.17,
+        'STS Average (1 datasets)': 78.78,
+        'Classification (3 datasets)': 58.16,
+        'PairClassification (1 datasets)': 82.43,
+        'Retrieval (3 datasets)': 67.66,
     },
     {
         'T': '🟢',
         'Model Size (Million Parameters)': 278,
         'Embedding Dimensions': 768,
         'Average (8 datasets)': 66.94,
+        'STS Average (1 datasets)': 78.90,
+        'Classification (3 datasets)': 57.63,
+        'PairClassification (1 datasets)': 81.01,
+        'Retrieval (3 datasets)': 68.04,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[E5-Mistral-7B-Instruct](https://huggingface.co/intfloat/e5-mistral-7b-instruct)',
+        'Model Size (Million Parameters)': 7110,
+        'Embedding Dimensions': 4096,
+        'Average (8 datasets)': 71.94,
+        'STS Average (1 datasets)': 75.52,
+        'Classification (3 datasets)': 60.46,
+        'PairClassification (1 datasets)': 68.04,
+        'Retrieval (3 datasets)': 86.80,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[gte-Qwen2-7B-Instruct](https://huggingface.co/Alibaba-NLP/gte-Qwen2-7B-instruct)',
+        'Model Size (Million Parameters)': 7610,
+        'Embedding Dimensions': 3584,
+        'Average (8 datasets)': 49.31,
+        'STS Average (1 datasets)': 51.60,
+        'Classification (3 datasets)': 57.55,
+        'PairClassification (1 datasets)': 61.73,
+        'Retrieval (3 datasets)': 38.31,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[GritLM-7B](https://huggingface.co/GritLM/GritLM-7B)',
+        'Model Size (Million Parameters)': 7240,
+        'Embedding Dimensions': 4096,
+        'Average (8 datasets)': 42.38,
+        'STS Average (1 datasets)': 45.50,
+        'Classification (3 datasets)': 56.83,
+        'PairClassification (1 datasets)': 56.40,
+        'Retrieval (3 datasets)': 22.79,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[Llama3-8B](https://huggingface.co/meta-llama/Meta-Llama-3-8B)',
+        'Model Size (Million Parameters)': 8030,
+        'Embedding Dimensions': 4096,
+        'Average (8 datasets)': 51.63,
+        'STS Average (1 datasets)': 49.48,
+        'Classification (3 datasets)': 58.54,
+        'PairClassification (1 datasets)': 57.76,
+        'Retrieval (3 datasets)': 47.93,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[Llama3-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct)',
+        'Model Size (Million Parameters)': 8030,
+        'Embedding Dimensions': 4096,
+        'Average (8 datasets)': 52.81,
+        'STS Average (1 datasets)': 50.63,
+        'Classification (3 datasets)': 58.85,
+        'PairClassification (1 datasets)': 58.04,
+        'Retrieval (3 datasets)': 50.38,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[Llama3.1-8B](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B)',
+        'Model Size (Million Parameters)': 8030,
+        'Embedding Dimensions': 4096,
+        'Average (8 datasets)': 50.36,
+        'STS Average (1 datasets)': 49.98,
+        'Classification (3 datasets)': 58.18,
+        'PairClassification (1 datasets)': 58.12,
+        'Retrieval (3 datasets)': 43.64,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[Llama3.1-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct)',
+        'Model Size (Million Parameters)': 8030,
+        'Embedding Dimensions': 4096,
+        'Average (8 datasets)': 50.06,
+        'STS Average (1 datasets)': 49.76,
+        'Classification (3 datasets)': 57.90,
+        'PairClassification (1 datasets)': 57.47,
+        'Retrieval (3 datasets)': 43.63,
+    },
+    {
+        'T': '🟢',
+        'Model Name': '[Typhoon-8B-Instruct](https://huggingface.co/scb10x/llama-3-typhoon-v1.5-8b-instruct)',
+        'Model Size (Million Parameters)': 8030,
+        'Embedding Dimensions': 4096,
+        'Average (8 datasets)': 53.51,
+        'STS Average (1 datasets)': 51.46,
+        'Classification (3 datasets)': 58.91,
+        'PairClassification (1 datasets)': 58.05,
+        'Retrieval (3 datasets)': 52.65,
+    },
+    {
+        'T': '📦',
+        'Model Name': 'Cohere-embed-multilingual-v2.0',
+        'Embedding Dimensions': 768,
+        'Average (8 datasets)': 68.01,
+        'STS Average (1 datasets)': 68.03,
+        'Classification (3 datasets)': 57.31,
+        'PairClassification (1 datasets)': 62.03,
+        'Retrieval (3 datasets)': 85.23,
     },
     {
         'T': '📦',
         'PairClassification (1 datasets)': 73.28,
         'Retrieval (3 datasets)': 91.43,
     },
+    {
+        'T': '📦',
+        'Model Name': 'Openai-text-embedding-3-large',
+        'Embedding Dimensions': 3072,
+        'Average (8 datasets)': 69.26,
+        'STS Average (1 datasets)': 70.46,
+        'Classification (3 datasets)': 58.79,
+        'PairClassification (1 datasets)': 67.33,
+        'Retrieval (3 datasets)': 83.87,
+    },
 ]
 # Sort by average