Update exported model
Browse files- README.md +12 -813
- retrieval_eval/results.json +95 -0
- retrieval_eval/results.md +6 -0
README.md
CHANGED
|
@@ -1,817 +1,16 @@
|
|
| 1 |
-
---
|
| 2 |
-
tags:
|
| 3 |
-
- sentence-transformers
|
| 4 |
-
- sentence-similarity
|
| 5 |
-
- feature-extraction
|
| 6 |
-
- dense
|
| 7 |
-
- generated_from_trainer
|
| 8 |
-
- dataset_size:541248
|
| 9 |
-
- loss:MatryoshkaLoss
|
| 10 |
-
- loss:MultipleNegativesRankingLoss
|
| 11 |
-
base_model: QuangDuy/bert-tiny-stage2-hf
|
| 12 |
-
widget:
|
| 13 |
-
- source_sentence: sở hữu chung là gì?
|
| 14 |
-
sentences:
|
| 15 |
-
- Chủ nghĩa xã hội là một loạt các hệ thống kinh tế và xã hội được đặc trưng bởi
|
| 16 |
-
quyền sở hữu xã hội và quyền kiểm soát dân chủ đối với tư liệu sản xuất, cũng
|
| 17 |
-
như các lý thuyết và phong trào chính trị gắn liền với chúng. Sở hữu xã hội có
|
| 18 |
-
thể đề cập đến các hình thức sở hữu công cộng, tập thể hoặc hợp tác, hoặc quyền
|
| 19 |
-
sở hữu công bằng của công dân. Có nhiều loại hình chủ nghĩa xã hội và không có
|
| 20 |
-
một định nghĩa nào gói gọn tất cả chúng, mặc dù quyền sở hữu xã hội là yếu tố
|
| 21 |
-
chung được chia sẻ bởi các hình thức khác nhau của nó.
|
| 22 |
-
- Sở hữu chung là một chương trình do chính phủ tài trợ để giúp những người mua
|
| 23 |
-
lần đầu, những người sẽ không thể đặt chân lên nấc thang bất động sản. Chương
|
| 24 |
-
trình này chủ yếu được điều hành bởi các hiệp hội nhà ở của London.
|
| 25 |
-
- Malabar nằm gần trung tâm của Florida. Malabar là một phần của Quận Brevard. Malabar
|
| 26 |
-
có 10,67 dặm vuông diện tích đất và 2,57 dặm vuông diện tích mặt nước. Tính đến
|
| 27 |
-
năm 2010, tổng dân số Malabar là 2.757 người, tăng 5,15% kể từ năm 2000. Tỷ lệ
|
| 28 |
-
tăng dân số thấp hơn nhiều so với tỷ lệ trung bình của bang là 17,64% và thấp
|
| 29 |
-
hơn tỷ lệ trung bình của cả nước là 9,71%. Thu nhập trung bình của hộ gia đình
|
| 30 |
-
Malabar là 64.712 đô la trong năm 2008-2012 và đã tăng 30,27% kể từ năm 2000.
|
| 31 |
-
- source_sentence: ludobites là gì?
|
| 32 |
-
sentences:
|
| 33 |
-
- Ludobites là gì? Ludobites là một nhà hàng pop-up theo phong cách du kích do bếp
|
| 34 |
-
trưởng Ludo Lefebvre tạo ra, gần đây đã được giới thiệu là vua của món quesadillas
|
| 35 |
-
tai lợn tan chảy trên Top Chef Masters. Xin đừng giữ điều đó chống lại anh ta,
|
| 36 |
-
những người khác nhau làm việc tốt trong các loại tình huống khác nhau, và trong
|
| 37 |
-
nhà bếp của riêng anh ta, thức ăn của Ludo tỏa sáng.
|
| 38 |
-
- Một từ khác cho oxit boric là gì? Một từ khác cho borickites là gì? Một từ khác
|
| 39 |
-
cho borickite là gì? Một từ khác cho axit boric là gì? Một từ khác cho axit boric
|
| 40 |
-
là gì? Một từ khác cho vi sinh vật là gì? Một từ khác cho ngao ngán là gì? Một
|
| 41 |
-
từ khác cho ngao nhàm chán là gì? Một từ khác cho nhàm chán là gì? Một từ khác
|
| 42 |
-
cho nhàm chán nhất là gì? Một từ khác cho nhàm chán là gì?
|
| 43 |
-
- Nhà máy Tesla là một nhà máy sản xuất ô tô ở Fremont, California, Hoa Kỳ và là
|
| 44 |
-
cơ sở sản xuất chính của Tesla Motors. Xe Tesla Model S mới tại Nhà máy Tesla
|
| 45 |
-
vào năm 2012. Xe sản xuất loạt đầu tiên của nhà máy là Tesla Model S cỡ lớn. sedan
|
| 46 |
-
điện ắc quy. Vào năm 2011, Tesla Motors đã chuyển đổi từ các phiên bản alpha lắp
|
| 47 |
-
ráp thủ công sang các phiên bản beta, những chiếc xe xác nhận sản xuất được chế
|
| 48 |
-
tạo hoàn toàn tại Nhà máy Tesla.
|
| 49 |
-
- source_sentence: galveston indiana ở quận nào
|
| 50 |
-
sentences:
|
| 51 |
-
- Nhà bán ở Galveston, Hạt Cass, Indiana. Tìm nhà và đất ở nông thôn để bán ở Galveston,
|
| 52 |
-
Hạt Cass, Indiana? LandWatch.com có hàng nghìn tài sản nông thôn ở Galveston,
|
| 53 |
-
Hạt Cass, Indiana, bao gồm tài sản săn bắn & câu cá, cabin, Nhà để bán và đấu
|
| 54 |
-
giá đất. Chọn từ những khu đất có diện tích nhỏ đến những khu đất rộng lớn hơn
|
| 55 |
-
500 mẫu Anh.
|
| 56 |
-
- THÀNH PHỐ TEXAS, TX. THÀNH PHỐ TEXAS, TEXAS. Thành phố Texas, trên bờ Tây Nam
|
| 57 |
-
của Vịnh Galveston cách Galveston bảy dặm và cách Vịnh Mexico ở Quận Galveston
|
| 58 |
-
mười một dặm, là một cảng nước sâu trên đất liền.
|
| 59 |
-
- 'Theo simplehired.com, một kỹ thuật viên nhạc cụ ở nước ngoài có thể kiếm được
|
| 60 |
-
khoảng 61K mỗi năm. Cuộc sống ngoài khơi: Nếu bạn vẫn quan tâm đến các công việc
|
| 61 |
-
cấp độ đầu vào của giàn khoan dầu, hãy biết một điều rằng bạn sẽ phải lấy chứng
|
| 62 |
-
chỉ an toàn và vượt qua cuộc kiểm tra ma túy để được xem xét. ở cấp độ đầu vào,
|
| 63 |
-
công việc giàn khoan dầu khí ngoài khơi có thể kiếm được $ 24 - $ 26 một giờ;
|
| 64 |
-
các nhà khai thác derrick $ 23 - $ 30 mỗi giờ, trong khi thợ khoan ở mức $ 36
|
| 65 |
-
- $ 39.'
|
| 66 |
-
- source_sentence: sắt montainmi ở quận nào
|
| 67 |
-
sentences:
|
| 68 |
-
- 2. Tháo quả địa cầu và bóng đèn khỏi bộ đèn hiện có. Nới lỏng các vít lắp của
|
| 69 |
-
bộ đèn và hạ bộ đèn ra khỏi động cơ quạt trần. Ngắt kết nối hai dây dẫn đến đèn
|
| 70 |
-
bằng cách tháo các đai ốc của dây. Đặt bộ đèn cũ sang một bên .. Tháo quả địa
|
| 71 |
-
cầu và bóng đèn khỏi bộ đèn hiện có. Nới lỏng các vít lắp của bộ đèn và hạ bộ
|
| 72 |
-
đèn ra khỏi động cơ quạt trần. Ngắt kết nối hai dây dẫn đến đèn bằng cách tháo
|
| 73 |
-
các đai ốc của dây. Đặt bộ đèn cũ sang một bên.
|
| 74 |
-
- Sân bay gần nhất là Sân bay Hạt Rhinelander Oneida (RHI). Khoảng cách từ Rhinelander
|
| 75 |
-
Oneida County Airport đến Iron River là 82,0 km (51,0 dặm).
|
| 76 |
-
- Núi Sắt, Michigan. Núi Sắt là một thành phố ở tiểu bang Michigan của Hoa Kỳ. Dân
|
| 77 |
-
số tại thời điểm điều tra dân số năm 2010 là 7.624 người. Nó là quận lỵ của Quận
|
| 78 |
-
Dickinson, ở Bán đảo Thượng của tiểu bang. Núi Sắt được đặt tên cho quặng sắt
|
| 79 |
-
có giá trị được tìm thấy trong vùng lân cận.
|
| 80 |
-
- source_sentence: các phản ứng cụ thể của hệ thống miễn dịch của bạn là gì
|
| 81 |
-
sentences:
|
| 82 |
-
- Các phản ứng miễn dịch cụ thể đề cập đến thực tế là các globulin miễn dịch được
|
| 83 |
-
sản xuất đặc trưng cho các kháng nguyên đã kích thích sản xuất chúng, phản ứng
|
| 84 |
-
này dẫn đến việc sản xuất các tế bào nhớ vẫn lưu thông trong dòng máu nên sự tái
|
| 85 |
-
nhiễm xảy ra thì phản ứng sẽ nhanh hơn. đáp ứng miễn dịch đề cập đến thực tế là
|
| 86 |
-
các globulin miễn dịch được tạo ra đặc trưng cho các kháng nguyên kích thích sản
|
| 87 |
-
xuất chúng, phản ứng này dẫn đến việc sản xuất các tế bào nhớ vẫn lưu thông trong
|
| 88 |
-
dòng máu nên sự tái nhiễm xảy ra thì phản ứng sẽ nhanh hơn.
|
| 89 |
-
- Tìm kiếm có thể giúp chống lại chứng nghẹt mũi mãn tính. Nhóm nghiên cứu của Kita
|
| 90 |
-
đã so sánh phản ứng của hệ thống miễn dịch của 18 người bị nghẹt mũi mãn tính
|
| 91 |
-
và 15 người không mắc bệnh này. Họ đã kiểm tra mẫu máu của những người tham gia
|
| 92 |
-
để xem các tế bào của hệ thống miễn dịch cụ thể phản ứng như thế nào với các loại
|
| 93 |
-
nấm thông thường trong không khí.
|
| 94 |
-
- Bảo trì Cơ khí ở Los Angeles Mức lương. Một thợ sửa chữa bảo trì ở Los Angeles,
|
| 95 |
-
California kiếm được mức lương trung bình là 22,11 đô la mỗi giờ. Các kỹ năng
|
| 96 |
-
được trả lương cao nhất liên quan đến công việc này là Bảo trì thiết bị, Xử lý
|
| 97 |
-
sự cố, Thủy lực công nghiệp, Hệ thống ống nước và Bảo trì. Hầu hết những người
|
| 98 |
-
làm công việc này đều có hơn 5 năm kinh nghiệm trong các công việc liên quan.
|
| 99 |
-
pipeline_tag: sentence-similarity
|
| 100 |
-
library_name: sentence-transformers
|
| 101 |
-
---
|
| 102 |
|
| 103 |
-
|
| 104 |
|
| 105 |
-
|
| 106 |
|
| 107 |
-
|
|
|
|
|
|
|
| 108 |
|
| 109 |
-
|
| 110 |
-
-
|
| 111 |
-
|
| 112 |
-
|
| 113 |
-
|
| 114 |
-
|
| 115 |
-
<!-- - **Training Dataset:** Unknown -->
|
| 116 |
-
<!-- - **Language:** Unknown -->
|
| 117 |
-
<!-- - **License:** Unknown -->
|
| 118 |
-
|
| 119 |
-
### Model Sources
|
| 120 |
-
|
| 121 |
-
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
| 122 |
-
- **Repository:** [Sentence Transformers on GitHub](https://github.com/huggingface/sentence-transformers)
|
| 123 |
-
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
| 124 |
-
|
| 125 |
-
### Full Model Architecture
|
| 126 |
-
|
| 127 |
-
```
|
| 128 |
-
SentenceTransformer(
|
| 129 |
-
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'ModernBertModel'})
|
| 130 |
-
(1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
| 131 |
-
(2): Normalize()
|
| 132 |
-
)
|
| 133 |
-
```
|
| 134 |
-
|
| 135 |
-
## Usage
|
| 136 |
-
|
| 137 |
-
### Direct Usage (Sentence Transformers)
|
| 138 |
-
|
| 139 |
-
First install the Sentence Transformers library:
|
| 140 |
-
|
| 141 |
-
```bash
|
| 142 |
-
pip install -U sentence-transformers
|
| 143 |
-
```
|
| 144 |
-
|
| 145 |
-
Then you can load this model and run inference.
|
| 146 |
-
```python
|
| 147 |
-
from sentence_transformers import SentenceTransformer
|
| 148 |
-
|
| 149 |
-
# Download from the 🤗 Hub
|
| 150 |
-
model = SentenceTransformer("sentence_transformers_model_id")
|
| 151 |
-
# Run inference
|
| 152 |
-
sentences = [
|
| 153 |
-
'các phản ứng cụ thể của hệ thống miễn dịch của bạn là gì',
|
| 154 |
-
'Các phản ứng miễn dịch cụ thể đề cập đến thực tế là các globulin miễn dịch được sản xuất đặc trưng cho các kháng nguyên đã kích thích sản xuất chúng, phản ứng này dẫn đến việc sản xuất các tế bào nhớ vẫn lưu thông trong dòng máu nên sự tái nhiễm xảy ra thì phản ứng sẽ nhanh hơn. đáp ứng miễn dịch đề cập đến thực tế là các globulin miễn dịch được tạo ra đặc trưng cho các kháng nguyên kích thích sản xuất chúng, phản ứng này dẫn đến việc sản xuất các tế bào nhớ vẫn lưu thông trong dòng máu nên sự tái nhiễm xảy ra thì phản ứng sẽ nhanh hơn.',
|
| 155 |
-
'Tìm kiếm có thể giúp chống lại chứng nghẹt mũi mãn tính. Nhóm nghiên cứu của Kita đã so sánh phản ứng của hệ thống miễn dịch của 18 người bị nghẹt mũi mãn tính và 15 người không mắc bệnh này. Họ đã kiểm tra mẫu máu của những người tham gia để xem các tế bào của hệ thống miễn dịch cụ thể phản ứng như thế nào với các loại nấm thông thường trong không khí.',
|
| 156 |
-
]
|
| 157 |
-
embeddings = model.encode(sentences)
|
| 158 |
-
print(embeddings.shape)
|
| 159 |
-
# [3, 384]
|
| 160 |
-
|
| 161 |
-
# Get the similarity scores for the embeddings
|
| 162 |
-
similarities = model.similarity(embeddings, embeddings)
|
| 163 |
-
print(similarities)
|
| 164 |
-
# tensor([[1.0000, 0.7153, 0.4394],
|
| 165 |
-
# [0.7153, 1.0001, 0.3308],
|
| 166 |
-
# [0.4394, 0.3308, 1.0000]])
|
| 167 |
-
```
|
| 168 |
-
|
| 169 |
-
<!--
|
| 170 |
-
### Direct Usage (Transformers)
|
| 171 |
-
|
| 172 |
-
<details><summary>Click to see the direct usage in Transformers</summary>
|
| 173 |
-
|
| 174 |
-
</details>
|
| 175 |
-
-->
|
| 176 |
-
|
| 177 |
-
<!--
|
| 178 |
-
### Downstream Usage (Sentence Transformers)
|
| 179 |
-
|
| 180 |
-
You can finetune this model on your own dataset.
|
| 181 |
-
|
| 182 |
-
<details><summary>Click to expand</summary>
|
| 183 |
-
|
| 184 |
-
</details>
|
| 185 |
-
-->
|
| 186 |
-
|
| 187 |
-
<!--
|
| 188 |
-
### Out-of-Scope Use
|
| 189 |
-
|
| 190 |
-
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
| 191 |
-
-->
|
| 192 |
-
|
| 193 |
-
<!--
|
| 194 |
-
## Bias, Risks and Limitations
|
| 195 |
-
|
| 196 |
-
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
| 197 |
-
-->
|
| 198 |
-
|
| 199 |
-
<!--
|
| 200 |
-
### Recommendations
|
| 201 |
-
|
| 202 |
-
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
| 203 |
-
-->
|
| 204 |
-
|
| 205 |
-
## Training Details
|
| 206 |
-
|
| 207 |
-
### Training Dataset
|
| 208 |
-
|
| 209 |
-
#### Unnamed Dataset
|
| 210 |
-
|
| 211 |
-
* Size: 541,248 training samples
|
| 212 |
-
* Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>sentence_2</code>
|
| 213 |
-
* Approximate statistics based on the first 1000 samples:
|
| 214 |
-
| | sentence_0 | sentence_1 | sentence_2 |
|
| 215 |
-
|:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
|
| 216 |
-
| type | string | string | string |
|
| 217 |
-
| details | <ul><li>min: 5 tokens</li><li>mean: 11.35 tokens</li><li>max: 37 tokens</li></ul> | <ul><li>min: 20 tokens</li><li>mean: 101.36 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 21 tokens</li><li>mean: 96.12 tokens</li><li>max: 371 tokens</li></ul> |
|
| 218 |
-
* Samples:
|
| 219 |
-
| sentence_0 | sentence_1 | sentence_2 |
|
| 220 |
-
|:--------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
| 221 |
-
| <code>giá máy trợ thính trung bình</code> | <code>Máy trợ thính giúp những người bị mất thính lực tận hưởng cuộc sống chất lượng hơn ࢠ€Â⠀ nhưng thiết bị này có thể đắt tiền. Giá trung bình của một máy trợ thính là $ 2,300. Hầu hết mọi người cần hai, tăng gấp đôi chi phí. Nếu công ty bảo hiểm sức khỏe của bạn không cung cấp bảo hiểm, bạn sẽ muốn có đủ tiền tiết kiệm hoặc thẻ tín dụng hoàn tiền tốt để chi trả chi phí. Tổng chi phí phụ thuộc vào loại máy trợ thính, tính năng của nó và mức độ dịch vụ chuyên nghiệp. Phân tích chi phí Thông thường, bản thân máy trợ thính chỉ chiếm một phần ba tổng chi phí; phí và dịch vụ chuyên nghiệp chiếm phần còn lại.</code> | <code>Theo một cuộc khảo sát được công bố gần đây bởi Đánh giá thính giác, giá trung bình của một cặp thiết bị hỗ trợ tầm trung dao động trong khoảng từ $ 4,400 đến $ 4,500. Giá cả khác nhau tùy theo khu vực. Ví dụ, tại Phòng khám Thính học của UCLA, giá trung bình là $ 4,200, nhà thính học Alison Grimes cho biết.</code> |
|
| 222 |
-
| <code>tôi có thể trả lại một sản phẩm cho amazon không</code> | <code>Trả lại các mặt hàng do Amazon thực hiện / Các mặt hàng đủ điều kiện Prime. Bạn có thể trả lại các mặt hàng Đủ điều kiện của Amazon hoặc Prime bằng cách truy cập Trung tâm hỗ trợ trả hàng của chúng tôi. Đi tới Trung tâm Hỗ trợ Trả hàng và nhấp vào Trả lại mặt hàng. Tìm đơn đặt hàng bạn muốn trả lại và nhấp vào Trả lại hoặc Thay thế các mặt hàng. Chọn các mục bạn muốn trả lại.</code> | <code>Tôi mua sản phẩm này vì tôi nghĩ rằng tôi có thể nhìn thấy các thư mục của ổ cứng được kết nối với asus o! Play từ máy tính của mình. Nhưng nó rất khả thi. Tôi nghĩ rằng tôi sẽ trả lại sản phẩm này nếu không có bất kỳ chương trình cơ sở mới nào để cập nhật sự cố này trong vòng 10 ngày tới. Tôi hy vọng asus giải quyết nó, nếu không tôi sẽ trả lại sản phẩm.</code> |
|
| 223 |
-
| <code>ana tích cực nghĩa là gì</code> | <code>Tuy nhiên, các xét nghiệm khác vẫn có thể cần thiết dựa trên các triệu chứng của bạn. Một số người mắc bệnh tự miễn dịch có thể xét nghiệm âm tính với ANA nhưng dương tính với các kháng thể khác. Xét nghiệm ANA dương tính có nghĩa là bạn có nồng độ ANA cao trong máu. Xét nghiệm ANA dương tính thường được báo cáo dưới dạng cả tỷ lệ (được gọi là chuẩn) và kiểu mẫu, chẳng hạn như mịn hoặc lốm đốm. Một số bệnh có nhiều khả năng có một số mô hình nhất định. Hiệu giá càng cao thì kết quả càng có nhiều khả năng là kết quả ࢠ€Š“true positiveࢠ€Â, nghĩa là bạn có kháng thể kháng nhân đáng kể và mắc bệnh tự miễn dịch. Tuy nhiên, kết quả dương tính không luôn có nghĩa là bạn mắc bệnh tự miễn dịch.</code> | <code>Tích cực: 88%. túi mật giải nén nghĩa là gì góp phần vào túi mật ... mật sẽ luôn luôn là gì túi mật giải nén nghĩa là chọn protein nạc ...</code> |
|
| 224 |
-
* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
|
| 225 |
-
```json
|
| 226 |
-
{
|
| 227 |
-
"loss": "MultipleNegativesRankingLoss",
|
| 228 |
-
"matryoshka_dims": [
|
| 229 |
-
384,
|
| 230 |
-
256,
|
| 231 |
-
128,
|
| 232 |
-
64
|
| 233 |
-
],
|
| 234 |
-
"matryoshka_weights": [
|
| 235 |
-
1,
|
| 236 |
-
1,
|
| 237 |
-
1,
|
| 238 |
-
1
|
| 239 |
-
],
|
| 240 |
-
"n_dims_per_step": -1
|
| 241 |
-
}
|
| 242 |
-
```
|
| 243 |
-
|
| 244 |
-
### Training Hyperparameters
|
| 245 |
-
#### Non-Default Hyperparameters
|
| 246 |
-
|
| 247 |
-
- `eval_strategy`: steps
|
| 248 |
-
- `per_device_train_batch_size`: 64
|
| 249 |
-
- `per_device_eval_batch_size`: 128
|
| 250 |
-
- `learning_rate`: 2e-05
|
| 251 |
-
- `weight_decay`: 0.01
|
| 252 |
-
- `num_train_epochs`: 5
|
| 253 |
-
- `warmup_steps`: 4229
|
| 254 |
-
- `bf16`: True
|
| 255 |
-
- `batch_sampler`: no_duplicates
|
| 256 |
-
|
| 257 |
-
#### All Hyperparameters
|
| 258 |
-
<details><summary>Click to expand</summary>
|
| 259 |
-
|
| 260 |
-
- `overwrite_output_dir`: False
|
| 261 |
-
- `do_predict`: False
|
| 262 |
-
- `eval_strategy`: steps
|
| 263 |
-
- `prediction_loss_only`: True
|
| 264 |
-
- `per_device_train_batch_size`: 64
|
| 265 |
-
- `per_device_eval_batch_size`: 128
|
| 266 |
-
- `per_gpu_train_batch_size`: None
|
| 267 |
-
- `per_gpu_eval_batch_size`: None
|
| 268 |
-
- `gradient_accumulation_steps`: 1
|
| 269 |
-
- `eval_accumulation_steps`: None
|
| 270 |
-
- `torch_empty_cache_steps`: None
|
| 271 |
-
- `learning_rate`: 2e-05
|
| 272 |
-
- `weight_decay`: 0.01
|
| 273 |
-
- `adam_beta1`: 0.9
|
| 274 |
-
- `adam_beta2`: 0.999
|
| 275 |
-
- `adam_epsilon`: 1e-08
|
| 276 |
-
- `max_grad_norm`: 1.0
|
| 277 |
-
- `num_train_epochs`: 5
|
| 278 |
-
- `max_steps`: -1
|
| 279 |
-
- `lr_scheduler_type`: linear
|
| 280 |
-
- `lr_scheduler_kwargs`: None
|
| 281 |
-
- `warmup_ratio`: 0.0
|
| 282 |
-
- `warmup_steps`: 4229
|
| 283 |
-
- `log_level`: passive
|
| 284 |
-
- `log_level_replica`: warning
|
| 285 |
-
- `log_on_each_node`: True
|
| 286 |
-
- `logging_nan_inf_filter`: True
|
| 287 |
-
- `save_safetensors`: True
|
| 288 |
-
- `save_on_each_node`: False
|
| 289 |
-
- `save_only_model`: False
|
| 290 |
-
- `restore_callback_states_from_checkpoint`: False
|
| 291 |
-
- `no_cuda`: False
|
| 292 |
-
- `use_cpu`: False
|
| 293 |
-
- `use_mps_device`: False
|
| 294 |
-
- `seed`: 42
|
| 295 |
-
- `data_seed`: None
|
| 296 |
-
- `jit_mode_eval`: False
|
| 297 |
-
- `bf16`: True
|
| 298 |
-
- `fp16`: False
|
| 299 |
-
- `fp16_opt_level`: O1
|
| 300 |
-
- `half_precision_backend`: auto
|
| 301 |
-
- `bf16_full_eval`: False
|
| 302 |
-
- `fp16_full_eval`: False
|
| 303 |
-
- `tf32`: None
|
| 304 |
-
- `local_rank`: 0
|
| 305 |
-
- `ddp_backend`: None
|
| 306 |
-
- `tpu_num_cores`: None
|
| 307 |
-
- `tpu_metrics_debug`: False
|
| 308 |
-
- `debug`: []
|
| 309 |
-
- `dataloader_drop_last`: True
|
| 310 |
-
- `dataloader_num_workers`: 0
|
| 311 |
-
- `dataloader_prefetch_factor`: None
|
| 312 |
-
- `past_index`: -1
|
| 313 |
-
- `disable_tqdm`: False
|
| 314 |
-
- `remove_unused_columns`: True
|
| 315 |
-
- `label_names`: None
|
| 316 |
-
- `load_best_model_at_end`: False
|
| 317 |
-
- `ignore_data_skip`: False
|
| 318 |
-
- `fsdp`: []
|
| 319 |
-
- `fsdp_min_num_params`: 0
|
| 320 |
-
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
| 321 |
-
- `fsdp_transformer_layer_cls_to_wrap`: None
|
| 322 |
-
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
| 323 |
-
- `parallelism_config`: None
|
| 324 |
-
- `deepspeed`: None
|
| 325 |
-
- `label_smoothing_factor`: 0.0
|
| 326 |
-
- `optim`: adamw_torch_fused
|
| 327 |
-
- `optim_args`: None
|
| 328 |
-
- `adafactor`: False
|
| 329 |
-
- `group_by_length`: False
|
| 330 |
-
- `length_column_name`: length
|
| 331 |
-
- `project`: huggingface
|
| 332 |
-
- `trackio_space_id`: trackio
|
| 333 |
-
- `ddp_find_unused_parameters`: None
|
| 334 |
-
- `ddp_bucket_cap_mb`: None
|
| 335 |
-
- `ddp_broadcast_buffers`: False
|
| 336 |
-
- `dataloader_pin_memory`: True
|
| 337 |
-
- `dataloader_persistent_workers`: False
|
| 338 |
-
- `skip_memory_metrics`: True
|
| 339 |
-
- `use_legacy_prediction_loop`: False
|
| 340 |
-
- `push_to_hub`: False
|
| 341 |
-
- `resume_from_checkpoint`: None
|
| 342 |
-
- `hub_model_id`: None
|
| 343 |
-
- `hub_strategy`: every_save
|
| 344 |
-
- `hub_private_repo`: None
|
| 345 |
-
- `hub_always_push`: False
|
| 346 |
-
- `hub_revision`: None
|
| 347 |
-
- `gradient_checkpointing`: False
|
| 348 |
-
- `gradient_checkpointing_kwargs`: None
|
| 349 |
-
- `include_inputs_for_metrics`: False
|
| 350 |
-
- `include_for_metrics`: []
|
| 351 |
-
- `eval_do_concat_batches`: True
|
| 352 |
-
- `fp16_backend`: auto
|
| 353 |
-
- `push_to_hub_model_id`: None
|
| 354 |
-
- `push_to_hub_organization`: None
|
| 355 |
-
- `mp_parameters`:
|
| 356 |
-
- `auto_find_batch_size`: False
|
| 357 |
-
- `full_determinism`: False
|
| 358 |
-
- `torchdynamo`: None
|
| 359 |
-
- `ray_scope`: last
|
| 360 |
-
- `ddp_timeout`: 1800
|
| 361 |
-
- `torch_compile`: False
|
| 362 |
-
- `torch_compile_backend`: None
|
| 363 |
-
- `torch_compile_mode`: None
|
| 364 |
-
- `include_tokens_per_second`: False
|
| 365 |
-
- `include_num_input_tokens_seen`: no
|
| 366 |
-
- `neftune_noise_alpha`: None
|
| 367 |
-
- `optim_target_modules`: None
|
| 368 |
-
- `batch_eval_metrics`: False
|
| 369 |
-
- `eval_on_start`: False
|
| 370 |
-
- `use_liger_kernel`: False
|
| 371 |
-
- `liger_kernel_config`: None
|
| 372 |
-
- `eval_use_gather_object`: False
|
| 373 |
-
- `average_tokens_across_devices`: True
|
| 374 |
-
- `prompts`: None
|
| 375 |
-
- `batch_sampler`: no_duplicates
|
| 376 |
-
- `multi_dataset_batch_sampler`: proportional
|
| 377 |
-
- `router_mapping`: {}
|
| 378 |
-
- `learning_rate_mapping`: {}
|
| 379 |
-
|
| 380 |
-
</details>
|
| 381 |
-
|
| 382 |
-
### Training Logs
|
| 383 |
-
<details><summary>Click to expand</summary>
|
| 384 |
-
|
| 385 |
-
| Epoch | Step | Training Loss | validation loss |
|
| 386 |
-
|:------:|:-----:|:-------------:|:---------------:|
|
| 387 |
-
| 0.0118 | 50 | 18.0314 | - |
|
| 388 |
-
| 0.0237 | 100 | 17.7147 | - |
|
| 389 |
-
| 0.0355 | 150 | 17.0007 | - |
|
| 390 |
-
| 0.0473 | 200 | 16.0667 | - |
|
| 391 |
-
| 0.0591 | 250 | 14.9131 | - |
|
| 392 |
-
| 0.0710 | 300 | 13.9449 | - |
|
| 393 |
-
| 0.0828 | 350 | 12.7957 | - |
|
| 394 |
-
| 0.0946 | 400 | 11.7288 | - |
|
| 395 |
-
| 0.1064 | 450 | 10.6945 | - |
|
| 396 |
-
| 0.1183 | 500 | 9.4743 | - |
|
| 397 |
-
| 0.1301 | 550 | 8.6215 | - |
|
| 398 |
-
| 0.1419 | 600 | 7.7279 | - |
|
| 399 |
-
| 0.1537 | 650 | 7.1892 | - |
|
| 400 |
-
| 0.1656 | 700 | 6.9682 | - |
|
| 401 |
-
| 0.1774 | 750 | 6.4781 | - |
|
| 402 |
-
| 0.1892 | 800 | 6.1271 | - |
|
| 403 |
-
| 0.2010 | 850 | 6.1199 | - |
|
| 404 |
-
| 0.2129 | 900 | 5.9544 | - |
|
| 405 |
-
| 0.2247 | 950 | 5.8145 | - |
|
| 406 |
-
| 0.2365 | 1000 | 5.5599 | - |
|
| 407 |
-
| 0.2483 | 1050 | 5.2344 | - |
|
| 408 |
-
| 0.2602 | 1100 | 5.3013 | - |
|
| 409 |
-
| 0.2720 | 1150 | 5.0562 | - |
|
| 410 |
-
| 0.2838 | 1200 | 4.8728 | - |
|
| 411 |
-
| 0.2956 | 1250 | 4.7826 | - |
|
| 412 |
-
| 0.3075 | 1300 | 4.8806 | - |
|
| 413 |
-
| 0.3193 | 1350 | 4.6464 | - |
|
| 414 |
-
| 0.3311 | 1400 | 4.7046 | - |
|
| 415 |
-
| 0.3430 | 1450 | 4.5188 | - |
|
| 416 |
-
| 0.3548 | 1500 | 4.4968 | - |
|
| 417 |
-
| 0.3666 | 1550 | 4.4387 | - |
|
| 418 |
-
| 0.3784 | 1600 | 4.1702 | - |
|
| 419 |
-
| 0.3903 | 1650 | 4.2147 | - |
|
| 420 |
-
| 0.4021 | 1700 | 3.9972 | - |
|
| 421 |
-
| 0.4139 | 1750 | 4.1279 | - |
|
| 422 |
-
| 0.4257 | 1800 | 4.0214 | - |
|
| 423 |
-
| 0.4376 | 1850 | 3.9161 | - |
|
| 424 |
-
| 0.4494 | 1900 | 3.7544 | - |
|
| 425 |
-
| 0.4612 | 1950 | 3.8246 | - |
|
| 426 |
-
| 0.4730 | 2000 | 3.7991 | 5.9881 |
|
| 427 |
-
| 0.4849 | 2050 | 3.8554 | - |
|
| 428 |
-
| 0.4967 | 2100 | 3.8123 | - |
|
| 429 |
-
| 0.5085 | 2150 | 3.5525 | - |
|
| 430 |
-
| 0.5203 | 2200 | 3.5591 | - |
|
| 431 |
-
| 0.5322 | 2250 | 3.6293 | - |
|
| 432 |
-
| 0.5440 | 2300 | 3.5831 | - |
|
| 433 |
-
| 0.5558 | 2350 | 3.6007 | - |
|
| 434 |
-
| 0.5676 | 2400 | 3.4225 | - |
|
| 435 |
-
| 0.5795 | 2450 | 3.4405 | - |
|
| 436 |
-
| 0.5913 | 2500 | 3.4002 | - |
|
| 437 |
-
| 0.6031 | 2550 | 3.3653 | - |
|
| 438 |
-
| 0.6149 | 2600 | 3.321 | - |
|
| 439 |
-
| 0.6268 | 2650 | 3.3042 | - |
|
| 440 |
-
| 0.6386 | 2700 | 3.2117 | - |
|
| 441 |
-
| 0.6504 | 2750 | 3.3423 | - |
|
| 442 |
-
| 0.6623 | 2800 | 3.2494 | - |
|
| 443 |
-
| 0.6741 | 2850 | 3.1364 | - |
|
| 444 |
-
| 0.6859 | 2900 | 3.1836 | - |
|
| 445 |
-
| 0.6977 | 2950 | 3.1268 | - |
|
| 446 |
-
| 0.7096 | 3000 | 3.072 | - |
|
| 447 |
-
| 0.7214 | 3050 | 3.0135 | - |
|
| 448 |
-
| 0.7332 | 3100 | 3.0607 | - |
|
| 449 |
-
| 0.7450 | 3150 | 3.0963 | - |
|
| 450 |
-
| 0.7569 | 3200 | 3.0419 | - |
|
| 451 |
-
| 0.7687 | 3250 | 2.9891 | - |
|
| 452 |
-
| 0.7805 | 3300 | 2.9384 | - |
|
| 453 |
-
| 0.7923 | 3350 | 2.8918 | - |
|
| 454 |
-
| 0.8042 | 3400 | 2.9816 | - |
|
| 455 |
-
| 0.8160 | 3450 | 2.9664 | - |
|
| 456 |
-
| 0.8278 | 3500 | 2.8969 | - |
|
| 457 |
-
| 0.8396 | 3550 | 2.9368 | - |
|
| 458 |
-
| 0.8515 | 3600 | 2.8513 | - |
|
| 459 |
-
| 0.8633 | 3650 | 2.9808 | - |
|
| 460 |
-
| 0.8751 | 3700 | 2.8428 | - |
|
| 461 |
-
| 0.8869 | 3750 | 2.8775 | - |
|
| 462 |
-
| 0.8988 | 3800 | 2.739 | - |
|
| 463 |
-
| 0.9106 | 3850 | 2.8277 | - |
|
| 464 |
-
| 0.9224 | 3900 | 2.767 | - |
|
| 465 |
-
| 0.9342 | 3950 | 2.794 | - |
|
| 466 |
-
| 0.9461 | 4000 | 2.7738 | 4.7738 |
|
| 467 |
-
| 0.9579 | 4050 | 2.8568 | - |
|
| 468 |
-
| 0.9697 | 4100 | 2.7938 | - |
|
| 469 |
-
| 0.9816 | 4150 | 2.7272 | - |
|
| 470 |
-
| 0.9934 | 4200 | 2.7079 | - |
|
| 471 |
-
| 1.0052 | 4250 | 2.6383 | - |
|
| 472 |
-
| 1.0170 | 4300 | 2.6855 | - |
|
| 473 |
-
| 1.0289 | 4350 | 2.6568 | - |
|
| 474 |
-
| 1.0407 | 4400 | 2.5981 | - |
|
| 475 |
-
| 1.0525 | 4450 | 2.6987 | - |
|
| 476 |
-
| 1.0643 | 4500 | 2.6992 | - |
|
| 477 |
-
| 1.0762 | 4550 | 2.5434 | - |
|
| 478 |
-
| 1.0880 | 4600 | 2.5553 | - |
|
| 479 |
-
| 1.0998 | 4650 | 2.4978 | - |
|
| 480 |
-
| 1.1116 | 4700 | 2.5679 | - |
|
| 481 |
-
| 1.1235 | 4750 | 2.4768 | - |
|
| 482 |
-
| 1.1353 | 4800 | 2.5578 | - |
|
| 483 |
-
| 1.1471 | 4850 | 2.4758 | - |
|
| 484 |
-
| 1.1589 | 4900 | 2.5352 | - |
|
| 485 |
-
| 1.1708 | 4950 | 2.5023 | - |
|
| 486 |
-
| 1.1826 | 5000 | 2.4713 | - |
|
| 487 |
-
| 1.1944 | 5050 | 2.486 | - |
|
| 488 |
-
| 1.2062 | 5100 | 2.483 | - |
|
| 489 |
-
| 1.2181 | 5150 | 2.4098 | - |
|
| 490 |
-
| 1.2299 | 5200 | 2.5061 | - |
|
| 491 |
-
| 1.2417 | 5250 | 2.4597 | - |
|
| 492 |
-
| 1.2535 | 5300 | 2.4591 | - |
|
| 493 |
-
| 1.2654 | 5350 | 2.3879 | - |
|
| 494 |
-
| 1.2772 | 5400 | 2.4146 | - |
|
| 495 |
-
| 1.2890 | 5450 | 2.3418 | - |
|
| 496 |
-
| 1.3009 | 5500 | 2.4307 | - |
|
| 497 |
-
| 1.3127 | 5550 | 2.3653 | - |
|
| 498 |
-
| 1.3245 | 5600 | 2.3995 | - |
|
| 499 |
-
| 1.3363 | 5650 | 2.4527 | - |
|
| 500 |
-
| 1.3482 | 5700 | 2.4547 | - |
|
| 501 |
-
| 1.3600 | 5750 | 2.3695 | - |
|
| 502 |
-
| 1.3718 | 5800 | 2.3341 | - |
|
| 503 |
-
| 1.3836 | 5850 | 2.2412 | - |
|
| 504 |
-
| 1.3955 | 5900 | 2.2695 | - |
|
| 505 |
-
| 1.4073 | 5950 | 2.2922 | - |
|
| 506 |
-
| 1.4191 | 6000 | 2.3176 | 4.3057 |
|
| 507 |
-
| 1.4309 | 6050 | 2.281 | - |
|
| 508 |
-
| 1.4428 | 6100 | 2.2155 | - |
|
| 509 |
-
| 1.4546 | 6150 | 2.1908 | - |
|
| 510 |
-
| 1.4664 | 6200 | 2.2071 | - |
|
| 511 |
-
| 1.4782 | 6250 | 2.2617 | - |
|
| 512 |
-
| 1.4901 | 6300 | 2.2864 | - |
|
| 513 |
-
| 1.5019 | 6350 | 2.2509 | - |
|
| 514 |
-
| 1.5137 | 6400 | 2.1227 | - |
|
| 515 |
-
| 1.5255 | 6450 | 2.1919 | - |
|
| 516 |
-
| 1.5374 | 6500 | 2.2072 | - |
|
| 517 |
-
| 1.5492 | 6550 | 2.1652 | - |
|
| 518 |
-
| 1.5610 | 6600 | 2.2224 | - |
|
| 519 |
-
| 1.5728 | 6650 | 2.0715 | - |
|
| 520 |
-
| 1.5847 | 6700 | 2.1693 | - |
|
| 521 |
-
| 1.5965 | 6750 | 2.1141 | - |
|
| 522 |
-
| 1.6083 | 6800 | 2.1129 | - |
|
| 523 |
-
| 1.6202 | 6850 | 2.1001 | - |
|
| 524 |
-
| 1.6320 | 6900 | 2.094 | - |
|
| 525 |
-
| 1.6438 | 6950 | 2.2176 | - |
|
| 526 |
-
| 1.6556 | 7000 | 2.109 | - |
|
| 527 |
-
| 1.6675 | 7050 | 2.0537 | - |
|
| 528 |
-
| 1.6793 | 7100 | 2.0328 | - |
|
| 529 |
-
| 1.6911 | 7150 | 2.1541 | - |
|
| 530 |
-
| 1.7029 | 7200 | 2.0164 | - |
|
| 531 |
-
| 1.7148 | 7250 | 2.0225 | - |
|
| 532 |
-
| 1.7266 | 7300 | 2.0243 | - |
|
| 533 |
-
| 1.7384 | 7350 | 2.0152 | - |
|
| 534 |
-
| 1.7502 | 7400 | 2.0455 | - |
|
| 535 |
-
| 1.7621 | 7450 | 2.0026 | - |
|
| 536 |
-
| 1.7739 | 7500 | 1.9846 | - |
|
| 537 |
-
| 1.7857 | 7550 | 1.9594 | - |
|
| 538 |
-
| 1.7975 | 7600 | 2.0523 | - |
|
| 539 |
-
| 1.8094 | 7650 | 1.9751 | - |
|
| 540 |
-
| 1.8212 | 7700 | 1.9898 | - |
|
| 541 |
-
| 1.8330 | 7750 | 1.9658 | - |
|
| 542 |
-
| 1.8448 | 7800 | 1.9976 | - |
|
| 543 |
-
| 1.8567 | 7850 | 1.9939 | - |
|
| 544 |
-
| 1.8685 | 7900 | 1.9666 | - |
|
| 545 |
-
| 1.8803 | 7950 | 1.9704 | - |
|
| 546 |
-
| 1.8921 | 8000 | 1.9822 | 4.1331 |
|
| 547 |
-
| 1.9040 | 8050 | 1.8534 | - |
|
| 548 |
-
| 1.9158 | 8100 | 1.856 | - |
|
| 549 |
-
| 1.9276 | 8150 | 1.9817 | - |
|
| 550 |
-
| 1.9395 | 8200 | 1.9095 | - |
|
| 551 |
-
| 1.9513 | 8250 | 1.9343 | - |
|
| 552 |
-
| 1.9631 | 8300 | 1.95 | - |
|
| 553 |
-
| 1.9749 | 8350 | 1.9981 | - |
|
| 554 |
-
| 1.9868 | 8400 | 1.8872 | - |
|
| 555 |
-
| 1.9986 | 8450 | 1.8112 | - |
|
| 556 |
-
| 2.0104 | 8500 | 1.8451 | - |
|
| 557 |
-
| 2.0222 | 8550 | 1.8918 | - |
|
| 558 |
-
| 2.0341 | 8600 | 1.7837 | - |
|
| 559 |
-
| 2.0459 | 8650 | 1.8692 | - |
|
| 560 |
-
| 2.0577 | 8700 | 1.8614 | - |
|
| 561 |
-
| 2.0695 | 8750 | 1.8677 | - |
|
| 562 |
-
| 2.0814 | 8800 | 1.8005 | - |
|
| 563 |
-
| 2.0932 | 8850 | 1.8008 | - |
|
| 564 |
-
| 2.1050 | 8900 | 1.8207 | - |
|
| 565 |
-
| 2.1168 | 8950 | 1.7491 | - |
|
| 566 |
-
| 2.1287 | 9000 | 1.8351 | - |
|
| 567 |
-
| 2.1405 | 9050 | 1.7934 | - |
|
| 568 |
-
| 2.1523 | 9100 | 1.8162 | - |
|
| 569 |
-
| 2.1641 | 9150 | 1.8496 | - |
|
| 570 |
-
| 2.1760 | 9200 | 1.7747 | - |
|
| 571 |
-
| 2.1878 | 9250 | 1.7665 | - |
|
| 572 |
-
| 2.1996 | 9300 | 1.789 | - |
|
| 573 |
-
| 2.2114 | 9350 | 1.8264 | - |
|
| 574 |
-
| 2.2233 | 9400 | 1.788 | - |
|
| 575 |
-
| 2.2351 | 9450 | 1.7902 | - |
|
| 576 |
-
| 2.2469 | 9500 | 1.8175 | - |
|
| 577 |
-
| 2.2588 | 9550 | 1.8042 | - |
|
| 578 |
-
| 2.2706 | 9600 | 1.7767 | - |
|
| 579 |
-
| 2.2824 | 9650 | 1.7099 | - |
|
| 580 |
-
| 2.2942 | 9700 | 1.7841 | - |
|
| 581 |
-
| 2.3061 | 9750 | 1.87 | - |
|
| 582 |
-
| 2.3179 | 9800 | 1.7485 | - |
|
| 583 |
-
| 2.3297 | 9850 | 1.8367 | - |
|
| 584 |
-
| 2.3415 | 9900 | 1.7925 | - |
|
| 585 |
-
| 2.3534 | 9950 | 1.9135 | - |
|
| 586 |
-
| 2.3652 | 10000 | 1.7746 | 4.0629 |
|
| 587 |
-
| 2.3770 | 10050 | 1.672 | - |
|
| 588 |
-
| 2.3888 | 10100 | 1.7265 | - |
|
| 589 |
-
| 2.4007 | 10150 | 1.6875 | - |
|
| 590 |
-
| 2.4125 | 10200 | 1.7421 | - |
|
| 591 |
-
| 2.4243 | 10250 | 1.7447 | - |
|
| 592 |
-
| 2.4361 | 10300 | 1.7335 | - |
|
| 593 |
-
| 2.4480 | 10350 | 1.6583 | - |
|
| 594 |
-
| 2.4598 | 10400 | 1.6937 | - |
|
| 595 |
-
| 2.4716 | 10450 | 1.6425 | - |
|
| 596 |
-
| 2.4834 | 10500 | 1.7837 | - |
|
| 597 |
-
| 2.4953 | 10550 | 1.7589 | - |
|
| 598 |
-
| 2.5071 | 10600 | 1.6618 | - |
|
| 599 |
-
| 2.5189 | 10650 | 1.6107 | - |
|
| 600 |
-
| 2.5307 | 10700 | 1.706 | - |
|
| 601 |
-
| 2.5426 | 10750 | 1.6662 | - |
|
| 602 |
-
| 2.5544 | 10800 | 1.7491 | - |
|
| 603 |
-
| 2.5662 | 10850 | 1.615 | - |
|
| 604 |
-
| 2.5781 | 10900 | 1.6314 | - |
|
| 605 |
-
| 2.5899 | 10950 | 1.6564 | - |
|
| 606 |
-
| 2.6017 | 11000 | 1.6085 | - |
|
| 607 |
-
| 2.6135 | 11050 | 1.6969 | - |
|
| 608 |
-
| 2.6254 | 11100 | 1.5963 | - |
|
| 609 |
-
| 2.6372 | 11150 | 1.6626 | - |
|
| 610 |
-
| 2.6490 | 11200 | 1.715 | - |
|
| 611 |
-
| 2.6608 | 11250 | 1.6182 | - |
|
| 612 |
-
| 2.6727 | 11300 | 1.5667 | - |
|
| 613 |
-
| 2.6845 | 11350 | 1.6255 | - |
|
| 614 |
-
| 2.6963 | 11400 | 1.6146 | - |
|
| 615 |
-
| 2.7081 | 11450 | 1.5807 | - |
|
| 616 |
-
| 2.7200 | 11500 | 1.571 | - |
|
| 617 |
-
| 2.7318 | 11550 | 1.611 | - |
|
| 618 |
-
| 2.7436 | 11600 | 1.5757 | - |
|
| 619 |
-
| 2.7554 | 11650 | 1.6048 | - |
|
| 620 |
-
| 2.7673 | 11700 | 1.5559 | - |
|
| 621 |
-
| 2.7791 | 11750 | 1.5634 | - |
|
| 622 |
-
| 2.7909 | 11800 | 1.5663 | - |
|
| 623 |
-
| 2.8027 | 11850 | 1.6274 | - |
|
| 624 |
-
| 2.8146 | 11900 | 1.5478 | - |
|
| 625 |
-
| 2.8264 | 11950 | 1.5728 | - |
|
| 626 |
-
| 2.8382 | 12000 | 1.5694 | 3.9845 |
|
| 627 |
-
| 2.8500 | 12050 | 1.5544 | - |
|
| 628 |
-
| 2.8619 | 12100 | 1.6172 | - |
|
| 629 |
-
| 2.8737 | 12150 | 1.5358 | - |
|
| 630 |
-
| 2.8855 | 12200 | 1.5656 | - |
|
| 631 |
-
| 2.8974 | 12250 | 1.5273 | - |
|
| 632 |
-
| 2.9092 | 12300 | 1.4981 | - |
|
| 633 |
-
| 2.9210 | 12350 | 1.5256 | - |
|
| 634 |
-
| 2.9328 | 12400 | 1.522 | - |
|
| 635 |
-
| 2.9447 | 12450 | 1.465 | - |
|
| 636 |
-
| 2.9565 | 12500 | 1.6151 | - |
|
| 637 |
-
| 2.9683 | 12550 | 1.5521 | - |
|
| 638 |
-
| 2.9801 | 12600 | 1.5657 | - |
|
| 639 |
-
| 2.9920 | 12650 | 1.4935 | - |
|
| 640 |
-
| 3.0038 | 12700 | 1.4081 | - |
|
| 641 |
-
| 3.0156 | 12750 | 1.5243 | - |
|
| 642 |
-
| 3.0274 | 12800 | 1.4999 | - |
|
| 643 |
-
| 3.0393 | 12850 | 1.4139 | - |
|
| 644 |
-
| 3.0511 | 12900 | 1.5522 | - |
|
| 645 |
-
| 3.0629 | 12950 | 1.4865 | - |
|
| 646 |
-
| 3.0747 | 13000 | 1.4755 | - |
|
| 647 |
-
| 3.0866 | 13050 | 1.4582 | - |
|
| 648 |
-
| 3.0984 | 13100 | 1.4112 | - |
|
| 649 |
-
| 3.1102 | 13150 | 1.4758 | - |
|
| 650 |
-
| 3.1220 | 13200 | 1.4388 | - |
|
| 651 |
-
| 3.1339 | 13250 | 1.4819 | - |
|
| 652 |
-
| 3.1457 | 13300 | 1.4525 | - |
|
| 653 |
-
| 3.1575 | 13350 | 1.4583 | - |
|
| 654 |
-
| 3.1693 | 13400 | 1.4714 | - |
|
| 655 |
-
| 3.1812 | 13450 | 1.4265 | - |
|
| 656 |
-
| 3.1930 | 13500 | 1.454 | - |
|
| 657 |
-
| 3.2048 | 13550 | 1.4506 | - |
|
| 658 |
-
| 3.2167 | 13600 | 1.4055 | - |
|
| 659 |
-
| 3.2285 | 13650 | 1.4729 | - |
|
| 660 |
-
| 3.2403 | 13700 | 1.4791 | - |
|
| 661 |
-
| 3.2521 | 13750 | 1.4962 | - |
|
| 662 |
-
| 3.2640 | 13800 | 1.4101 | - |
|
| 663 |
-
| 3.2758 | 13850 | 1.4596 | - |
|
| 664 |
-
| 3.2876 | 13900 | 1.4207 | - |
|
| 665 |
-
| 3.2994 | 13950 | 1.4972 | - |
|
| 666 |
-
| 3.3113 | 14000 | 1.4473 | 3.9688 |
|
| 667 |
-
| 3.3231 | 14050 | 1.46 | - |
|
| 668 |
-
| 3.3349 | 14100 | 1.5012 | - |
|
| 669 |
-
| 3.3467 | 14150 | 1.5466 | - |
|
| 670 |
-
| 3.3586 | 14200 | 1.5067 | - |
|
| 671 |
-
| 3.3704 | 14250 | 1.4413 | - |
|
| 672 |
-
| 3.3822 | 14300 | 1.3448 | - |
|
| 673 |
-
| 3.3940 | 14350 | 1.3792 | - |
|
| 674 |
-
| 3.4059 | 14400 | 1.4019 | - |
|
| 675 |
-
| 3.4177 | 14450 | 1.4771 | - |
|
| 676 |
-
| 3.4295 | 14500 | 1.4383 | - |
|
| 677 |
-
| 3.4413 | 14550 | 1.4172 | - |
|
| 678 |
-
| 3.4532 | 14600 | 1.3284 | - |
|
| 679 |
-
| 3.4650 | 14650 | 1.3867 | - |
|
| 680 |
-
| 3.4768 | 14700 | 1.3931 | - |
|
| 681 |
-
| 3.4886 | 14750 | 1.4429 | - |
|
| 682 |
-
| 3.5005 | 14800 | 1.4665 | - |
|
| 683 |
-
| 3.5123 | 14850 | 1.3232 | - |
|
| 684 |
-
| 3.5241 | 14900 | 1.4112 | - |
|
| 685 |
-
| 3.5360 | 14950 | 1.3916 | - |
|
| 686 |
-
| 3.5478 | 15000 | 1.3572 | - |
|
| 687 |
-
| 3.5596 | 15050 | 1.4414 | - |
|
| 688 |
-
| 3.5714 | 15100 | 1.2716 | - |
|
| 689 |
-
| 3.5833 | 15150 | 1.4043 | - |
|
| 690 |
-
| 3.5951 | 15200 | 1.3686 | - |
|
| 691 |
-
| 3.6069 | 15250 | 1.3687 | - |
|
| 692 |
-
| 3.6187 | 15300 | 1.3183 | - |
|
| 693 |
-
| 3.6306 | 15350 | 1.3712 | - |
|
| 694 |
-
| 3.6424 | 15400 | 1.4006 | - |
|
| 695 |
-
| 3.6542 | 15450 | 1.4326 | - |
|
| 696 |
-
| 3.6660 | 15500 | 1.3116 | - |
|
| 697 |
-
| 3.6779 | 15550 | 1.2975 | - |
|
| 698 |
-
| 3.6897 | 15600 | 1.3709 | - |
|
| 699 |
-
| 3.7015 | 15650 | 1.3267 | - |
|
| 700 |
-
| 3.7133 | 15700 | 1.2947 | - |
|
| 701 |
-
| 3.7252 | 15750 | 1.3524 | - |
|
| 702 |
-
| 3.7370 | 15800 | 1.3092 | - |
|
| 703 |
-
| 3.7488 | 15850 | 1.3635 | - |
|
| 704 |
-
| 3.7606 | 15900 | 1.282 | - |
|
| 705 |
-
| 3.7725 | 15950 | 1.3122 | - |
|
| 706 |
-
| 3.7843 | 16000 | 1.2944 | 3.9723 |
|
| 707 |
-
| 3.7961 | 16050 | 1.3878 | - |
|
| 708 |
-
| 3.8079 | 16100 | 1.2978 | - |
|
| 709 |
-
| 3.8198 | 16150 | 1.3128 | - |
|
| 710 |
-
| 3.8316 | 16200 | 1.317 | - |
|
| 711 |
-
| 3.8434 | 16250 | 1.3225 | - |
|
| 712 |
-
| 3.8553 | 16300 | 1.3339 | - |
|
| 713 |
-
| 3.8671 | 16350 | 1.3137 | - |
|
| 714 |
-
| 3.8789 | 16400 | 1.3128 | - |
|
| 715 |
-
| 3.8907 | 16450 | 1.3262 | - |
|
| 716 |
-
| 3.9026 | 16500 | 1.2235 | - |
|
| 717 |
-
| 3.9144 | 16550 | 1.2619 | - |
|
| 718 |
-
| 3.9262 | 16600 | 1.3289 | - |
|
| 719 |
-
| 3.9380 | 16650 | 1.2437 | - |
|
| 720 |
-
| 3.9499 | 16700 | 1.2886 | - |
|
| 721 |
-
| 3.9617 | 16750 | 1.3309 | - |
|
| 722 |
-
| 3.9735 | 16800 | 1.3457 | - |
|
| 723 |
-
| 3.9853 | 16850 | 1.3184 | - |
|
| 724 |
-
| 3.9972 | 16900 | 1.2087 | - |
|
| 725 |
-
| 4.0090 | 16950 | 1.229 | - |
|
| 726 |
-
| 4.0208 | 17000 | 1.3235 | - |
|
| 727 |
-
| 4.0326 | 17050 | 1.195 | - |
|
| 728 |
-
| 4.0445 | 17100 | 1.2793 | - |
|
| 729 |
-
| 4.0563 | 17150 | 1.2719 | - |
|
| 730 |
-
| 4.0681 | 17200 | 1.2701 | - |
|
| 731 |
-
| 4.0799 | 17250 | 1.2593 | - |
|
| 732 |
-
| 4.0918 | 17300 | 1.2324 | - |
|
| 733 |
-
| 4.1036 | 17350 | 1.2338 | - |
|
| 734 |
-
| 4.1154 | 17400 | 1.2338 | - |
|
| 735 |
-
| 4.1272 | 17450 | 1.2595 | - |
|
| 736 |
-
| 4.1391 | 17500 | 1.2434 | - |
|
| 737 |
-
| 4.1509 | 17550 | 1.268 | - |
|
| 738 |
-
| 4.1627 | 17600 | 1.2345 | - |
|
| 739 |
-
| 4.1746 | 17650 | 1.228 | - |
|
| 740 |
-
| 4.1864 | 17700 | 1.235 | - |
|
| 741 |
-
| 4.1982 | 17750 | 1.2198 | - |
|
| 742 |
-
| 4.2100 | 17800 | 1.263 | - |
|
| 743 |
-
| 4.2219 | 17850 | 1.2288 | - |
|
| 744 |
-
| 4.2337 | 17900 | 1.2251 | - |
|
| 745 |
-
| 4.2455 | 17950 | 1.2796 | - |
|
| 746 |
-
| 4.2573 | 18000 | 1.2934 | - |
|
| 747 |
-
|
| 748 |
-
</details>
|
| 749 |
-
|
| 750 |
-
### Framework Versions
|
| 751 |
-
- Python: 3.11.15
|
| 752 |
-
- Sentence Transformers: 5.3.0
|
| 753 |
-
- Transformers: 4.57.6
|
| 754 |
-
- PyTorch: 2.11.0+cu130
|
| 755 |
-
- Accelerate: 1.13.0
|
| 756 |
-
- Datasets: 3.6.0
|
| 757 |
-
- Tokenizers: 0.22.2
|
| 758 |
-
|
| 759 |
-
## Citation
|
| 760 |
-
|
| 761 |
-
### BibTeX
|
| 762 |
-
|
| 763 |
-
#### Sentence Transformers
|
| 764 |
-
```bibtex
|
| 765 |
-
@inproceedings{reimers-2019-sentence-bert,
|
| 766 |
-
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
| 767 |
-
author = "Reimers, Nils and Gurevych, Iryna",
|
| 768 |
-
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
| 769 |
-
month = "11",
|
| 770 |
-
year = "2019",
|
| 771 |
-
publisher = "Association for Computational Linguistics",
|
| 772 |
-
url = "https://arxiv.org/abs/1908.10084",
|
| 773 |
-
}
|
| 774 |
-
```
|
| 775 |
-
|
| 776 |
-
#### MatryoshkaLoss
|
| 777 |
-
```bibtex
|
| 778 |
-
@misc{kusupati2024matryoshka,
|
| 779 |
-
title={Matryoshka Representation Learning},
|
| 780 |
-
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
|
| 781 |
-
year={2024},
|
| 782 |
-
eprint={2205.13147},
|
| 783 |
-
archivePrefix={arXiv},
|
| 784 |
-
primaryClass={cs.LG}
|
| 785 |
-
}
|
| 786 |
-
```
|
| 787 |
-
|
| 788 |
-
#### MultipleNegativesRankingLoss
|
| 789 |
-
```bibtex
|
| 790 |
-
@misc{oord2019representationlearningcontrastivepredictive,
|
| 791 |
-
title={Representation Learning with Contrastive Predictive Coding},
|
| 792 |
-
author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
|
| 793 |
-
year={2019},
|
| 794 |
-
eprint={1807.03748},
|
| 795 |
-
archivePrefix={arXiv},
|
| 796 |
-
primaryClass={cs.LG},
|
| 797 |
-
url={https://arxiv.org/abs/1807.03748},
|
| 798 |
-
}
|
| 799 |
-
```
|
| 800 |
-
|
| 801 |
-
<!--
|
| 802 |
-
## Glossary
|
| 803 |
-
|
| 804 |
-
*Clearly define terms in order to be accessible across audiences.*
|
| 805 |
-
-->
|
| 806 |
-
|
| 807 |
-
<!--
|
| 808 |
-
## Model Card Authors
|
| 809 |
-
|
| 810 |
-
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
| 811 |
-
-->
|
| 812 |
-
|
| 813 |
-
<!--
|
| 814 |
-
## Model Card Contact
|
| 815 |
-
|
| 816 |
-
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
| 817 |
-
-->
|
|
|
|
| 1 |
+
# bert-tiny-stage2-sbert
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 2 |
|
| 3 |
+
SentenceTransformer checkpoint fine-tuned for Vietnamese legal retrieval.
|
| 4 |
|
| 5 |
+
## Evaluation
|
| 6 |
|
| 7 |
+
- Dataset: `another-symato/VMTEB-Zalo-legel-retrieval-wseg`
|
| 8 |
+
- Split: `train`
|
| 9 |
+
- Truncate dims: `[384, 256, 128, 64]`
|
| 10 |
|
| 11 |
+
| dim | Accuracy@1 | Accuracy@3 | Accuracy@5 | Accuracy@10 | NDCG@3 | NDCG@5 | NDCG@10 | MRR@3 | MRR@5 | MRR@10 | MAP@100 |
|
| 12 |
+
|-------|--------------|--------------|--------------|---------------|----------|----------|-----------|----------|----------|----------|-----------|
|
| 13 |
+
| 384 | 0.203443 | 0.340767 | 0.418232 | 0.524648 | 0.282964 | 0.314989 | 0.349523 | 0.263041 | 0.280882 | 0.295201 | 0.305581 |
|
| 14 |
+
| 256 | 0.193662 | 0.339202 | 0.409233 | 0.511737 | 0.277548 | 0.306474 | 0.339769 | 0.256325 | 0.272424 | 0.286249 | 0.296624 |
|
| 15 |
+
| 128 | 0.175665 | 0.321205 | 0.391236 | 0.482394 | 0.259807 | 0.288579 | 0.318217 | 0.238654 | 0.254577 | 0.266897 | 0.277913 |
|
| 16 |
+
| 64 | 0.14241 | 0.2723 | 0.351721 | 0.442879 | 0.216473 | 0.249186 | 0.278849 | 0.197314 | 0.215467 | 0.227817 | 0.238123 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
retrieval_eval/results.json
ADDED
|
@@ -0,0 +1,95 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"model_path": "outputs/bert-tiny-stage2-sbert",
|
| 3 |
+
"dataset": "another-symato/VMTEB-Zalo-legel-retrieval-wseg",
|
| 4 |
+
"eval_split": "train",
|
| 5 |
+
"results": [
|
| 6 |
+
{
|
| 7 |
+
"truncate_dim": 384,
|
| 8 |
+
"cosine_accuracy@1": 0.20344287949921752,
|
| 9 |
+
"cosine_accuracy@3": 0.34076682316118934,
|
| 10 |
+
"cosine_accuracy@5": 0.4182316118935837,
|
| 11 |
+
"cosine_accuracy@10": 0.5246478873239436,
|
| 12 |
+
"cosine_precision@1": 0.20344287949921752,
|
| 13 |
+
"cosine_precision@3": 0.11358894105373016,
|
| 14 |
+
"cosine_precision@5": 0.08364632237871533,
|
| 15 |
+
"cosine_precision@10": 0.05246478873239306,
|
| 16 |
+
"cosine_recall@1": 0.20344287949921752,
|
| 17 |
+
"cosine_recall@3": 0.34076682316118934,
|
| 18 |
+
"cosine_recall@5": 0.4182316118935837,
|
| 19 |
+
"cosine_recall@10": 0.5246478873239436,
|
| 20 |
+
"cosine_ndcg@3": 0.28296443965459644,
|
| 21 |
+
"cosine_ndcg@5": 0.31498936372857955,
|
| 22 |
+
"cosine_ndcg@10": 0.34952346401058043,
|
| 23 |
+
"cosine_mrr@3": 0.263041210224309,
|
| 24 |
+
"cosine_mrr@5": 0.2808815858111636,
|
| 25 |
+
"cosine_mrr@10": 0.2952013003949625,
|
| 26 |
+
"cosine_map@100": 0.30558138488387787
|
| 27 |
+
},
|
| 28 |
+
{
|
| 29 |
+
"truncate_dim": 256,
|
| 30 |
+
"cosine_accuracy@1": 0.1936619718309859,
|
| 31 |
+
"cosine_accuracy@3": 0.3392018779342723,
|
| 32 |
+
"cosine_accuracy@5": 0.40923317683881066,
|
| 33 |
+
"cosine_accuracy@10": 0.5117370892018779,
|
| 34 |
+
"cosine_precision@1": 0.1936619718309859,
|
| 35 |
+
"cosine_precision@3": 0.11306729264475783,
|
| 36 |
+
"cosine_precision@5": 0.08184663536776082,
|
| 37 |
+
"cosine_precision@10": 0.051173708920186564,
|
| 38 |
+
"cosine_recall@1": 0.1936619718309859,
|
| 39 |
+
"cosine_recall@3": 0.3392018779342723,
|
| 40 |
+
"cosine_recall@5": 0.40923317683881066,
|
| 41 |
+
"cosine_recall@10": 0.5117370892018779,
|
| 42 |
+
"cosine_ndcg@3": 0.27754763557316336,
|
| 43 |
+
"cosine_ndcg@5": 0.3064740024881631,
|
| 44 |
+
"cosine_ndcg@10": 0.3397688675668828,
|
| 45 |
+
"cosine_mrr@3": 0.25632498695878986,
|
| 46 |
+
"cosine_mrr@5": 0.2724243609806993,
|
| 47 |
+
"cosine_mrr@10": 0.2862491305859853,
|
| 48 |
+
"cosine_map@100": 0.2966242956740067
|
| 49 |
+
},
|
| 50 |
+
{
|
| 51 |
+
"truncate_dim": 128,
|
| 52 |
+
"cosine_accuracy@1": 0.17566510172143976,
|
| 53 |
+
"cosine_accuracy@3": 0.3212050078247261,
|
| 54 |
+
"cosine_accuracy@5": 0.39123630672926446,
|
| 55 |
+
"cosine_accuracy@10": 0.4823943661971831,
|
| 56 |
+
"cosine_precision@1": 0.17566510172143976,
|
| 57 |
+
"cosine_precision@3": 0.10706833594157612,
|
| 58 |
+
"cosine_precision@5": 0.07824726134585179,
|
| 59 |
+
"cosine_precision@10": 0.04823943661971724,
|
| 60 |
+
"cosine_recall@1": 0.17566510172143976,
|
| 61 |
+
"cosine_recall@3": 0.3212050078247261,
|
| 62 |
+
"cosine_recall@5": 0.39123630672926446,
|
| 63 |
+
"cosine_recall@10": 0.4823943661971831,
|
| 64 |
+
"cosine_ndcg@3": 0.25980688782975864,
|
| 65 |
+
"cosine_ndcg@5": 0.2885789457629316,
|
| 66 |
+
"cosine_ndcg@10": 0.3182168056871434,
|
| 67 |
+
"cosine_mrr@3": 0.2386541471048512,
|
| 68 |
+
"cosine_mrr@5": 0.2545774647887326,
|
| 69 |
+
"cosine_mrr@10": 0.2668972166331323,
|
| 70 |
+
"cosine_map@100": 0.2779128681223102
|
| 71 |
+
},
|
| 72 |
+
{
|
| 73 |
+
"truncate_dim": 64,
|
| 74 |
+
"cosine_accuracy@1": 0.14241001564945227,
|
| 75 |
+
"cosine_accuracy@3": 0.27230046948356806,
|
| 76 |
+
"cosine_accuracy@5": 0.3517214397496088,
|
| 77 |
+
"cosine_accuracy@10": 0.4428794992175274,
|
| 78 |
+
"cosine_precision@1": 0.14241001564945227,
|
| 79 |
+
"cosine_precision@3": 0.09076682316119022,
|
| 80 |
+
"cosine_precision@5": 0.0703442879499211,
|
| 81 |
+
"cosine_precision@10": 0.0442879499217519,
|
| 82 |
+
"cosine_recall@1": 0.14241001564945227,
|
| 83 |
+
"cosine_recall@3": 0.27230046948356806,
|
| 84 |
+
"cosine_recall@5": 0.3517214397496088,
|
| 85 |
+
"cosine_recall@10": 0.4428794992175274,
|
| 86 |
+
"cosine_ndcg@3": 0.21647319880114255,
|
| 87 |
+
"cosine_ndcg@5": 0.2491862954231763,
|
| 88 |
+
"cosine_ndcg@10": 0.27884940087516746,
|
| 89 |
+
"cosine_mrr@3": 0.19731351069379194,
|
| 90 |
+
"cosine_mrr@5": 0.21546687532602982,
|
| 91 |
+
"cosine_mrr@10": 0.22781736716595852,
|
| 92 |
+
"cosine_map@100": 0.23812275569660138
|
| 93 |
+
}
|
| 94 |
+
]
|
| 95 |
+
}
|
retrieval_eval/results.md
ADDED
|
@@ -0,0 +1,6 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
| dim | Accuracy@1 | Accuracy@3 | Accuracy@5 | Accuracy@10 | NDCG@3 | NDCG@5 | NDCG@10 | MRR@3 | MRR@5 | MRR@10 | MAP@100 |
|
| 2 |
+
|-------|--------------|--------------|--------------|---------------|----------|----------|-----------|----------|----------|----------|-----------|
|
| 3 |
+
| 384 | 0.203443 | 0.340767 | 0.418232 | 0.524648 | 0.282964 | 0.314989 | 0.349523 | 0.263041 | 0.280882 | 0.295201 | 0.305581 |
|
| 4 |
+
| 256 | 0.193662 | 0.339202 | 0.409233 | 0.511737 | 0.277548 | 0.306474 | 0.339769 | 0.256325 | 0.272424 | 0.286249 | 0.296624 |
|
| 5 |
+
| 128 | 0.175665 | 0.321205 | 0.391236 | 0.482394 | 0.259807 | 0.288579 | 0.318217 | 0.238654 | 0.254577 | 0.266897 | 0.277913 |
|
| 6 |
+
| 64 | 0.14241 | 0.2723 | 0.351721 | 0.442879 | 0.216473 | 0.249186 | 0.278849 | 0.197314 | 0.215467 | 0.227817 | 0.238123 |
|