thang1943 commited on
Commit
8e34d00
·
verified ·
1 Parent(s): c96b7d7

vietnamese-sbert-v2

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,754 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:54755
8
+ - loss:MultipleNegativesRankingLoss
9
+ base_model: keepitreal/vietnamese-sbert
10
+ widget:
11
+ - source_sentence: Chào em, Thông thương đối với gãy xương cẳng chân phức tạp cần
12
+ cố định ngoài thì ổ gãy sẽ liền xương sau từ 2,5 - 4 tháng. Việc tập vật lý trị
13
+ liệu sớm và dinh dưỡng tốt sẽ rút ngắn thời gian phục hồi chức năng. Để xác định
14
+ thời gian tháo khung cố định thì em cần phải tái khám bác sĩ chấn thương chỉnh
15
+ hình định kỳ theo lịch hẹn hàng tháng để bác sĩ đánh giá lại xem xương đã lành
16
+ hẳn chưa. Quá trình phục hồi chức năng trong các trường hợp gãy xương cẳng thân
17
+ phức tạp thường kéo dài ít nhất 3-6 tháng, em nhé!
18
+ sentences:
19
+ - "Bác sĩ ơi,\r\n\r\nTôi khá gầy, không khi nào tôi cảm thấy thèm ăn, lúc đói ăn\
20
+ \ rất ít. Xin hỏi BS có cách nào giúp tôi ăn nhiều không? Hiện giờ tôi đang uống\
21
+ \ sữa tăng cân, uống thuốc bổ mà không thay đổi gì mấy. Nhờ BS tư vấn giúp tôi\
22
+ \ làm cách nào để ăn ngon miệng ạ? Cảm ơn AloBacsi rất nhiều! (Thanh Vy - TPHCM)"
23
+ - Chế độ sinh hoạt & phòng ngừa bạch biến
24
+ - Chào bác sĩ. Em bị gãy xương cẳng chân lắp cố định ngoài được 1 tháng, bác sĩ
25
+ cho em về nhà tập vật lý trị liệu, cho em hỏi bao lâu thì mới được tháo khung
26
+ cố định vậy ạ?
27
+ - source_sentence: ' Chào em, Sau này khi lo lắng hay nghi ngờ mình bị thì em tuyệt
28
+ đối không được đi hiến máu, vì việc làm này có thể gây hại cho người khác. Bởi
29
+ vì mặc dù trong quy trình hiến máu, bịch máu của em vẫn được kiểm tra xem có nhiễm
30
+ HIV hay không nhưng 1 số trường hợp đặc biệt nhiễm HIV trong giai đoạn quá sớm,
31
+ nồng độ virus quá thấp thì xét nghiệm vẫn có thể không phát hiện ra, hại cho em
32
+ và hại cho cả người được truyền máu. Trong tình huống này, nguy cơ nhiễm HIV của
33
+ em rất thấp. Tuy nhiên, để biết chính xác có nhiễm HIV hay không, chỉ có 1 cách
34
+ duy nhất là xét nghiệm máu. Nếu làm xét nghiệm tìm kháng thể kháng HIV thì kết
35
+ quả chính xác nhất là từ 3-6 tháng sau khi có hành vi nguy cơ, còn xét nghiệm
36
+ PCR HIV thì khả năng phát hiện sớm cao hơn. Bởi vì mới nhiễm HIV thì thường không
37
+ có triệu chứng gì cả, hoặc có thể có triệu chứng như cảm mạo thông thường, rất
38
+ đa dạng, không đặc trưng. Thân mến! '
39
+ sentences:
40
+ - "Xin chào BS,\r\n\r\nCháu đang hoang mang về chuyện HIV. Cách đây 3 tháng,\
41
+ \ cháu say rượu, cạnh nhà cháu có người nhiễm HIV đánh nhau bị chảy\
42
+ \ máu đầu, cháu ra can. Cháu không động vào vết thương của người ta nhưng\
43
+ \ vẫn hoang mang ạ. Sức khoẻ của cháu thì hay nhức xương và mỏi cổ.\
44
+ \ Cháu ăn cơm 1 bữa 3 bát và cháu vẫn đi hiến máu, giấy gửi về là sức\
45
+ \ khỏe bình thường nhưng cháu vẫn lo lắm ạ. \r\n\r\n(Nguyễn K.T. - Hoài\
46
+ \ Đức, Hà Nội)"
47
+ - (AloBacsi) - Em thỉnh thoảng có quan hệ qua đường hậu môn. Gần đây em thấy hay
48
+ bị ngứa hậu môn và phát hiện nổi mụn thịt.
49
+ - "Xin chào BS,\r\n\r\nEm là dân văn phòng. Dạo này thời tiết thay đổi thất thường,\
50
+ \ chị đồng nghiệp làm cùng phòng bị cảm nặng. Em phảo làm gì để bạo về sức khỏe\
51
+ \ của mình?"
52
+ - source_sentence: Chào em, Miếng dán hạ sốt là miếng dán có tác dụng tản nhiệt. Thành
53
+ phần chủ yếu của nó là hydrogel - các polymer dạng chuỗi, không tan trong nước
54
+ nhưng có khả năng hút một lượng nước lớn ở vùng da được dán lên. Miếng dán hạ
55
+ sốt hoạt động theo cơ chế hấp thụ nhiệt và phân tán nhiệt ở vùng da được dán lên
56
+ ra bên ngoài. Do đó, khi mới dán lên sẽ có cảm giác mát lạnh, giúp bé cảm thấy
57
+ dễ chịu hơn. Tuy nhiên thực sự thì miếng dán hạ sốt có tác dụng trong bao lâu?
58
+ Nếu chú ý quan sát kỹ, phụ huynh sẽ thấy khả năng làm mát của miếng dán không
59
+ duy trì được lâu. Vùng da được dán miếng dán sẽ nhanh chóng trở lại nhiệt độ ban
60
+ đầu. Đặc biệt, do không chứa thuốc hạ sốt nên miếng dán loại này không có tác
61
+ dụng hạ nhiệt cho toàn bộ cơ thể. Một số loại miếng dán hạ sốt có thêm tinh dầu,
62
+ khi bốc hơi sẽ giúp hạ nhiệt và chỉ dùng ngoài da nên khả năng hạ sốt cũng rất
63
+ hạn chế. Thực tế, hiện nay chưa có công trình nghiên cứu khoa học có giá trị nào
64
+ chứng minh được miếng dán hạ sốt có thể thay thế được thuốc trong điều trị sốt
65
+ cho trẻ em. Vì vậy, phụ huynh không nên chỉ dùng miếng dán thay thế cho thuốc
66
+ hạ sốt khi trẻ bị sốt. bé bị sốt từ 38,5 độ C trở lên thì cần uống thuốc hạ sốt,
67
+ em nhé. Miếng dán hạ sốt chưa được chứng minh có thể thay thế thuốc điều trị Thuốc
68
+ hạ sốt an toàn cho bé là paracetamol, liều thông thường ở một em bé trong một
69
+ lần uống là 10-15mg/1 ký. Ví dụ bé 2 tuổi, 12 ký thì nếu 10mg/ký sẽ là 120mg;
70
+ còn 15 ký thì nhân 12 là 180mg. Như vậy mình sẽ lấy gói paracetamol 150mg là vừa.
71
+ Mỗi lần uống cách nhau 4-6 tiếng nếu trẻ còn sốt cao. Hiện nay trên thị trường
72
+ có gói hạ sốt định liều sẵn là Hapacol với các hàm lượng 80, 150, 250 mg, bạn
73
+ có thể mua để sẵn trong nhà. Nên uống đúng liều của 1 gói theo lứa tuổi, cân nặng
74
+ thì hiệu quả thuốc sẽ tốt hơn. Lý tưởng nhất là mỗi khi bé sốt thì em nên cho
75
+ bé đi khám bác sĩ, xem sốt do đâu và hướng dẫn xử trí thích hợp. trong quá trình
76
+ sốt cần theo dõi xem trẻ có dấu hiệu bệnh trở nặng không thì cần nhanh chóng đưa
77
+ đi bệnh viện ngay. trẻ có biểu hiện như chảy máu cam, chảy máu răng, ói ra máu,
78
+ đi cầu ban đêm, tay chân nặng,…là đây là dấu hiệu cảnh báo nặng cần đưa đến bác
79
+ sĩ ngay lập tức. Phụ huynh theo dõi diến tiến sốt nếu chỉ sốt đơn thuần, uống
80
+ thuốc hạ sốt rồi bớt sốt, bé chơi, ăn uống được thì có thể giữ ở nhà tối đa 2
81
+ ngày, nhưng nếu qua 3 ngày thì phải đưa đi bệnh viện để các bác sĩ thăm khám và
82
+ làm thêm xét nghiệm chẩn đoán nguyên nhân tại sao bé sốt và điều trị thích hợp.
83
+ sentences:
84
+ - Chào AloBacsi,Tối qua em súc miệng nhưng lấy nhầm chai dung dịch diệt khuẩn đa
85
+ năng Dettol. Em bị bong tróc niêm mạc miệng và lưỡi, tới tối nay em vẫn bị mất
86
+ vị giác. Nhờ BS hướng dẫn em có cách nào chữa trị ở nhà được không? Giờ khó đi
87
+ BV quá ạ. Cảm ơn BS rất nhiều!(Bạn đọc Hotline 0898308983)
88
+ - Nguy cơ hẹp van hai lá
89
+ - Cháu nghe các mẹ hay nói không nên dùng miếng dán hạ sốt cho con. Vậy nếu dùng
90
+ thuốc thì liều lượng như thế nào ạ? Có tự cho con uống được không hay phải có
91
+ chỉ dẫn bác sĩ? Nhờ chuyên gia giải đáp giúp cháu ạ.(Trần Hoàng An Nhiên)
92
+ - source_sentence: 'Mô tả ngắn:
93
+
94
+ Thuốc tiêm Venocity là sản phẩm của Venus Remedies., Ltd có thành phần chính là
95
+ Citicoline. Đây là thuốc chỉ định dùng điều trị bệnh rối loạn nhận thức do mạch
96
+ máu não tổn thương hoặc sau chấn thương, hậu phẫu não và giai đoạn cấp của nhồi
97
+ máu cơ tim.
98
+
99
+ Thành phần:
100
+
101
+ Citicoline: 1000mg
102
+
103
+ Chỉ định:
104
+
105
+ Thuốc tiêm Venocity chỉ định dùng điều trị bệnh rối loạn nhận thức do mạch máu
106
+ não tổn thương hoặc sau chấn thương, hậu phẫu não và giai đoạn cấp của nhồi máu
107
+ cơ tim.'
108
+ sentences:
109
+ - Thuốc tiêm Venocity Venus điều trị chứng rối loạn nhận thức (5 ống)
110
+ - "Chào BS,\r\n\r\nTôi năm nay 40 tuổi, ở Biên Hòa. Tôi đi khám ở BV quốc tế Đồng\
111
+ \ Nai thì được chẩn đoán thiếu máu cơ tim và hở van tim nhẹ. BS có cho tôi thuốc\
112
+ \ Vastarel 35mg; Nebibio 5mg (nebivolo); Aspilet ec tab 80mg (acetysalicylic acid).\
113
+ \ Tôi uống được 3 ngày vẫn cứ thấy đau tức ngực nhiều hơn. Xin BS cho ý kiến."
114
+ - Con bị sốt thì việc chăm sóc, nhất là tắm cho bé cần chú ý gì bác sĩ? Nên ăn uống
115
+ hay bổ sung chất gì không thưa bác sĩ? Chân thành cảm ơn bác sĩ đã tư vấn.(Dương
116
+ Triều Khánh)
117
+ - source_sentence: "Tôi không biết nên dùng loại nào để sát trùng khi bị các vết trầy\
118
+ \ xước, hay vết thương hở… là tốt nhất? Vì tôi nghe nói Povidine, oxy già, cồn\
119
+ \ làm cho vết thương chậm lành. Rất mong được DS hướng dẫn cách dùng đúng. Cảm\
120
+ \ ơn DS rất nhiều! ( FB Huỳnh Văn H. - huynhv****@gmail.co) Chào bạn, Các loại\
121
+ \ thuốc sát trùng oxy già, cồn 70 độ nếu sử dụng nhiều lần \r\ntrên vùng da tổn\
122
+ \ thương rộng hoặc bỏng sẽ gây nhi���u tác dụng không mong \r\nmuốn và có thể làm\
123
+ \ cấu trúc da biến dạng. Do đó, chỉ nên dùng ngắn hạn. Còn cồn 90 độ thì không\
124
+ \ dùng để sát trùng mà phải pha ra thành cồn 70 độ mới dùng để sát trùng được.\
125
+ \ Nước muối sinh lý vô trùng có thể sử dụng thường xuyên để làm sạch vết thương,\
126
+ \ tuy nhiên không có tính sát khuẩn. Với\r\n những vết trầy xước thông thường,\
127
+ \ có thể sát trùng bằng oxy già vài \r\nlần, hoặc cồn 70 độ vài lần. Povidine\
128
+ \ có thể dùng từ đầu đến khi vết \r\nthương lành. Riêng với vết thương dơ (có\
129
+ \ dính bụi bẩn, sần sùi…) \r\nthì có thể dùng oxy già nhiều lần hơn để giúp loại\
130
+ \ bỏ bụi bẩn. Oxy già \r\nkhông nên dùng trên vết thương đang lành. Đối với vết\
131
+ \ thương lớn, bạn nên đến BV để BS chăm sóc vết thương cho bạn. Thân mến."
132
+ sentences:
133
+ - "Dạ, nếu bị phỏng rạ thì có nên chọc mụn ra không? Nếu không thì hãy cho biết\
134
+ \ lí do. Cảm ơn BS.\r\n\r\n(Đinh Thị Hà - Thái Bình)"
135
+ - 'Tôi muốn hỏi về các loại thuốc sát trùng, tôi thấy phổ biến có: Povidine, oxy
136
+ già, cồn 70 độ, cồn 90 độ, nước muối sinh lý.'
137
+ - "Thưa bác sĩ,\r\n\r\nTrước đây cháu đã từng quan hệ với bạn trai cháu\
138
+ \ đã dùng thuốc tránh thai khẩn cấp 4 viên/ tháng. Sau đó vẫn quan hệ nhưng\
139
+ \ không có thai. Mấy tháng sau chúng cháu tiếp tục quan hệ thì có thai,\
140
+ \ cháu đã đi phá. \r\n\r\nCháu muốn hỏi BS liệu sau này cháu có thể\
141
+ \ mang thai được không? Đó là nỗi đau khổ của cháu. Mong BS giúp đỡ."
142
+ datasets:
143
+ - meandyou200175/dataset_full_fixed
144
+ pipeline_tag: sentence-similarity
145
+ library_name: sentence-transformers
146
+ metrics:
147
+ - cosine_accuracy@1
148
+ - cosine_accuracy@3
149
+ - cosine_accuracy@5
150
+ - cosine_accuracy@10
151
+ - cosine_precision@1
152
+ - cosine_precision@3
153
+ - cosine_precision@5
154
+ - cosine_precision@10
155
+ - cosine_recall@1
156
+ - cosine_recall@3
157
+ - cosine_recall@5
158
+ - cosine_recall@10
159
+ - cosine_ndcg@10
160
+ - cosine_mrr@10
161
+ - cosine_map@100
162
+ model-index:
163
+ - name: SentenceTransformer based on keepitreal/vietnamese-sbert
164
+ results:
165
+ - task:
166
+ type: information-retrieval
167
+ name: Information Retrieval
168
+ dataset:
169
+ name: dim 768
170
+ type: dim_768
171
+ metrics:
172
+ - type: cosine_accuracy@1
173
+ value: 0.5628195763330899
174
+ name: Cosine Accuracy@1
175
+ - type: cosine_accuracy@3
176
+ value: 0.6952154857560263
177
+ name: Cosine Accuracy@3
178
+ - type: cosine_accuracy@5
179
+ value: 0.7419649379108838
180
+ name: Cosine Accuracy@5
181
+ - type: cosine_accuracy@10
182
+ value: 0.8046018991964938
183
+ name: Cosine Accuracy@10
184
+ - type: cosine_precision@1
185
+ value: 0.5628195763330899
186
+ name: Cosine Precision@1
187
+ - type: cosine_precision@3
188
+ value: 0.23173849525200876
189
+ name: Cosine Precision@3
190
+ - type: cosine_precision@5
191
+ value: 0.14839298758217676
192
+ name: Cosine Precision@5
193
+ - type: cosine_precision@10
194
+ value: 0.08046018991964936
195
+ name: Cosine Precision@10
196
+ - type: cosine_recall@1
197
+ value: 0.5628195763330899
198
+ name: Cosine Recall@1
199
+ - type: cosine_recall@3
200
+ value: 0.6952154857560263
201
+ name: Cosine Recall@3
202
+ - type: cosine_recall@5
203
+ value: 0.7419649379108838
204
+ name: Cosine Recall@5
205
+ - type: cosine_recall@10
206
+ value: 0.8046018991964938
207
+ name: Cosine Recall@10
208
+ - type: cosine_ndcg@10
209
+ value: 0.6803010900109947
210
+ name: Cosine Ndcg@10
211
+ - type: cosine_mrr@10
212
+ value: 0.6409411341843781
213
+ name: Cosine Mrr@10
214
+ - type: cosine_map@100
215
+ value: 0.646841941818213
216
+ name: Cosine Map@100
217
+ ---
218
+
219
+ # SentenceTransformer based on keepitreal/vietnamese-sbert
220
+
221
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [keepitreal/vietnamese-sbert](https://huggingface.co/keepitreal/vietnamese-sbert) on the [dataset_full_fixed](https://huggingface.co/datasets/meandyou200175/dataset_full_fixed) dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
222
+
223
+ ## Model Details
224
+
225
+ ### Model Description
226
+ - **Model Type:** Sentence Transformer
227
+ - **Base model:** [keepitreal/vietnamese-sbert](https://huggingface.co/keepitreal/vietnamese-sbert) <!-- at revision a9467ef2ef47caa6448edeabfd8e5e5ce0fa2a23 -->
228
+ - **Maximum Sequence Length:** 256 tokens
229
+ - **Output Dimensionality:** 768 dimensions
230
+ - **Similarity Function:** Cosine Similarity
231
+ - **Training Dataset:**
232
+ - [dataset_full_fixed](https://huggingface.co/datasets/meandyou200175/dataset_full_fixed)
233
+ <!-- - **Language:** Unknown -->
234
+ <!-- - **License:** Unknown -->
235
+
236
+ ### Model Sources
237
+
238
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
239
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
240
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
241
+
242
+ ### Full Model Architecture
243
+
244
+ ```
245
+ SentenceTransformer(
246
+ (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel
247
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
248
+ )
249
+ ```
250
+
251
+ ## Usage
252
+
253
+ ### Direct Usage (Sentence Transformers)
254
+
255
+ First install the Sentence Transformers library:
256
+
257
+ ```bash
258
+ pip install -U sentence-transformers
259
+ ```
260
+
261
+ Then you can load this model and run inference.
262
+ ```python
263
+ from sentence_transformers import SentenceTransformer
264
+
265
+ # Download from the 🤗 Hub
266
+ model = SentenceTransformer("vietnamese-sbert-v2")
267
+ # Run inference
268
+ sentences = [
269
+ 'Tôi không biết nên dùng loại nào để sát trùng khi bị các vết trầy xước, hay vết thương hở… là tốt nhất? Vì tôi nghe nói Povidine, oxy già, cồn làm cho vết thương chậm lành. Rất mong được DS hướng dẫn cách dùng đúng. Cảm ơn DS rất nhiều! ( FB Huỳnh Văn H. - huynhv****@gmail.co) Chào bạn, Các loại thuốc sát trùng oxy già, cồn 70 độ nếu sử dụng nhiều lần \r\ntrên vùng da tổn thương rộng hoặc bỏng sẽ gây nhiều tác dụng không mong \r\nmuốn và có thể làm cấu trúc da biến dạng. Do đó, chỉ nên dùng ngắn hạn. Còn cồn 90 độ thì không dùng để sát trùng mà phải pha ra thành cồn 70 độ mới dùng để sát trùng được. Nước muối sinh lý vô trùng có thể sử dụng thường xuyên để làm sạch vết thương, tuy nhiên không có tính sát khuẩn. Với\r\n những vết trầy xước thông thường, có thể sát trùng bằng oxy già vài \r\nlần, hoặc cồn 70 độ vài lần. Povidine có thể dùng từ đầu đến khi vết \r\nthương lành. Riêng với vết thương dơ (có dính bụi bẩn, sần sùi…) \r\nthì có thể dùng oxy già nhiều lần hơn để giúp loại bỏ bụi bẩn. Oxy già \r\nkhông nên dùng trên vết thương đang lành. Đối với vết thương lớn, bạn nên đến BV để BS chăm sóc vết thương cho bạn. Thân mến.',
270
+ 'Tôi muốn hỏi về các loại thuốc sát trùng, tôi thấy phổ biến có: Povidine, oxy già, cồn 70 độ, cồn 90 độ, nước muối sinh lý.',
271
+ 'Thưa bác sĩ,\r\n\r\nTrước đây cháu đã từng quan hệ với bạn trai cháu đã dùng thuốc tránh thai khẩn cấp 4 viên/ tháng. Sau đó vẫn quan hệ nhưng không có thai. Mấy tháng sau chúng cháu tiếp tục quan hệ thì có thai, cháu đã đi phá. \r\n\r\nCháu muốn hỏi BS liệu sau này cháu có thể mang thai được không? Đó là nỗi đau khổ của cháu. Mong BS giúp đỡ.',
272
+ ]
273
+ embeddings = model.encode(sentences)
274
+ print(embeddings.shape)
275
+ # [3, 768]
276
+
277
+ # Get the similarity scores for the embeddings
278
+ similarities = model.similarity(embeddings, embeddings)
279
+ print(similarities.shape)
280
+ # [3, 3]
281
+ ```
282
+
283
+ <!--
284
+ ### Direct Usage (Transformers)
285
+
286
+ <details><summary>Click to see the direct usage in Transformers</summary>
287
+
288
+ </details>
289
+ -->
290
+
291
+ <!--
292
+ ### Downstream Usage (Sentence Transformers)
293
+
294
+ You can finetune this model on your own dataset.
295
+
296
+ <details><summary>Click to expand</summary>
297
+
298
+ </details>
299
+ -->
300
+
301
+ <!--
302
+ ### Out-of-Scope Use
303
+
304
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
305
+ -->
306
+
307
+ ## Evaluation
308
+
309
+ ### Metrics
310
+
311
+ #### Information Retrieval
312
+
313
+ * Dataset: `dim_768`
314
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
315
+
316
+ | Metric | Value |
317
+ |:--------------------|:-----------|
318
+ | cosine_accuracy@1 | 0.5628 |
319
+ | cosine_accuracy@3 | 0.6952 |
320
+ | cosine_accuracy@5 | 0.742 |
321
+ | cosine_accuracy@10 | 0.8046 |
322
+ | cosine_precision@1 | 0.5628 |
323
+ | cosine_precision@3 | 0.2317 |
324
+ | cosine_precision@5 | 0.1484 |
325
+ | cosine_precision@10 | 0.0805 |
326
+ | cosine_recall@1 | 0.5628 |
327
+ | cosine_recall@3 | 0.6952 |
328
+ | cosine_recall@5 | 0.742 |
329
+ | cosine_recall@10 | 0.8046 |
330
+ | **cosine_ndcg@10** | **0.6803** |
331
+ | cosine_mrr@10 | 0.6409 |
332
+ | cosine_map@100 | 0.6468 |
333
+
334
+ <!--
335
+ ## Bias, Risks and Limitations
336
+
337
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
338
+ -->
339
+
340
+ <!--
341
+ ### Recommendations
342
+
343
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
344
+ -->
345
+
346
+ ## Training Details
347
+
348
+ ### Training Dataset
349
+
350
+ #### dataset_full_fixed
351
+
352
+ * Dataset: [dataset_full_fixed](https://huggingface.co/datasets/meandyou200175/dataset_full_fixed) at [ef2e7fd](https://huggingface.co/datasets/meandyou200175/dataset_full_fixed/tree/ef2e7fdbdee6d6837e54a8c95505bfce48eb03a5)
353
+ * Size: 54,755 training samples
354
+ * Columns: <code>positive</code> and <code>query</code>
355
+ * Approximate statistics based on the first 1000 samples:
356
+ | | positive | query |
357
+ |:--------|:-------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
358
+ | type | string | string |
359
+ | details | <ul><li>min: 31 tokens</li><li>mean: 186.22 tokens</li><li>max: 256 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 77.6 tokens</li><li>max: 256 tokens</li></ul> |
360
+ * Samples:
361
+ | positive | query |
362
+ |:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
363
+ | <code>Chào em, Mụn thường có hiện tượng viêm và tổn thương da do nặn, cào, cố tình lấy nhân mụn ra khỏi bề mặt da - đây là thói quen của nhiều người, nhưng hành động này vô tình làm tăng sắc tố sau viêm ( vết thâm mụn ). Tình trạng này thường biến mất theo thời gian, khoảng từ 4-6 tháng. Việc sử dụng thuốc thoa mụn là cần thiết. Thuốc DIBETALIC có tác dụng bong sừng, có thể sử dụng để giảm thâm, tuy nhiên có thành phần Betamethason là một corticoid - thành phần này không có chỉ định trong giảm thâm mà điều trị trong ức chế miễn dịch, làm giảm tình trạng viêm da, nếu sử dụng lâu ngày trên mặt có thể gây viêm da lệ thuộc corticoid hoặc teo da. Nếu em sử dụng thuốc nhưng đi nắng có thể gây tăng sắc tố do giảm hệ thống miễn dịch của da. Do đó em nên ngưng thuốc DIBETALIC mà nên đến bệnh viện có chuyên khoa Da liễu khám để bác sĩ cho thuốc thoa mụn, vừa giảm thâm và giảm mụn hiệu quả. Thân mến.</code> | <code>Năm nay em 15 tuổi, mặt em bị mụn, vài ngày sau mụn tự bong ra nhưng để lại vết thâm trên mặt. Bây giờ em dùng sản phẩm DIBETALIC, vậy thuốc này có trị thâm hoặc trị mụn không ạ? Sản phẩm này là bác sĩ ở Bệnh viện Quận 3 chỉ cho em, nhưng em hơi lo nên muốn hỏi ý kiến của bác sĩ.</code> |
364
+ | <code>Chào bạn, Theo như tình trạng bạn đang gặp phải, cảm giác ngứa tăng dần kèm xuất hiện thâm da vùng nách đó là triệu chứng của viêm da kích ứng khu trú. Viêm da kích ứng hay gặp ở các vùng kín của cơ thể như vùng nách, sinh dục, bẹn, khe mông… Nếu càng gãi làm tăng tác động lên vùng da nhạy cảm này sẽ kích thích phản ứng viêm nhiều hơn, để lại sẹo thâm rất mất thẩm mỹ. Bạn hãy đến bệnh viện da liễu để được thăm khám và điều trị. Nói chung tình trạng thâm da tuy đã xuất hiện nhưng có thể điều trị thẩm mỹ được, bạn cũng đừng quá lo lắng nhé. Hiện nay thời tiết nóng bạn hãy mặc quần áo thoáng mát tránh mồ hôi và giữ khô thoáng những vùng kín, những vùng da nhạy cảm này… để hỗ trợ cho quá trình điều trị nhé bạn. Thân ái chào bạn.</code> | <code>Mấy năm gần đây tự nhiên vùng nách của em rất ngứa ạ, càng gãi càng ngứa đến mức giờ nách thâm luôn rồi ạ, vậy là em bị sao và có cách nào xử lý không, thưa bác sĩ? Em cảm ơn.</code> |
365
+ | <code>Nguy cơ hẹp lỗ liên hợp đốt sống cổ Những ai có nguy cơ mắc phải Hẹp lỗ liên hợp đốt sống cổ? Ai cũng có thể phát triển tình trạng hẹp lỗ liên hợp đốt sống cổ. Trong đó, theo một số nghiên cứu dịch tễ học có thể thấy, hẹp lỗ liên hợp đốt sống cổ liên quan nhiều đến tình trạng thoái hoá cột sống, và tỷ lệ bệnh cao nhất ở nhóm đối tượng lớn tuổi. Yếu tố làm tăng nguy cơ mắc phải Hẹp lỗ liên hợp đốt sống cổ Một số yếu tố nguy cơ đã được xác định liên quan đến tình trạng hẹp lỗ liên hợp đốt sống cổ. Tuổi tác là một yếu tố quan trọng, vì những thay đổi thoái hoá ở cột sống có nhiều khả năng xảy ra hơn khi chúng ta lớn tuổi. Ngoài ra, cấu trúc giải phẫu cột sống cũng có ảnh hưởng nhất định. Các đối tượng tham gia hoạt động hoặc công việc gây căng thẳng quá mức cho cột sống cổ cũng dễ phát triển hẹp lỗ liên hợp đốt sống cổ hơn. Các yếu tố khác như béo phì hoặc tư chế xấu cũng có thể góp phần. Tuổi tác là một yếu tố quan trọng vì các thay đổi do thoái hoá sẽ tăng lên khi chúng ta lớn tuổi</code> | <code>Nguy cơ hẹp lỗ liên hợp đốt sống cổ</code> |
366
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
367
+ ```json
368
+ {
369
+ "scale": 20.0,
370
+ "similarity_fct": "cos_sim"
371
+ }
372
+ ```
373
+
374
+ ### Training Hyperparameters
375
+ #### Non-Default Hyperparameters
376
+
377
+ - `eval_strategy`: epoch
378
+ - `per_device_train_batch_size`: 100
379
+ - `per_device_eval_batch_size`: 1
380
+ - `learning_rate`: 1e-06
381
+ - `num_train_epochs`: 4
382
+ - `lr_scheduler_type`: constant_with_warmup
383
+ - `warmup_ratio`: 0.1
384
+ - `bf16`: True
385
+ - `tf32`: False
386
+ - `load_best_model_at_end`: True
387
+ - `optim`: adamw_torch_fused
388
+ - `batch_sampler`: no_duplicates
389
+
390
+ #### All Hyperparameters
391
+ <details><summary>Click to expand</summary>
392
+
393
+ - `overwrite_output_dir`: False
394
+ - `do_predict`: False
395
+ - `eval_strategy`: epoch
396
+ - `prediction_loss_only`: True
397
+ - `per_device_train_batch_size`: 100
398
+ - `per_device_eval_batch_size`: 1
399
+ - `per_gpu_train_batch_size`: None
400
+ - `per_gpu_eval_batch_size`: None
401
+ - `gradient_accumulation_steps`: 1
402
+ - `eval_accumulation_steps`: None
403
+ - `torch_empty_cache_steps`: None
404
+ - `learning_rate`: 1e-06
405
+ - `weight_decay`: 0.0
406
+ - `adam_beta1`: 0.9
407
+ - `adam_beta2`: 0.999
408
+ - `adam_epsilon`: 1e-08
409
+ - `max_grad_norm`: 1.0
410
+ - `num_train_epochs`: 4
411
+ - `max_steps`: -1
412
+ - `lr_scheduler_type`: constant_with_warmup
413
+ - `lr_scheduler_kwargs`: {}
414
+ - `warmup_ratio`: 0.1
415
+ - `warmup_steps`: 0
416
+ - `log_level`: passive
417
+ - `log_level_replica`: warning
418
+ - `log_on_each_node`: True
419
+ - `logging_nan_inf_filter`: True
420
+ - `save_safetensors`: True
421
+ - `save_on_each_node`: False
422
+ - `save_only_model`: False
423
+ - `restore_callback_states_from_checkpoint`: False
424
+ - `no_cuda`: False
425
+ - `use_cpu`: False
426
+ - `use_mps_device`: False
427
+ - `seed`: 42
428
+ - `data_seed`: None
429
+ - `jit_mode_eval`: False
430
+ - `use_ipex`: False
431
+ - `bf16`: True
432
+ - `fp16`: False
433
+ - `fp16_opt_level`: O1
434
+ - `half_precision_backend`: auto
435
+ - `bf16_full_eval`: False
436
+ - `fp16_full_eval`: False
437
+ - `tf32`: False
438
+ - `local_rank`: 0
439
+ - `ddp_backend`: None
440
+ - `tpu_num_cores`: None
441
+ - `tpu_metrics_debug`: False
442
+ - `debug`: []
443
+ - `dataloader_drop_last`: False
444
+ - `dataloader_num_workers`: 0
445
+ - `dataloader_prefetch_factor`: None
446
+ - `past_index`: -1
447
+ - `disable_tqdm`: False
448
+ - `remove_unused_columns`: True
449
+ - `label_names`: None
450
+ - `load_best_model_at_end`: True
451
+ - `ignore_data_skip`: False
452
+ - `fsdp`: []
453
+ - `fsdp_min_num_params`: 0
454
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
455
+ - `fsdp_transformer_layer_cls_to_wrap`: None
456
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
457
+ - `deepspeed`: None
458
+ - `label_smoothing_factor`: 0.0
459
+ - `optim`: adamw_torch_fused
460
+ - `optim_args`: None
461
+ - `adafactor`: False
462
+ - `group_by_length`: False
463
+ - `length_column_name`: length
464
+ - `ddp_find_unused_parameters`: None
465
+ - `ddp_bucket_cap_mb`: None
466
+ - `ddp_broadcast_buffers`: False
467
+ - `dataloader_pin_memory`: True
468
+ - `dataloader_persistent_workers`: False
469
+ - `skip_memory_metrics`: True
470
+ - `use_legacy_prediction_loop`: False
471
+ - `push_to_hub`: False
472
+ - `resume_from_checkpoint`: None
473
+ - `hub_model_id`: None
474
+ - `hub_strategy`: every_save
475
+ - `hub_private_repo`: None
476
+ - `hub_always_push`: False
477
+ - `gradient_checkpointing`: False
478
+ - `gradient_checkpointing_kwargs`: None
479
+ - `include_inputs_for_metrics`: False
480
+ - `include_for_metrics`: []
481
+ - `eval_do_concat_batches`: True
482
+ - `fp16_backend`: auto
483
+ - `push_to_hub_model_id`: None
484
+ - `push_to_hub_organization`: None
485
+ - `mp_parameters`:
486
+ - `auto_find_batch_size`: False
487
+ - `full_determinism`: False
488
+ - `torchdynamo`: None
489
+ - `ray_scope`: last
490
+ - `ddp_timeout`: 1800
491
+ - `torch_compile`: False
492
+ - `torch_compile_backend`: None
493
+ - `torch_compile_mode`: None
494
+ - `dispatch_batches`: None
495
+ - `split_batches`: None
496
+ - `include_tokens_per_second`: False
497
+ - `include_num_input_tokens_seen`: False
498
+ - `neftune_noise_alpha`: None
499
+ - `optim_target_modules`: None
500
+ - `batch_eval_metrics`: False
501
+ - `eval_on_start`: False
502
+ - `use_liger_kernel`: False
503
+ - `eval_use_gather_object`: False
504
+ - `average_tokens_across_devices`: False
505
+ - `prompts`: None
506
+ - `batch_sampler`: no_duplicates
507
+ - `multi_dataset_batch_sampler`: proportional
508
+
509
+ </details>
510
+
511
+ ### Training Logs
512
+ <details><summary>Click to expand</summary>
513
+
514
+ | Epoch | Step | Training Loss | dim_768_cosine_ndcg@10 |
515
+ |:-------:|:--------:|:-------------:|:----------------------:|
516
+ | -1 | -1 | - | 0.3880 |
517
+ | 0.0228 | 10 | 2.3584 | - |
518
+ | 0.0456 | 20 | 2.3408 | - |
519
+ | 0.0683 | 30 | 2.3092 | - |
520
+ | 0.0911 | 40 | 2.2104 | - |
521
+ | 0.1139 | 50 | 2.1889 | - |
522
+ | 0.1367 | 60 | 2.0988 | - |
523
+ | 0.1595 | 70 | 2.1081 | - |
524
+ | 0.1822 | 80 | 1.9616 | - |
525
+ | 0.2050 | 90 | 1.9669 | - |
526
+ | 0.2278 | 100 | 1.65 | - |
527
+ | 0.2506 | 110 | 1.6591 | - |
528
+ | 0.2733 | 120 | 1.5793 | - |
529
+ | 0.2961 | 130 | 1.5347 | - |
530
+ | 0.3189 | 140 | 1.4505 | - |
531
+ | 0.3417 | 150 | 1.3638 | - |
532
+ | 0.3645 | 160 | 1.3132 | - |
533
+ | 0.3872 | 170 | 1.2983 | - |
534
+ | 0.4100 | 180 | 1.2428 | - |
535
+ | 0.4328 | 190 | 1.1862 | - |
536
+ | 0.4556 | 200 | 1.0585 | - |
537
+ | 0.4784 | 210 | 1.1916 | - |
538
+ | 0.5011 | 220 | 1.1035 | - |
539
+ | 0.5239 | 230 | 1.1296 | - |
540
+ | 0.5467 | 240 | 1.0501 | - |
541
+ | 0.5695 | 250 | 1.0349 | - |
542
+ | 0.5923 | 260 | 1.0506 | - |
543
+ | 0.6150 | 270 | 0.9281 | - |
544
+ | 0.6378 | 280 | 0.91 | - |
545
+ | 0.6606 | 290 | 0.8781 | - |
546
+ | 0.6834 | 300 | 0.8793 | - |
547
+ | 0.7062 | 310 | 0.8807 | - |
548
+ | 0.7289 | 320 | 0.9245 | - |
549
+ | 0.7517 | 330 | 0.8835 | - |
550
+ | 0.7745 | 340 | 0.9599 | - |
551
+ | 0.7973 | 350 | 0.8816 | - |
552
+ | 0.8200 | 360 | 0.8043 | - |
553
+ | 0.8428 | 370 | 0.8484 | - |
554
+ | 0.8656 | 380 | 0.9126 | - |
555
+ | 0.8884 | 390 | 0.7855 | - |
556
+ | 0.9112 | 400 | 0.8606 | - |
557
+ | 0.9339 | 410 | 0.7973 | - |
558
+ | 0.9567 | 420 | 0.7873 | - |
559
+ | 0.9795 | 430 | 0.7477 | - |
560
+ | 1.0 | 439 | - | 0.5759 |
561
+ | 1.0023 | 440 | 0.8363 | - |
562
+ | 1.0251 | 450 | 0.839 | - |
563
+ | 1.0478 | 460 | 0.8302 | - |
564
+ | 1.0706 | 470 | 0.7122 | - |
565
+ | 1.0934 | 480 | 0.7783 | - |
566
+ | 1.1162 | 490 | 0.788 | - |
567
+ | 1.1390 | 500 | 0.7143 | - |
568
+ | 1.1617 | 510 | 0.7203 | - |
569
+ | 1.1845 | 520 | 0.8374 | - |
570
+ | 1.2073 | 530 | 0.6628 | - |
571
+ | 1.2301 | 540 | 0.6991 | - |
572
+ | 1.2528 | 550 | 0.6809 | - |
573
+ | 1.2756 | 560 | 0.7352 | - |
574
+ | 1.2984 | 570 | 0.7195 | - |
575
+ | 1.3212 | 580 | 0.6954 | - |
576
+ | 1.3440 | 590 | 0.7689 | - |
577
+ | 1.3667 | 600 | 0.7348 | - |
578
+ | 1.3895 | 610 | 0.6483 | - |
579
+ | 1.4123 | 620 | 0.6791 | - |
580
+ | 1.4351 | 630 | 0.6418 | - |
581
+ | 1.4579 | 640 | 0.7103 | - |
582
+ | 1.4806 | 650 | 0.637 | - |
583
+ | 1.5034 | 660 | 0.6811 | - |
584
+ | 1.5262 | 670 | 0.6812 | - |
585
+ | 1.5490 | 680 | 0.6452 | - |
586
+ | 1.5718 | 690 | 0.714 | - |
587
+ | 1.5945 | 700 | 0.636 | - |
588
+ | 1.6173 | 710 | 0.7327 | - |
589
+ | 1.6401 | 720 | 0.6672 | - |
590
+ | 1.6629 | 730 | 0.662 | - |
591
+ | 1.6856 | 740 | 0.6095 | - |
592
+ | 1.7084 | 750 | 0.6754 | - |
593
+ | 1.7312 | 760 | 0.6105 | - |
594
+ | 1.7540 | 770 | 0.6734 | - |
595
+ | 1.7768 | 780 | 0.6104 | - |
596
+ | 1.7995 | 790 | 0.5723 | - |
597
+ | 1.8223 | 800 | 0.6217 | - |
598
+ | 1.8451 | 810 | 0.6282 | - |
599
+ | 1.8679 | 820 | 0.7238 | - |
600
+ | 1.8907 | 830 | 0.6513 | - |
601
+ | 1.9134 | 840 | 0.5622 | - |
602
+ | 1.9362 | 850 | 0.6236 | - |
603
+ | 1.9590 | 860 | 0.6487 | - |
604
+ | 1.9818 | 870 | 0.6078 | - |
605
+ | 2.0 | 878 | - | 0.6315 |
606
+ | 2.0046 | 880 | 0.5341 | - |
607
+ | 2.0273 | 890 | 0.5857 | - |
608
+ | 2.0501 | 900 | 0.5546 | - |
609
+ | 2.0729 | 910 | 0.6204 | - |
610
+ | 2.0957 | 920 | 0.6246 | - |
611
+ | 2.1185 | 930 | 0.7059 | - |
612
+ | 2.1412 | 940 | 0.6407 | - |
613
+ | 2.1640 | 950 | 0.5971 | - |
614
+ | 2.1868 | 960 | 0.5388 | - |
615
+ | 2.2096 | 970 | 0.5694 | - |
616
+ | 2.2323 | 980 | 0.6428 | - |
617
+ | 2.2551 | 990 | 0.5644 | - |
618
+ | 2.2779 | 1000 | 0.5983 | - |
619
+ | 2.3007 | 1010 | 0.5454 | - |
620
+ | 2.3235 | 1020 | 0.5387 | - |
621
+ | 2.3462 | 1030 | 0.6404 | - |
622
+ | 2.3690 | 1040 | 0.5967 | - |
623
+ | 2.3918 | 1050 | 0.5172 | - |
624
+ | 2.4146 | 1060 | 0.593 | - |
625
+ | 2.4374 | 1070 | 0.5558 | - |
626
+ | 2.4601 | 1080 | 0.5637 | - |
627
+ | 2.4829 | 1090 | 0.54 | - |
628
+ | 2.5057 | 1100 | 0.5341 | - |
629
+ | 2.5285 | 1110 | 0.5337 | - |
630
+ | 2.5513 | 1120 | 0.5159 | - |
631
+ | 2.5740 | 1130 | 0.5618 | - |
632
+ | 2.5968 | 1140 | 0.5197 | - |
633
+ | 2.6196 | 1150 | 0.5446 | - |
634
+ | 2.6424 | 1160 | 0.511 | - |
635
+ | 2.6651 | 1170 | 0.5576 | - |
636
+ | 2.6879 | 1180 | 0.5447 | - |
637
+ | 2.7107 | 1190 | 0.6099 | - |
638
+ | 2.7335 | 1200 | 0.5752 | - |
639
+ | 2.7563 | 1210 | 0.5441 | - |
640
+ | 2.7790 | 1220 | 0.5551 | - |
641
+ | 2.8018 | 1230 | 0.5178 | - |
642
+ | 2.8246 | 1240 | 0.5751 | - |
643
+ | 2.8474 | 1250 | 0.5607 | - |
644
+ | 2.8702 | 1260 | 0.5275 | - |
645
+ | 2.8929 | 1270 | 0.4734 | - |
646
+ | 2.9157 | 1280 | 0.518 | - |
647
+ | 2.9385 | 1290 | 0.5094 | - |
648
+ | 2.9613 | 1300 | 0.5462 | - |
649
+ | 2.9841 | 1310 | 0.5454 | - |
650
+ | 3.0 | 1317 | - | 0.6612 |
651
+ | 3.0068 | 1320 | 0.4151 | - |
652
+ | 3.0296 | 1330 | 0.6005 | - |
653
+ | 3.0524 | 1340 | 0.5134 | - |
654
+ | 3.0752 | 1350 | 0.5446 | - |
655
+ | 3.0979 | 1360 | 0.5572 | - |
656
+ | 3.1207 | 1370 | 0.5281 | - |
657
+ | 3.1435 | 1380 | 0.529 | - |
658
+ | 3.1663 | 1390 | 0.5129 | - |
659
+ | 3.1891 | 1400 | 0.5123 | - |
660
+ | 3.2118 | 1410 | 0.4591 | - |
661
+ | 3.2346 | 1420 | 0.4634 | - |
662
+ | 3.2574 | 1430 | 0.469 | - |
663
+ | 3.2802 | 1440 | 0.5045 | - |
664
+ | 3.3030 | 1450 | 0.5247 | - |
665
+ | 3.3257 | 1460 | 0.4799 | - |
666
+ | 3.3485 | 1470 | 0.512 | - |
667
+ | 3.3713 | 1480 | 0.4595 | - |
668
+ | 3.3941 | 1490 | 0.4749 | - |
669
+ | 3.4169 | 1500 | 0.5299 | - |
670
+ | 3.4396 | 1510 | 0.4971 | - |
671
+ | 3.4624 | 1520 | 0.5254 | - |
672
+ | 3.4852 | 1530 | 0.4974 | - |
673
+ | 3.5080 | 1540 | 0.4912 | - |
674
+ | 3.5308 | 1550 | 0.4588 | - |
675
+ | 3.5535 | 1560 | 0.47 | - |
676
+ | 3.5763 | 1570 | 0.492 | - |
677
+ | 3.5991 | 1580 | 0.4682 | - |
678
+ | 3.6219 | 1590 | 0.5362 | - |
679
+ | 3.6446 | 1600 | 0.5283 | - |
680
+ | 3.6674 | 1610 | 0.5251 | - |
681
+ | 3.6902 | 1620 | 0.4488 | - |
682
+ | 3.7130 | 1630 | 0.4498 | - |
683
+ | 3.7358 | 1640 | 0.4948 | - |
684
+ | 3.7585 | 1650 | 0.5133 | - |
685
+ | 3.7813 | 1660 | 0.4656 | - |
686
+ | 3.8041 | 1670 | 0.4275 | - |
687
+ | 3.8269 | 1680 | 0.4932 | - |
688
+ | 3.8497 | 1690 | 0.4556 | - |
689
+ | 3.8724 | 1700 | 0.5473 | - |
690
+ | 3.8952 | 1710 | 0.4287 | - |
691
+ | 3.9180 | 1720 | 0.4116 | - |
692
+ | 3.9408 | 1730 | 0.464 | - |
693
+ | 3.9636 | 1740 | 0.5121 | - |
694
+ | 3.9863 | 1750 | 0.4453 | - |
695
+ | **4.0** | **1756** | **-** | **0.6803** |
696
+
697
+ * The bold row denotes the saved checkpoint.
698
+ </details>
699
+
700
+ ### Framework Versions
701
+ - Python: 3.10.16
702
+ - Sentence Transformers: 3.4.1
703
+ - Transformers: 4.49.0
704
+ - PyTorch: 2.6.0+cu124
705
+ - Accelerate: 1.5.2
706
+ - Datasets: 3.3.2
707
+ - Tokenizers: 0.21.0
708
+
709
+ ## Citation
710
+
711
+ ### BibTeX
712
+
713
+ #### Sentence Transformers
714
+ ```bibtex
715
+ @inproceedings{reimers-2019-sentence-bert,
716
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
717
+ author = "Reimers, Nils and Gurevych, Iryna",
718
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
719
+ month = "11",
720
+ year = "2019",
721
+ publisher = "Association for Computational Linguistics",
722
+ url = "https://arxiv.org/abs/1908.10084",
723
+ }
724
+ ```
725
+
726
+ #### MultipleNegativesRankingLoss
727
+ ```bibtex
728
+ @misc{henderson2017efficient,
729
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
730
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
731
+ year={2017},
732
+ eprint={1705.00652},
733
+ archivePrefix={arXiv},
734
+ primaryClass={cs.CL}
735
+ }
736
+ ```
737
+
738
+ <!--
739
+ ## Glossary
740
+
741
+ *Clearly define terms in order to be accessible across audiences.*
742
+ -->
743
+
744
+ <!--
745
+ ## Model Card Authors
746
+
747
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
748
+ -->
749
+
750
+ <!--
751
+ ## Model Card Contact
752
+
753
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
754
+ -->
added_tokens.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ {
2
+ "<mask>": 64000
3
+ }
bpe.codes ADDED
The diff for this file is too large to render. See raw diff
 
config.json ADDED
@@ -0,0 +1,29 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "keepitreal/vietnamese-sbert",
3
+ "architectures": [
4
+ "RobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "gradient_checkpointing": false,
11
+ "hidden_act": "gelu",
12
+ "hidden_dropout_prob": 0.1,
13
+ "hidden_size": 768,
14
+ "initializer_range": 0.02,
15
+ "intermediate_size": 3072,
16
+ "layer_norm_eps": 1e-05,
17
+ "max_position_embeddings": 258,
18
+ "model_type": "roberta",
19
+ "num_attention_heads": 12,
20
+ "num_hidden_layers": 12,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "tokenizer_class": "PhobertTokenizer",
24
+ "torch_dtype": "float32",
25
+ "transformers_version": "4.49.0",
26
+ "type_vocab_size": 1,
27
+ "use_cache": true,
28
+ "vocab_size": 64001
29
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.4.1",
4
+ "transformers": "4.49.0",
5
+ "pytorch": "2.6.0+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
eval/Information-Retrieval_evaluation_dim_768_results.csv ADDED
@@ -0,0 +1,5 @@
 
 
 
 
 
 
1
+ epoch,steps,cosine-Accuracy@1,cosine-Accuracy@3,cosine-Accuracy@5,cosine-Accuracy@10,cosine-Precision@1,cosine-Recall@1,cosine-Precision@3,cosine-Recall@3,cosine-Precision@5,cosine-Recall@5,cosine-Precision@10,cosine-Recall@10,cosine-MRR@10,cosine-NDCG@10,cosine-MAP@100
2
+ 1.0,439,0.4408327246165084,0.591672753834916,0.6449963476990505,0.7205989773557341,0.4408327246165084,0.4408327246165084,0.19722425127830534,0.591672753834916,0.12899926953981009,0.6449963476990505,0.0720598977355734,0.7205989773557341,0.5302576466427826,0.5759202784334473,0.5378847831452676
3
+ 2.0,878,0.5047479912344777,0.6433528122717312,0.699963476990504,0.7673484295105917,0.5047479912344777,0.5047479912344777,0.2144509374239104,0.6433528122717312,0.13999269539810077,0.699963476990504,0.07673484295105916,0.7673484295105917,0.5885215572715589,0.6314508450710851,0.595168291313997
4
+ 3.0,1317,0.539444850255661,0.6780496712929145,0.7264426588750913,0.7890796201607012,0.539444850255661,0.539444850255661,0.22601655709763815,0.6780496712929145,0.14528853177501824,0.7264426588750913,0.07890796201607012,0.7890796201607012,0.6206754292902953,0.6612181248362422,0.627028872194609
5
+ 4.0,1756,0.5628195763330899,0.6952154857560263,0.7419649379108838,0.8046018991964938,0.5628195763330899,0.5628195763330899,0.23173849525200876,0.6952154857560263,0.14839298758217676,0.7419649379108838,0.08046018991964936,0.8046018991964938,0.6409411341843781,0.6803010900109947,0.646841941818213
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2b5464ee06040958ab72de260c6556f93dfeea71a49fb761c05cfef7b9370426
3
+ size 540015464
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
runs/Mar18_17-09-11_sotatek-Z590-GAMING-X/events.out.tfevents.1742292553.sotatek-Z590-GAMING-X.658847.1 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9d07b64d0c72a9f90ac817369db6ba2e8080eaedf8c7bee3d88123a2b6e536d1
3
+ size 4572
runs/Mar18_17-09-31_sotatek-Z590-GAMING-X/events.out.tfevents.1742292572.sotatek-Z590-GAMING-X.658847.2 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:892a1bde45fb57afabbd76b1402dd603e1e01a17f22f568188c48d187ccd1f5e
3
+ size 4572
runs/Mar18_17-10-22_sotatek-Z590-GAMING-X/events.out.tfevents.1742292624.sotatek-Z590-GAMING-X.659079.0 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5fb4fc2152d2836f04f20880a77bcc3e9aad2ffcc3b3f1428ba652bf2872681c
3
+ size 46792
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 256,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,9 @@
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": "<s>",
3
+ "cls_token": "<s>",
4
+ "eos_token": "</s>",
5
+ "mask_token": "<mask>",
6
+ "pad_token": "<pad>",
7
+ "sep_token": "</s>",
8
+ "unk_token": "<unk>"
9
+ }
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "64000": {
36
+ "content": "<mask>",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": false,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 256,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "tokenizer_class": "PhobertTokenizer",
54
+ "unk_token": "<unk>"
55
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ede3dd07e95841ce7c687e2cc58f1be66c41f0fa19c729241036e0908eb31081
3
+ size 5752
vocab.txt ADDED
The diff for this file is too large to render. See raw diff