gmunkhtur commited on
Commit
9dd2c67
·
verified ·
1 Parent(s): ec7686a

Add new SentenceTransformer model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
37
+ unigram.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 384,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,699 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:19689
8
+ - loss:MatryoshkaLoss
9
+ - loss:MultipleNegativesRankingLoss
10
+ base_model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
11
+ widget:
12
+ - source_sentence: Энэ хэсэг ер нь юуны тухай өгүүлж байна вэ?
13
+ sentences:
14
+ - 'news: “Hi-FI Records”-ын хөгжмийн сүлжээ дэлгүүр долоо хоног бүр борлуулалтаараа
15
+ тэргүүлж буй шилдэг 10  цомгийн жагсаалтыг гаргадаг уламжлалтай. Өнгөрсөн долоо
16
+ хоногт борлуулалтаараа тэргүүлсэн шилдэг 10 цомгийн жагсаалтыг танилцуулж байна.
17
+ Дэлгэрэнгүй мэдээллийг www.hi-fi.mn сайтаас авч болно. 1.    Х.Лхагвасүрэн “Харангын
18
+ Лхагваа” цомог. Үнэ: 15000 төгрөг 2.    Х.Лхагвасүрэн “Тэнгэрлэг андууд” цомог.
19
+ Үнэ: 15000 төгрөг 3.    “Алтан Ураг” хамтлаг “Made in AltanUrag” цомог. Үнэ: 8000
20
+ төгрөг 4.    Д.Болд “Монгол поп” цомог. ҮНэ: 9999 төгрөг 5.    “Никитон” хамтлаг
21
+ “Нандин шүтээн” цомог. Үнэ: 15000 төгрөг 6.    Л.Балхжав “Миний дуунууд-2011”
22
+ цомог. Үнэ: 18000 төгрөг 7.    “A Sound”хамтлаг “Зуун наст” цомог. Үнэ: 12000
23
+ төгрөг 8.    Д.Ука “I’m in Love”цомог. Үнэ: 15000 төгрөг 9.    н.Азхишиг “Азтай
24
+ хүүхдийн дуу” цомог. Үнэ: 10000 төгрөг 10.    Г.Тэнүүн “Picnic”цомог. Үнэ: 10000
25
+ төгрөг тус тус жагссан байна. М.Дөл'
26
+ - Перс хэлт уран зохиолд Рудаки хэмээх нэрийг ихэд эрхэмлэн дуудах болой. Түүний
27
+ залуугийн шүлгүүд нь ордныхонд шижир алтаар үнэлэгдэж асан гэдэг билээ. Рудаки
28
+ Арарат нутгаас олзлогдсон үзэсгэлэнт боол бүсгүйтэй холбоотой байсныхаа төлөө,
29
+ сангийн нэгэн сайдыг “цатгаландаа бүү галзуур, цагаа болохоор чи ч өлсөнө” гэж
30
+ шүлэглэн дайрсныхаа төлөө нүдээ сохлуулан хөөгдсөн гэх домогтой. Нүдгүй болсон
31
+ найрагч зовлон бэрхийг ханатал амсч нэгэн шавийнхаа ачаар төрөлх Рудак тосгондоо
32
+ эргэн иржээ. Тэрбээр тууль, газээл, рубай, магтаал гунигийн дуулал зэрэг мянга
33
+ орчим шүлэг, “Камила Димна хоёр”, “Синдбадын ном” хэмээх хоёр том найраглал туурвижээ.
34
+ *** Шанхны чинь сайхан үнэрийг үнэрлээд ч ханашгүй нь Шагнаач дээ, намайгаа мэлрэгийн
35
+ уяхан уруулаараа Гишгэж өнгөрсөн элсний чинь ширхэг бүрд нь мөргөе Гэгээн өлмийн
36
+ тоосноос магнайдаан адис авья Бэлзэгний чинь хээний мөр нь хүрсэн болгоныг Бичиг
37
+ захиа шиг үнсэж, аминаас харам энрхийлье Ганцхан өдөр л хэрвээ биенд чинь шүргэж
38
+ чадаагүй бол Гараан тас
39
+ - 'news: “Бумбардай аргалд явсан нь”. Ийм нэртэй зурган номыг Ерөнхий сайд Н.Алтанхуяг
40
+ дэмжин бүтээж, хүүхэд багачуудад бэлэг барьжээ. Номын нээлт өнөөдөр Төрийн ордонд
41
+ болж байна. Хүүхдийн номын “хурим”-ыг Төрийн ордонд хийж буй анхны тохиолдол энэ
42
+ биз ээ. Ерөнхий сайдын дэмжлэгтэйгээр Хүүхдийн төлөө үндэсний газраас эрхлэн гаргаж
43
+ буй “Бумбардай аргалд явсан нь” хэмээх энэхүү зурган ном 108 цуврал байх ажээ.
44
+ Б.ЭНХ'
45
+ - source_sentence: '"Зөөлөн ай" цомогт багтсан бусад шүлгүүдийн талаар юу мэдэх вэ?'
46
+ sentences:
47
+ - 'news: Яруу найрагч Г.Мэнд-Ооёогийн ӨӨРИЙН ЭГШИГ шүлгийг хүргэж байна. Тэрбээр
48
+ "Өөрийн эгшиг" шүлгээ 2010 онд гаргасан "Зөөлөн а��" цомогтоо уншсаныг дүрслүүлжээ.
49
+   ӨӨРИЙН ЭГШИГ Хээр тал минь үес үесхэн чагнархана Хэн нэгнийг хүлээж, хэзээх
50
+ цагийг анирлана Гэрэл сүүдэр хоёр уулзаад хагацахын зуурханд Гэтэлгэгч аялгууг
51
+ хүлээж гэнэ гэнэхэн шүүрс алдана. Тандаа намайг ирэхийн таатай нэгэн мөчлөгт Талын
52
+ уяхан эгшиг ингэ буйлж байсан, Хэцийн салхин шувуудын жиргээг над руу илгээсэн
53
+ Хээр талын хамгийн зөөлөн аялгуунд би мэндэлсэн. Өвгөн буурал талынхаа уя туяхан
54
+ ургамал, би Өвс бүхний шилбэнд салхин үлээж лимбэдэхэд Үүрийн бялзуухай өглөөн
55
+ удиртгал дуулж жиргэхэд Үүлэн хөшигний цаанаас миний хүлэг янцгаахад Хос чавхдаст
56
+ морин хуур шигээ хөглөгдөж Хорвоогийн дуут нэгэн биеэ гэдгээ мэдэрсэн Хоршин дуулах
57
+ гэж тал минь намайг дуудсан, Хонгорхон дэрс бид хоёрыг та л хөг оруулсан. Нуурын
58
+ хөвөөгөөр адуун туурай бөмбөрдөн өнгөрөхөд Нууцхан сэтгэлд морин хуурын хос чавхдас
59
+ хөвчирч Гадсаа тойрох өнчин'
60
+ - Вээдийн судраас үндэслэж “Махаабаарата”, “Раамаяна” хэмээх агуу туульсын бүтээлүүд
61
+ зохиогджээ. Орчлон ертөнцийн ухамсарт тэмүүлэл хэзээ анх үүссэн, тэр цаг үед Вээд
62
+ үүссэн гэж бичсэн байх нь тааралдана. Вээд гэдэг бол “мэдлэг” хэмээсэн утгатай
63
+ үг. Аричууд Энэтхэгийн Инд мөрний хөндийд ирж, Энэтхэг-Ари үндэстний шинэ соёл
64
+ иргэншил бий болсон цаг үеэс Энэтхэгийн соёл дахин сэргэж яруу найраг, ёс заншил,
65
+ гүн ухаан, дотоод ертөнцийн үлэмж баян сан хөмрөгийг агуулсан хүн төрөлхтний түүх
66
+ соёлын хамгийн эртний утга зохиол цогцолсон юм. Их арш Вьяасагийн найруулсан “Махаабхаарата”
67
+ туульсын хэсэг болох “Бхагавата-гийта” дахь яруу найргаас нь төлөөлөл болгон хүн
68
+ төрөлхтний яруу найргийн ууган дурсгалынх нь хувьд Вээдээс цөөн шадыг толилуулбай.
69
+ *** Ухаант дээдэс гэдэг маань Угаасаа миний урьдах дүр юм Мэргэн ухаан, итгэл
70
+ сүжиг нь Миний зүрхнээ бат оршсон юм. орчуулсан Ж.Гэндэндарам Хүннү дуу  НТӨ II
71
+ зуун Хүннү гүрэн хүчирхэгжин мандаж ахуй цагтаа үлэмж их соёлыг цогцлоож буй болгосны
72
+ ул мөр
73
+ - ажиллагаанд урилгаар оролцлоо. Сонирхуулахад, Монголын "Үндэсний Төв Архив"-т
74
+ “Цогт тайж” кино нь негатив, контратив, лаванд, дуу дүрсний гэсэн таван төрлөөр
75
+ хадгалагддаг бөгөөд ямар ч тохиолдолд анхны хувилбар болох негатив хальсыг гадагш
76
+ гаргахыг хориглодог юм байна. Тиймээс хоёр улсын хамтын ажиллагааны гэрээний дагуу
77
+ "Цогт тайж" киног сэргээн засварлаж, тоон системд хувиргах ажлыг гүйцэтгүүлэхээр
78
+ киноны хоёр дахь хувилбарыг Франц руу илгээсэн байна. Францын “Кино Урлагийн Үндэсний
79
+ Төв” нэг ангийн 8, хоёр ангийн 7 бүлэг нийт 15 бүлгийг Full HD, LCD зурагтаар
80
+ гаргахад шаардлага хангахуйц болгон засварлажээ. 1945 онд "Цогт тайж" киног бүтээхэд
81
+ тэр үеийн Монгол улсын жилийн төсвийн гуравны нэгтэй тэнцэх хөрөнгийг зарцуулсан
82
+ байна. "Цогт тайж" кино нь Монголын кино урлагийн түүхэнд "Алтан үеийнхэн" хэмээн
83
+ мөнхөрсөн мэргэжлийн уран бүтээлчдийн ур чадварыг сорьсон, нөр их хүч хөдөлмөр,
84
+ хөрөнгө мөнгө зарцуулсан гайхамшигт бүтээл юм. Эрхэм уншигч, үзэгч та "Цогт тайж"
85
+ киног "Full HD"
86
+ - source_sentence: Бор өнгийн Penny Loafer гуталтай өмсөх оймсын өнгө, хээтэй холбоотой
87
+ зөвлөгөө өгнө үү
88
+ sentences:
89
+ - 'news: Хувцсыг зохицуулан өмсөж мэддэг залуу бол оймсыг хүртэл загварлаг хослуулан
90
+ өмсөхөө мэдэх ёстой. Хэдий үнэтэй сайн гутал өмссөн ч оймстой тань зохицохгүй
91
+ байвал ямар ч үнэ цэнэгүй муухай харагдана. Иймээс эрчүүд оймсоо хэрхэн яаж сонгож
92
+ ѳмсѳх тухай хүргэж байна. Oxford Эрэгтэй хүнд болгонд байдаг Oxford гутланд хээтэй
93
+ оймсыг өмсвөл илүү зохимжтой. Гэвч ажилдаа явахдаа хэтэрхий өнгөлөг биш бараандуу
94
+ өнгийн хээтэй оймсыг өмсөөрэй. Хар өнгийн Oxford өмсөхдөө дан өнгийн оймс ѳмсвѳл
95
+ илүү тохирожтой. Тод өнгийн оймсыг сонгон өмсвөл энгийн хувцаслалтанд илүү их
96
+ өнгө нэмэн харагдуулна.   Penny Loafer Бор өнгийн Penny Loafer-той хамгийн их
97
+ зохицох оймс нь судалтай оймс юм. Өнгөлөг өнгийн судалтай оймстой хослуулан өмссөн
98
+ тохиолдолд өмдөө бага зэрэг нугалвал илүү зохимжтой. Усан цэнхэр өнгийн Penny
99
+ Loafer гутланд өнгө холилдсон оймс өмсвөл илүү хээнцэр харагдана.   Sneakers пүүз
100
+ (кэт) Цагаан өнгийн пүүзтэй ямарч өнгийн оймс зохицоно. Пиджакан хослолын доор
101
+ цагаан өнгийн пүүз өмсөхдөө'
102
+ - 'news: Соёлын гавьяат зүтгэлтэн, яруу найрагч С.Оюуны “Цахим болор цом” яруу найргийн
103
+ наадмын талаар мэдээлэл хийлээ. Тэрээр энэ үеэр “Энэ жил цахимаар буюу интернэт
104
+ хэлбэрээр яруу найргийн наадмыг хийхээр болсон. учир нь цахим орчинд бол ханаа
105
+ ч шүлгүүдээ явуулах боломжтой бөгөөд тус наадам хоёр жилд нэг удаа зохион байгуулж
106
+ байхаар болсон. Шүүгч дээр нь бүх яруу найрагчид ажиллана. Энэ онд бид 20 шилдэг
107
+ шүлгийг шалгаруулна. Шүлгүүдийг арванхоёрдугаар сарын 25-ыг хүртэл бүртгэж авна.
108
+ Нэг хүн гурван шүлэг явуулах боломжтой бөгөөд шүлгийн сэдэв чөлөөтэй байна” гэв.
109
+ Н.БАТ'
110
+ - 'news: Баз Лурманы бүтээж байгаа “The Get Down” хөгжмийн олон ангит кинонд Уилл
111
+ Смитийн хүү Жейден тоглож байгаа тухай Variety мэдээлжээ. М.Найт Шьямаланы “Манай
112
+ эриний дараа” (2013) кинонд тоглосон бага-Смит Өмнөд Бронкс дүүрэгт өссөн граффит
113
+ зураач Маркус “Диззи” Киплингийн дүрийг бүтээх юм. Түүний дүрийн сонголтыг маш
114
+ зөв хийсэн гэж найруулагч Лурман онцолжээ. “Үзэгчид Жейденийг багаас нь мэднэ.
115
+ Жейден сүүлийн үед ажил их шаардсан ноцтой дүр бүтээх эрмэлзлэлтэй байгаа. Энэ
116
+ дүр нь түүнийг мэргэжлийн жүжигчин болоход нь шалгуур болно” хэмээн Лурман ярьжээ.
117
+ Олон ангит киноны үйл явдал 70-аад онд Нью-Йоркт өрнөх бөгөөд хип-хоп сонирхсон
118
+ өнгөт арьстан өсвөр насныхны дүрүүдийг залуу жүжигчид бүтээх аж. “Sony Pictures
119
+ Television”-ы “The Get Down” киног цувралуудыг Netflix үзүүлэх төлөвлөгөөтэй байгаа
120
+ ажээ. Бэлтгэсэн Ш.МЯГМАР'
121
+ - source_sentence: Та энэ мэдээнээс өөр юу мэдэж авсан бэ?
122
+ sentences:
123
+ - 'news: Канадын зохиолч Алис Мунро Нобелийн уран зохиолын шагналын эзэн боллоо.
124
+ Канадын нэгэн жижиг хотын 82 настай, буурал үстэй зохиолчийг Нобелийн шагналын
125
+ хороо “Орчин цагийн богино өгүүл­лэгийн мастер” хэмээн нэрлэ­жээ.  Амьдралдаа
126
+ алдсан ч үл сөхрөх бүсгүйчүүдийн хайр дурлал, амьд­рал, итгэлийн тухай “нарийн
127
+ шир­хэг­­­­тэй” өгүүллэгүүд бич­сэн Алис Мунрог XIX-р зууны Оросын богино өгүүллэгийн
128
+ нэрт мастер А.П.Чеховтой зүйрлэж, Кана­дын Чехов гэх хүмүүс ч байгаа юм. Канадын
129
+ Онтарио хотын Клин­тон хэмээх жижиг сууринд нам гүм­­­хэн амьдардаг Алис Мунро
130
+ нэгэн өдөр унтаад сэрэхдээ Нобелийн шаг­­нал­тан болсон байжээ. Охин нь түүнийг
131
+ сэрээхдээ “Та шагнал авчи­хаж” гэсэн мэдээ дуулгажээ.   Салахын аргагүй богино
132
+ өгүүллэгүүд XIX-XX-р зууны эхээр ид дэлгэрч байсан богиго өгүүллэгийн төрөл тууж,
133
+ үргэлжилсэн үгийн зохиолд байр сууриа алдаж, арын суу­далд удаан суусан билээ.
134
+ Алис Мунрогийн ачаар маш сонирхолтой өрнөл­тэй, өвөрмөц дүрүүдтэй богино өгүүл­лэгүүд
135
+ эргэн ирж бай­гаа аж. Түүний'
136
+ - суут А.С.Пушкин, сонгодог яруу найрагч Тютчев, Америкийн Эмерсон, Эдгар По нартай
137
+ үе чацуутан төдийгүй, сэтгэлгээгээр ч, яруу найргаараа ч, соён гэгээрүлэх үйлсээрээ
138
+ ч дутуугүй. Ийм л учраас би дэлхийн яруу найргийн цэцэрлэгт хүрээлэнд өөрийн үндэстний
139
+ яруу найргийг нилээд томоор гарган тавих мөрөөдлөө биелүүлж буй нь энэ юм. Зөв
140
+ бурууг хойч үе шүүх буй заа. -Та яагаад антологио “Гурван зуун шүлэгт” гэж нэрлэсэн
141
+ бэ? Монголчуудын цоморлиг бүтээж цогцлоох уламжлалд иймэрхүү нэр байдаг л даа.
142
+ Миний антологид “Бүх цаг үеэс сонгосон яруу найргийн дээж” гэж тодотгосон байгаа.
143
+ Миний хувьд анхны оролдлого тул энэ удаа 300 хүргэлээ. Дараа нь 500 шүлэгт, 1000
144
+ шүлэгт хэмээн нэмэгдэх магадлалыг бас бодолцсон юм. -“Гурван зуун шүлэгт” антологийг
145
+ манайд буй дэлхийн яруу найргийн бүхий л сор дээж гэж үзэж болох уу? -Бололгүй
146
+ яахав. Өдгөө хүртэлх монгол хэлнээ орчуулагдсан яруу найргаас дээжлэн сонгосон.
147
+ Орчуулгын олон дуу хоолой, ур чадварыг харсан. Гэхдээ энэ бол зөвхөн миний л сонголт
148
+ гэдгийг
149
+ - 'news: Алдарт “Цогт тайж” киноны сэргээн засварласан эх хувь болон дижитал хувилбарыг
150
+ хүлээн авах ёслолын ажиллагаа ДБЭТ-т өнөөдөр боллоо. Энэ үйл явдал Монгол Улсад
151
+ кино урлаг үүсч хөгжсөний 80 жил, “Цогт тайж” киноны 70 жил, Монгол-Францын хооронд
152
+ дипломат харилцаа тогтоосны 65 жилийн ойтой давхцаж байгаагаараа онцлог юм. Францын
153
+ “CNC” кино урлагийн төв нь хоёр улсын Засгийн Газрын хамтын ажиллагааны гэрээний
154
+ дагуу “Цогт тайж” киноны эх хувилбарыг сэргээн засварлах ажлыг хэрэгжүүлж, киноны
155
+ контратив хувийг сэргээн засварласан хувилбарыг 2011 онд манай талд хүлээлгэн
156
+ өгсөн юм. Энэ удаа сэргээн засварлалт хийж, хуулбарласан 15 бүлэг, тоон хэлбэрт
157
+ шилжүүлсэн хоёр хувь бүтээлийг өнөөдөр БСШУЯ-нд хүлээлгэн өгч байна. Энэ талаар
158
+ БНФУ-аас Монгол Улсад суугаа Онц бөгөөд Бүрэн эрхт Элчин сайд Ив Дэлунэ “Цогт
159
+ тайж та бүхний мэдэж байгаачлан Монголын эртний киноны нэг. Франц улс кино урлагийн
160
+ орон гэдэг утгаараа их онцлог. Манай улсад Кино урлагийн үндэсний төв хэмээх байгууллага
161
+ бий. Энэхүү'
162
+ - source_sentence: Энэ нийтлэлээс та юу ойлгож авсан бэ?
163
+ sentences:
164
+ - 'news: Нобелийн уран зохиолын шагналтан Элис Мунро "Чи чинь ингэхэд хэн сэн билээ?"
165
+ Уран зохиолын Нобелийн шагнал ухаарал төрүүлсэн, энгийн, уянгын  өгүүллэгүүдэд
166
+ очлоо. Тэр нь өдөөн хатгалт уу эсвэл хүний ердийн амьдралыг сануулсан хэрэг үү?
167
+ хэмээн РИА Новости агентлагийн улс төрийн тоймч Дмитрий Косырев бичжээ. Фото:
168
+ AFP 2013/ Peter Muhly РИА Новости агентлагийн улс төрийн тоймч Дмитрий Косырев
169
+ Нобелийн уран зохиолын шагналтан болон шагналын хорооны талаар бичжээ. "Чи чинь
170
+ ингэхэд хэн сэн билээ?"  Дөнгөж сая 2013 оны уран зохиолын Нобелийн шагналын эзэн
171
+ болсон Канадын зохиолч эмэгтэй Элис Мунрогийн өгүүллэгийн нэр юм л даа. Зураглалаа
172
+ номын дэлгүүрээс үргэлжлүүлье. Уран зохиолд хамаатай Нобелийн хорооны мэдээг тэндээс
173
+ өөр хаанаас авах билээ? Мэдээж, номын дэлгүүрт. Энэ бол дэлхийн аваргын ямар нэгэн
174
+ тэмцээний шигшээг спорт-бааранд үзэхтэй адил зүйл билээ. Хөөрөл, хүлээлт, ялагчийг
175
+ зарласны дараах агшин... Тийм зохиолч гэж байхгүй Ингээд, Москвагийн шилдэг хоёр
176
+ номын дэлгүүрийн нэгээр'
177
+ - өнгийн пүүзтэй ямарч өнгийн оймс зохицоно. Пиджакан хослолын доор цагаан өнгийн
178
+ пүүз өмсөхдөө саарал, хар өнгийн болон саармаг өнгийн оймс өмсвөл илүү зохимжтой.
179
+ Тод өнгийн өмдөн доор цагаан өнгийн пүүз өмсөхдөө өмднөөсөө илүү тод өнгийн оймсыг
180
+ өмсөөрэй. Өнгөлөг өнгийн пүүзэнд адилхан өнгийн оймс эсвэл өмсөж буй өмднийхөө
181
+ өнгөтэй оймс илүү зохино. Ингэхдээ өмднийхөө түрүүг тойгныхоо яс хүртэл нугалж
182
+ өмсөөрэй. Бүх гутлын оймстой өмсдөг биш бөгөөд зарим нэг гутал оймсгүй өмсвөл
183
+ илүү гоё харагддаг.   Slip On Үдээс болон товч байхгүй Slip On гутлыг оймсгүй
184
+ өмсөхгүйгээр хөлнийхөө ясыг хагадуулж өмсвөл илүү өндөр, зохимжтой харагдуулна.
185
+   Boat Shoes Boat Shoes ч бас оймс өмсөхгүй өмсөөрэй. Дээрээ баантаглаж үдсэн
186
+ арьсаар хийсэн энэхүү гуталны загвар өөрөө өвөрмөц тул заавал оймс өмсөх шаардлагагүй.
187
+ Б.СОНИНБИЛЭГ
188
+ - 'энэ хоёрыг сэдвийг холбон бичсэнээрээ ихээхэн ач холбогдолтой, сонирхолтой болсон
189
+ ” хэмээн орчуулагчид номынхоо гол санааг тайлбарлав. Нээлтийн үеэр мөн Монголын
190
+ бизнесийн хөгжлийн холбооны зүгээс хэлэхдээ: “Ирээдүйд дасан зохицож, өөртөө хөрөнгө
191
+ оруулж, карьераа ахиулах нь гэх дэд гарчигтай нэн шинэлэг уг номыг орчин цагийн
192
+ мэргэжилтнүүд, бизнес эрхлэгчид маань шимтэн уншаасай, дэлхийн шилдэг мэргэжилтнүүд,
193
+ компаниудаас бидэнд сурах юм их байгааг олж харна гэдэгт итгэлтэй байна” хэмээв.
194
+ “Та өөрөө старт-ап компани” ном өнөөдрөөс эхлэн номын дэлгүүрүүдээр 19,900 төгрөгийн
195
+ үнэтэйгээр зарагдаж байна. Ч.БОЛ'
196
+ pipeline_tag: sentence-similarity
197
+ library_name: sentence-transformers
198
+ metrics:
199
+ - cosine_accuracy@1
200
+ - cosine_accuracy@3
201
+ - cosine_accuracy@5
202
+ - cosine_accuracy@10
203
+ - cosine_precision@1
204
+ - cosine_precision@3
205
+ - cosine_precision@5
206
+ - cosine_precision@10
207
+ - cosine_recall@1
208
+ - cosine_recall@3
209
+ - cosine_recall@5
210
+ - cosine_recall@10
211
+ - cosine_ndcg@10
212
+ - cosine_mrr@10
213
+ - cosine_map@100
214
+ model-index:
215
+ - name: SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
216
+ results:
217
+ - task:
218
+ type: information-retrieval
219
+ name: Information Retrieval
220
+ dataset:
221
+ name: Unknown
222
+ type: unknown
223
+ metrics:
224
+ - type: cosine_accuracy@1
225
+ value: 0.3077984817115252
226
+ name: Cosine Accuracy@1
227
+ - type: cosine_accuracy@3
228
+ value: 0.5127674258109041
229
+ name: Cosine Accuracy@3
230
+ - type: cosine_accuracy@5
231
+ value: 0.6031746031746031
232
+ name: Cosine Accuracy@5
233
+ - type: cosine_accuracy@10
234
+ value: 0.7329192546583851
235
+ name: Cosine Accuracy@10
236
+ - type: cosine_precision@1
237
+ value: 0.3077984817115252
238
+ name: Cosine Precision@1
239
+ - type: cosine_precision@3
240
+ value: 0.17092247527030136
241
+ name: Cosine Precision@3
242
+ - type: cosine_precision@5
243
+ value: 0.12063492063492062
244
+ name: Cosine Precision@5
245
+ - type: cosine_precision@10
246
+ value: 0.0732919254658385
247
+ name: Cosine Precision@10
248
+ - type: cosine_recall@1
249
+ value: 0.3077984817115252
250
+ name: Cosine Recall@1
251
+ - type: cosine_recall@3
252
+ value: 0.5127674258109041
253
+ name: Cosine Recall@3
254
+ - type: cosine_recall@5
255
+ value: 0.6031746031746031
256
+ name: Cosine Recall@5
257
+ - type: cosine_recall@10
258
+ value: 0.7329192546583851
259
+ name: Cosine Recall@10
260
+ - type: cosine_ndcg@10
261
+ value: 0.5057985789244407
262
+ name: Cosine Ndcg@10
263
+ - type: cosine_mrr@10
264
+ value: 0.4349061202580869
265
+ name: Cosine Mrr@10
266
+ - type: cosine_map@100
267
+ value: 0.44616931572794133
268
+ name: Cosine Map@100
269
+ ---
270
+
271
+ # SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
272
+
273
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2). It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
274
+
275
+ ## Model Details
276
+
277
+ ### Model Description
278
+ - **Model Type:** Sentence Transformer
279
+ - **Base model:** [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2) <!-- at revision 8d6b950845285729817bf8e1af1861502c2fed0c -->
280
+ - **Maximum Sequence Length:** 128 tokens
281
+ - **Output Dimensionality:** 384 dimensions
282
+ - **Similarity Function:** Cosine Similarity
283
+ <!-- - **Training Dataset:** Unknown -->
284
+ <!-- - **Language:** Unknown -->
285
+ <!-- - **License:** Unknown -->
286
+
287
+ ### Model Sources
288
+
289
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
290
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
291
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
292
+
293
+ ### Full Model Architecture
294
+
295
+ ```
296
+ SentenceTransformer(
297
+ (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel
298
+ (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
299
+ )
300
+ ```
301
+
302
+ ## Usage
303
+
304
+ ### Direct Usage (Sentence Transformers)
305
+
306
+ First install the Sentence Transformers library:
307
+
308
+ ```bash
309
+ pip install -U sentence-transformers
310
+ ```
311
+
312
+ Then you can load this model and run inference.
313
+ ```python
314
+ from sentence_transformers import SentenceTransformer
315
+
316
+ # Download from the 🤗 Hub
317
+ model = SentenceTransformer("gmunkhtur/finetuned_paraphrase-multilingual")
318
+ # Run inference
319
+ sentences = [
320
+ 'Энэ нийтлэлээс та юу ойлгож авсан бэ?',
321
+ 'news: Нобелийн уран зохиолын шагналтан Элис Мунро "Чи чинь ингэхэд хэн сэн билээ?" Уран зохиолын Нобелийн шагнал ухаарал төрүүлсэн, энгийн, уянгын\xa0 өгүүллэгүүдэд очлоо. Тэр нь өдөөн хатгалт уу эсвэл хүний ердийн амьдралыг сануулсан хэрэг үү? хэмээн РИА Новости агентлагийн улс төрийн тоймч Дмитрий Косырев бичжээ. Фото: AFP 2013/ Peter Muhly РИА Новости агентлаг��йн улс төрийн тоймч Дмитрий Косырев Нобелийн уран зохиолын шагналтан болон шагналын хорооны талаар бичжээ. "Чи чинь ингэхэд хэн сэн билээ?"\xa0 Дөнгөж сая 2013 оны уран зохиолын Нобелийн шагналын эзэн болсон Канадын зохиолч эмэгтэй Элис Мунрогийн өгүүллэгийн нэр юм л даа. Зураглалаа номын дэлгүүрээс үргэлжлүүлье. Уран зохиолд хамаатай Нобелийн хорооны мэдээг тэндээс өөр хаанаас авах билээ? Мэдээж, номын дэлгүүрт. Энэ бол дэлхийн аваргын ямар нэгэн тэмцээний шигшээг спорт-бааранд үзэхтэй адил зүйл билээ. Хөөрөл, хүлээлт, ялагчийг зарласны дараах агшин... Тийм зохиолч гэж байхгүй Ингээд, Москвагийн шилдэг хоёр номын дэлгүүрийн нэгээр',
322
+ 'өнгийн пүүзтэй ямарч өнгийн оймс зохицоно. Пиджакан хослолын доор цагаан өнгийн пүүз өмсөхдөө саарал, хар өнгийн болон саармаг өнгийн оймс өмсвөл илүү зохимжтой. Тод өнгийн өмдөн доор цагаан өнгийн пүүз өмсөхдөө өмднөөсөө илүү тод өнгийн оймсыг өмсөөрэй. Өнгөлөг өнгийн пүүзэнд адилхан өнгийн оймс эсвэл өмсөж буй өмднийхөө өнгөтэй оймс илүү зохино. Ингэхдээ өмднийхөө түрүүг тойгныхоо яс хүртэл нугалж өмсөөрэй. Бүх гутлын оймстой өмсдөг биш бөгөөд зарим нэг гутал оймсгүй өмсвөл илүү гоё харагддаг. \xa0 Slip On Үдээс болон товч байхгүй Slip On гутлыг оймсгүй өмсөхгүйгээр хөлнийхөө ясыг хагадуулж өмсвөл илүү өндөр, зохимжтой харагдуулна. \xa0 Boat Shoes Boat Shoes ч бас оймс өмсөхгүй өмсөөрэй. Дээрээ баантаглаж үдсэн арьсаар хийсэн энэхүү гуталны загвар өөрөө өвөрмөц тул заавал оймс өмсөх шаардлагагүй. Б.СОНИНБИЛЭГ',
323
+ ]
324
+ embeddings = model.encode(sentences)
325
+ print(embeddings.shape)
326
+ # [3, 384]
327
+
328
+ # Get the similarity scores for the embeddings
329
+ similarities = model.similarity(embeddings, embeddings)
330
+ print(similarities.shape)
331
+ # [3, 3]
332
+ ```
333
+
334
+ <!--
335
+ ### Direct Usage (Transformers)
336
+
337
+ <details><summary>Click to see the direct usage in Transformers</summary>
338
+
339
+ </details>
340
+ -->
341
+
342
+ <!--
343
+ ### Downstream Usage (Sentence Transformers)
344
+
345
+ You can finetune this model on your own dataset.
346
+
347
+ <details><summary>Click to expand</summary>
348
+
349
+ </details>
350
+ -->
351
+
352
+ <!--
353
+ ### Out-of-Scope Use
354
+
355
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
356
+ -->
357
+
358
+ ## Evaluation
359
+
360
+ ### Metrics
361
+
362
+ #### Information Retrieval
363
+
364
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
365
+
366
+ | Metric | Value |
367
+ |:--------------------|:-----------|
368
+ | cosine_accuracy@1 | 0.3078 |
369
+ | cosine_accuracy@3 | 0.5128 |
370
+ | cosine_accuracy@5 | 0.6032 |
371
+ | cosine_accuracy@10 | 0.7329 |
372
+ | cosine_precision@1 | 0.3078 |
373
+ | cosine_precision@3 | 0.1709 |
374
+ | cosine_precision@5 | 0.1206 |
375
+ | cosine_precision@10 | 0.0733 |
376
+ | cosine_recall@1 | 0.3078 |
377
+ | cosine_recall@3 | 0.5128 |
378
+ | cosine_recall@5 | 0.6032 |
379
+ | cosine_recall@10 | 0.7329 |
380
+ | **cosine_ndcg@10** | **0.5058** |
381
+ | cosine_mrr@10 | 0.4349 |
382
+ | cosine_map@100 | 0.4462 |
383
+
384
+ <!--
385
+ ## Bias, Risks and Limitations
386
+
387
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
388
+ -->
389
+
390
+ <!--
391
+ ### Recommendations
392
+
393
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
394
+ -->
395
+
396
+ ## Training Details
397
+
398
+ ### Training Dataset
399
+
400
+ #### Unnamed Dataset
401
+
402
+
403
+ * Size: 19,689 training samples
404
+ * Columns: <code>sentence_0</code> and <code>sentence_1</code>
405
+ * Approximate statistics based on the first 1000 samples:
406
+ | | sentence_0 | sentence_1 |
407
+ |:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
408
+ | type | string | string |
409
+ | details | <ul><li>min: 8 tokens</li><li>mean: 17.93 tokens</li><li>max: 43 tokens</li></ul> | <ul><li>min: 41 tokens</li><li>mean: 124.86 tokens</li><li>max: 128 tokens</li></ul> |
410
+ * Samples:
411
+ | sentence_0 | sentence_1 |
412
+ |:----------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
413
+ | <code>"Юрийн галавын үе" киноны амжилтыг юугаар тайлбарлах вэ?</code> | <code>news: Киноны кадраас «Юрийн галавын үе» кино прокатад тавигдсныхаа дараах эхний амралтын өдрөөр хамгийн их орлого оллоо гэж Business Insider хэвлэл мэдээлэв. Хойд Америкт л гэхэд эхний амралтын өдрүүдэд 204,6 сая доллар цуглуулж чадлаа. Гадаад орнуудын үзүүлэлт нь 307,2 сая ам.доллар байв. Нийт кассын орлого 511,8 сая ам.доллар болжээ. Энэхүү үзүүлэлт нь Universal кино компанийн дээд амжилт төдийгүй дэлхийн кино аж үйлдвэрийн томоохон үсрэлт боллоо. Үүнээс өмнө амралтын эхний өдрүүдэд 500 сая долларын босго давсан их мөнгө цуглуулж байсан түүх байхгүй. «Гарри Поттер ба үхлийн тахил: II хэсэг» 483 сая долларын орлого олсноороо хоёрдугаарт явж байна. Universal компанийн дөрөвдүгээр сард гаргасан «Галзуу хурд 7» кино харин эхний амралтын өдрүүдэд 147 сая доллар цуглуулсан юм. Эхний амралтын өдрүүдийн орлого нь кино бизнесийн чухал үзүүлэлт бөгөөд тэр үзүүлэлтээр киноны прокатын хувь заяа шалтгаалдаг. Бэлтгэсэн Ш.МЯГМАР</code> |
414
+ | <code>Энэ киноны амжилт дэлхийн кино үйлдвэрт ямар нөлөө үзүүлэх вэ?</code> | <code>news: Киноны кадраас «Юрийн галавын үе» кино прокатад тавигдсныхаа дараах эхний амралтын өдрөөр хамгийн их орлого оллоо гэж Business Insider хэвлэл мэдээлэв. Хойд Америкт л гэхэд эхний амралтын өдрүүдэд 204,6 сая доллар цуглуулж чадлаа. Гадаад орнуудын үзүүлэлт нь 307,2 сая ам.доллар байв. Нийт кассын орлого 511,8 сая ам.доллар болжээ. Энэхүү үзүүлэлт нь Universal кино компанийн дээд а��жилт төдийгүй дэлхийн кино аж үйлдвэрийн томоохон үсрэлт боллоо. Үүнээс өмнө амралтын эхний өдрүүдэд 500 сая долларын босго давсан их мөнгө цуглуулж байсан түүх байхгүй. «Гарри Поттер ба үхлийн тахил: II хэсэг» 483 сая долларын орлого олсноороо хоёрдугаарт явж байна. Universal компанийн дөрөвдүгээр сард гаргасан «Галзуу хурд 7» кино харин эхний амралтын өдрүүдэд 147 сая доллар цуглуулсан юм. Эхний амралтын өдрүүдийн орлого нь кино бизнесийн чухал үзүүлэлт бөгөөд тэр үзүүлэлтээр киноны прокатын хувь заяа шалтгаалдаг. Бэлтгэсэн Ш.МЯГМАР</code> |
415
+ | <code>Киноны эхний амралтын өдрүүдийн орлого яагаад ийм чухал вэ?</code> | <code>news: Киноны кадраас «Юрийн галавын үе» кино прокатад тавигдсныхаа дараах эхний амралтын өдрөөр хамгийн их орлого оллоо гэж Business Insider хэвлэл мэдээлэв. Хойд Америкт л гэхэд эхний амралтын өдрүүдэд 204,6 сая доллар цуглуулж чадлаа. Гадаад орнуудын үзүүлэлт нь 307,2 сая ам.доллар байв. Нийт кассын орлого 511,8 сая ам.доллар болжээ. Энэхүү үзүүлэлт нь Universal кино компанийн дээд амжилт төдийгүй дэлхийн кино аж үйлдвэрийн томоохон үсрэлт боллоо. Үүнээс өмнө амралтын эхний өдрүүдэд 500 сая долларын босго давсан их мөнгө цуглуулж байсан түүх байхгүй. «Гарри Поттер ба үхлийн тахил: II хэсэг» 483 сая долларын орлого олсноороо хоёрдугаарт явж байна. Universal компанийн дөрөвдүгээр сард гаргасан «Галзуу хурд 7» кино харин эхний амралтын өдрүүдэд 147 сая доллар цуглуулсан юм. Эхний амралтын өдрүүдийн орлого нь кино бизнесийн чухал үзүүлэлт бөгөөд тэр үзүүлэлтээр киноны прокатын хувь заяа шалтгаалдаг. Бэлтгэсэн Ш.МЯГМАР</code> |
416
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
417
+ ```json
418
+ {
419
+ "loss": "MultipleNegativesRankingLoss",
420
+ "matryoshka_dims": [
421
+ 384,
422
+ 256,
423
+ 128,
424
+ 64,
425
+ 32
426
+ ],
427
+ "matryoshka_weights": [
428
+ 1,
429
+ 1,
430
+ 1,
431
+ 1,
432
+ 1
433
+ ],
434
+ "n_dims_per_step": -1
435
+ }
436
+ ```
437
+
438
+ ### Training Hyperparameters
439
+ #### Non-Default Hyperparameters
440
+
441
+ - `eval_strategy`: steps
442
+ - `per_device_train_batch_size`: 20
443
+ - `per_device_eval_batch_size`: 20
444
+ - `num_train_epochs`: 5
445
+ - `multi_dataset_batch_sampler`: round_robin
446
+
447
+ #### All Hyperparameters
448
+ <details><summary>Click to expand</summary>
449
+
450
+ - `overwrite_output_dir`: False
451
+ - `do_predict`: False
452
+ - `eval_strategy`: steps
453
+ - `prediction_loss_only`: True
454
+ - `per_device_train_batch_size`: 20
455
+ - `per_device_eval_batch_size`: 20
456
+ - `per_gpu_train_batch_size`: None
457
+ - `per_gpu_eval_batch_size`: None
458
+ - `gradient_accumulation_steps`: 1
459
+ - `eval_accumulation_steps`: None
460
+ - `torch_empty_cache_steps`: None
461
+ - `learning_rate`: 5e-05
462
+ - `weight_decay`: 0.0
463
+ - `adam_beta1`: 0.9
464
+ - `adam_beta2`: 0.999
465
+ - `adam_epsilon`: 1e-08
466
+ - `max_grad_norm`: 1
467
+ - `num_train_epochs`: 5
468
+ - `max_steps`: -1
469
+ - `lr_scheduler_type`: linear
470
+ - `lr_scheduler_kwargs`: {}
471
+ - `warmup_ratio`: 0.0
472
+ - `warmup_steps`: 0
473
+ - `log_level`: passive
474
+ - `log_level_replica`: warning
475
+ - `log_on_each_node`: True
476
+ - `logging_nan_inf_filter`: True
477
+ - `save_safetensors`: True
478
+ - `save_on_each_node`: False
479
+ - `save_only_model`: False
480
+ - `restore_callback_states_from_checkpoint`: False
481
+ - `no_cuda`: False
482
+ - `use_cpu`: False
483
+ - `use_mps_device`: False
484
+ - `seed`: 42
485
+ - `data_seed`: None
486
+ - `jit_mode_eval`: False
487
+ - `use_ipex`: False
488
+ - `bf16`: False
489
+ - `fp16`: False
490
+ - `fp16_opt_level`: O1
491
+ - `half_precision_backend`: auto
492
+ - `bf16_full_eval`: False
493
+ - `fp16_full_eval`: False
494
+ - `tf32`: None
495
+ - `local_rank`: 0
496
+ - `ddp_backend`: None
497
+ - `tpu_num_cores`: None
498
+ - `tpu_metrics_debug`: False
499
+ - `debug`: []
500
+ - `dataloader_drop_last`: False
501
+ - `dataloader_num_workers`: 0
502
+ - `dataloader_prefetch_factor`: None
503
+ - `past_index`: -1
504
+ - `disable_tqdm`: False
505
+ - `remove_unused_columns`: True
506
+ - `label_names`: None
507
+ - `load_best_model_at_end`: False
508
+ - `ignore_data_skip`: False
509
+ - `fsdp`: []
510
+ - `fsdp_min_num_params`: 0
511
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
512
+ - `fsdp_transformer_layer_cls_to_wrap`: None
513
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
514
+ - `deepspeed`: None
515
+ - `label_smoothing_factor`: 0.0
516
+ - `optim`: adamw_torch
517
+ - `optim_args`: None
518
+ - `adafactor`: False
519
+ - `group_by_length`: False
520
+ - `length_column_name`: length
521
+ - `ddp_find_unused_parameters`: None
522
+ - `ddp_bucket_cap_mb`: None
523
+ - `ddp_broadcast_buffers`: False
524
+ - `dataloader_pin_memory`: True
525
+ - `dataloader_persistent_workers`: False
526
+ - `skip_memory_metrics`: True
527
+ - `use_legacy_prediction_loop`: False
528
+ - `push_to_hub`: False
529
+ - `resume_from_checkpoint`: None
530
+ - `hub_model_id`: None
531
+ - `hub_strategy`: every_save
532
+ - `hub_private_repo`: None
533
+ - `hub_always_push`: False
534
+ - `gradient_checkpointing`: False
535
+ - `gradient_checkpointing_kwargs`: None
536
+ - `include_inputs_for_metrics`: False
537
+ - `include_for_metrics`: []
538
+ - `eval_do_concat_batches`: True
539
+ - `fp16_backend`: auto
540
+ - `push_to_hub_model_id`: None
541
+ - `push_to_hub_organization`: None
542
+ - `mp_parameters`:
543
+ - `auto_find_batch_size`: False
544
+ - `full_determinism`: False
545
+ - `torchdynamo`: None
546
+ - `ray_scope`: last
547
+ - `ddp_timeout`: 1800
548
+ - `torch_compile`: False
549
+ - `torch_compile_backend`: None
550
+ - `torch_compile_mode`: None
551
+ - `dispatch_batches`: None
552
+ - `split_batches`: None
553
+ - `include_tokens_per_second`: False
554
+ - `include_num_input_tokens_seen`: False
555
+ - `neftune_noise_alpha`: None
556
+ - `optim_target_modules`: None
557
+ - `batch_eval_metrics`: False
558
+ - `eval_on_start`: False
559
+ - `use_liger_kernel`: False
560
+ - `eval_use_gather_object`: False
561
+ - `average_tokens_across_devices`: False
562
+ - `prompts`: None
563
+ - `batch_sampler`: batch_sampler
564
+ - `multi_dataset_batch_sampler`: round_robin
565
+
566
+ </details>
567
+
568
+ ### Training Logs
569
+ | Epoch | Step | Training Loss | cosine_ndcg@10 |
570
+ |:------:|:----:|:-------------:|:--------------:|
571
+ | 0.0508 | 50 | - | 0.4036 |
572
+ | 0.1015 | 100 | - | 0.4184 |
573
+ | 0.1523 | 150 | - | 0.4351 |
574
+ | 0.2030 | 200 | - | 0.4522 |
575
+ | 0.2538 | 250 | - | 0.4655 |
576
+ | 0.3046 | 300 | - | 0.4765 |
577
+ | 0.3553 | 350 | - | 0.4813 |
578
+ | 0.4061 | 400 | - | 0.4846 |
579
+ | 0.4569 | 450 | - | 0.4891 |
580
+ | 0.5076 | 500 | 9.2182 | 0.4889 |
581
+ | 0.5584 | 550 | - | 0.4849 |
582
+ | 0.6091 | 600 | - | 0.4872 |
583
+ | 0.6599 | 650 | - | 0.4968 |
584
+ | 0.7107 | 700 | - | 0.4918 |
585
+ | 0.7614 | 750 | - | 0.4893 |
586
+ | 0.8122 | 800 | - | 0.4887 |
587
+ | 0.8629 | 850 | - | 0.4872 |
588
+ | 0.9137 | 900 | - | 0.4915 |
589
+ | 0.9645 | 950 | - | 0.4894 |
590
+ | 1.0 | 985 | - | 0.4954 |
591
+ | 1.0152 | 1000 | 5.9875 | 0.4943 |
592
+ | 1.0660 | 1050 | - | 0.4911 |
593
+ | 1.1168 | 1100 | - | 0.4919 |
594
+ | 1.1675 | 1150 | - | 0.4973 |
595
+ | 1.2183 | 1200 | - | 0.4885 |
596
+ | 1.2690 | 1250 | - | 0.4876 |
597
+ | 1.3198 | 1300 | - | 0.4865 |
598
+ | 1.3706 | 1350 | - | 0.4936 |
599
+ | 1.4213 | 1400 | - | 0.4917 |
600
+ | 1.4721 | 1450 | - | 0.4981 |
601
+ | 1.5228 | 1500 | 4.5015 | 0.5006 |
602
+ | 1.5736 | 1550 | - | 0.4925 |
603
+ | 1.6244 | 1600 | - | 0.4956 |
604
+ | 1.6751 | 1650 | - | 0.4944 |
605
+ | 1.7259 | 1700 | - | 0.4978 |
606
+ | 1.7766 | 1750 | - | 0.4936 |
607
+ | 1.8274 | 1800 | - | 0.4967 |
608
+ | 1.8782 | 1850 | - | 0.4946 |
609
+ | 1.9289 | 1900 | - | 0.4971 |
610
+ | 1.9797 | 1950 | - | 0.4933 |
611
+ | 2.0 | 1970 | - | 0.4950 |
612
+ | 2.0305 | 2000 | 4.1506 | 0.4998 |
613
+ | 2.0812 | 2050 | - | 0.4998 |
614
+ | 2.1320 | 2100 | - | 0.4945 |
615
+ | 2.1827 | 2150 | - | 0.4972 |
616
+ | 2.2335 | 2200 | - | 0.4964 |
617
+ | 2.2843 | 2250 | - | 0.4906 |
618
+ | 2.3350 | 2300 | - | 0.4938 |
619
+ | 2.3858 | 2350 | - | 0.4955 |
620
+ | 2.4365 | 2400 | - | 0.4940 |
621
+ | 2.4873 | 2450 | - | 0.4956 |
622
+ | 2.5381 | 2500 | 3.2896 | 0.4964 |
623
+ | 2.5888 | 2550 | - | 0.4965 |
624
+ | 2.6396 | 2600 | - | 0.5000 |
625
+ | 2.6904 | 2650 | - | 0.4979 |
626
+ | 2.7411 | 2700 | - | 0.5002 |
627
+ | 2.7919 | 2750 | - | 0.4992 |
628
+ | 2.8426 | 2800 | - | 0.5000 |
629
+ | 2.8934 | 2850 | - | 0.5001 |
630
+ | 2.9442 | 2900 | - | 0.5058 |
631
+
632
+
633
+ ### Framework Versions
634
+ - Python: 3.10.12
635
+ - Sentence Transformers: 3.3.1
636
+ - Transformers: 4.47.1
637
+ - PyTorch: 2.5.1+cu121
638
+ - Accelerate: 1.2.1
639
+ - Datasets: 3.2.0
640
+ - Tokenizers: 0.21.0
641
+
642
+ ## Citation
643
+
644
+ ### BibTeX
645
+
646
+ #### Sentence Transformers
647
+ ```bibtex
648
+ @inproceedings{reimers-2019-sentence-bert,
649
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
650
+ author = "Reimers, Nils and Gurevych, Iryna",
651
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
652
+ month = "11",
653
+ year = "2019",
654
+ publisher = "Association for Computational Linguistics",
655
+ url = "https://arxiv.org/abs/1908.10084",
656
+ }
657
+ ```
658
+
659
+ #### MatryoshkaLoss
660
+ ```bibtex
661
+ @misc{kusupati2024matryoshka,
662
+ title={Matryoshka Representation Learning},
663
+ author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
664
+ year={2024},
665
+ eprint={2205.13147},
666
+ archivePrefix={arXiv},
667
+ primaryClass={cs.LG}
668
+ }
669
+ ```
670
+
671
+ #### MultipleNegativesRankingLoss
672
+ ```bibtex
673
+ @misc{henderson2017efficient,
674
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
675
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
676
+ year={2017},
677
+ eprint={1705.00652},
678
+ archivePrefix={arXiv},
679
+ primaryClass={cs.CL}
680
+ }
681
+ ```
682
+
683
+ <!--
684
+ ## Glossary
685
+
686
+ *Clearly define terms in order to be accessible across audiences.*
687
+ -->
688
+
689
+ <!--
690
+ ## Model Card Authors
691
+
692
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
693
+ -->
694
+
695
+ <!--
696
+ ## Model Card Contact
697
+
698
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
699
+ -->
config.json ADDED
@@ -0,0 +1,26 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "finetuned_paraphrase-multilingual",
3
+ "architectures": [
4
+ "BertModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "classifier_dropout": null,
8
+ "gradient_checkpointing": false,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 384,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 1536,
14
+ "layer_norm_eps": 1e-12,
15
+ "max_position_embeddings": 512,
16
+ "model_type": "bert",
17
+ "num_attention_heads": 12,
18
+ "num_hidden_layers": 12,
19
+ "pad_token_id": 0,
20
+ "position_embedding_type": "absolute",
21
+ "torch_dtype": "float32",
22
+ "transformers_version": "4.47.1",
23
+ "type_vocab_size": 2,
24
+ "use_cache": true,
25
+ "vocab_size": 250037
26
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.3.1",
4
+ "transformers": "4.47.1",
5
+ "pytorch": "2.5.1+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:de648113c4c3f28a018d51a83aade94d494e81147c794f0771e3610e96cdbe6c
3
+ size 470637416
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 128,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cad551d5600a84242d0973327029452a1e3672ba6313c2a3c3d69c4310e12719
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,65 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": false,
46
+ "cls_token": "<s>",
47
+ "do_lower_case": true,
48
+ "eos_token": "</s>",
49
+ "extra_special_tokens": {},
50
+ "mask_token": "<mask>",
51
+ "max_length": 128,
52
+ "model_max_length": 128,
53
+ "pad_to_multiple_of": null,
54
+ "pad_token": "<pad>",
55
+ "pad_token_type_id": 0,
56
+ "padding_side": "right",
57
+ "sep_token": "</s>",
58
+ "stride": 0,
59
+ "strip_accents": null,
60
+ "tokenize_chinese_chars": true,
61
+ "tokenizer_class": "BertTokenizer",
62
+ "truncation_side": "right",
63
+ "truncation_strategy": "longest_first",
64
+ "unk_token": "<unk>"
65
+ }
unigram.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:da145b5e7700ae40f16691ec32a0b1fdc1ee3298db22a31ea55f57a966c4a65d
3
+ size 14763260