SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2

This is a sentence-transformers model finetuned from sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("gmunkhtur/finetuned_paraphrase-multilingual_v3")
# Run inference
sentences = [
    'Номын нэр ямар утгатай вэ?',
    'news: Монгол Улсын Соёлын гавьяат зүтгэлтэн яруу найрагч Санжаажавын Оюун “Ижилгүй цоохор морь” хэмээх үргэлжилсэн үгийн шинэ номоо өлгийдөн авчээ. Түүний энэ удаагийн номыг яруу найрагч Д.Баянтунгалаг ариутган шүүсэн бөгөөд “Мөнхийн үсэг” компанид хэвлүүлсэн байна. Энэхүү номдоо тэрээр “Костюмт багш”, “Бурханы унаа”, “Би цоохор морь” зэрэг 11 бүтээлээ уншигч олондоо дэлгэн барьжээ. Булган аймгийн Могод сумын харьяат яруу найрагч С.Оюуныг уншигч олон “Хорвоод ганцхан ээждээ”, “Үнсье чамайгаа” зэрэг олон сайхан дуу, “Тань руу нүүж явна” кино зохиол зэргээр нь сайн таних юм. Т.ДАРХАН',
    'news: Бүх цаг үеэс сонгосон дэлхийн яруу найргийн дээж “Гурван зуун шүлэгт” антологи хэвлэгдэн уншигчдын гарт очлоо. Энэ антологийг эмхэтгэж сонголт хийсэн Соёлын гавьяат зүтгэлэн, яруу найраг Г.Мэнд-Ооёотой ярилцлаа. -Та саяхан “Бүх цаг үеэс сонгосон дэлхийн яруу найргийн дээж ГУРВАН ЗУУН ШҮЛЭГТ” нэртэй антологи гаргасан байна? Ийм антологи хийхэд мэдээж нилээд их цаг хугацаа, хүч хөдөлмөр орох байх? -Тиймээ. Би шүлэг зохиолд хорхойсч байх үеэсээ л өөрт сайхан санагдсан шүлгүүдийг тусгай дэвтэрт бичиж, түүнээ үе үе уншиж урам зориг авдаг байсан. Аандаа уг дэвтэр маань олон зуун шүлэгтэй болсон. Тэр ногоон дэвтэр энэ антологийн эхлэл юм. 2005 оноос эхлээд би “Дэлхийн шилдэг яруу найраг” нэртэй цуврал антологиуд хэвлүүлж эхэлсэн. “Оросын яруу найраг”, “Японы яруу найраг”, “Энэтхэгийн яруу найраг”, “Хятадын яруу найраг”, “Америкийн яруу найраг” гээд 10 ботийг гаргаад байгаа л даа. Цуврал маань цааш үргэлжилнэ. Ингээд би өөртөө яруу найргийн нилээд баялаг сан хөмрөгтэй болж, үүнийхээ',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.2557
cosine_accuracy@3 0.4155
cosine_accuracy@5 0.4851
cosine_accuracy@10 0.5889
cosine_precision@1 0.2557
cosine_precision@3 0.1385
cosine_precision@5 0.097
cosine_precision@10 0.0589
cosine_recall@1 0.2557
cosine_recall@3 0.4155
cosine_recall@5 0.4851
cosine_recall@10 0.5889
cosine_ndcg@10 0.4101
cosine_mrr@10 0.3543
cosine_map@100 0.3665

Training Details

Training Dataset

Unnamed Dataset

  • Size: 26,619 training samples
  • Columns: sentence_0 and sentence_1
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1
    type string string
    details
    • min: 8 tokens
    • mean: 17.93 tokens
    • max: 43 tokens
    • min: 41 tokens
    • mean: 124.86 tokens
    • max: 128 tokens
  • Samples:
    sentence_0 sentence_1
    "Юрийн галавын үе" киноны амжилтыг юугаар тайлбарлах вэ? news: Киноны кадраас «Юрийн галавын үе» кино прокатад тавигдсныхаа дараах эхний амралтын өдрөөр хамгийн их орлого оллоо гэж Business Insider хэвлэл мэдээлэв. Хойд Америкт л гэхэд эхний амралтын өдрүүдэд 204,6 сая доллар цуглуулж чадлаа. Гадаад орнуудын үзүүлэлт нь 307,2 сая ам.доллар байв. Нийт кассын орлого 511,8 сая ам.доллар болжээ. Энэхүү үзүүлэлт нь Universal кино компанийн дээд амжилт төдийгүй дэлхийн кино аж үйлдвэрийн томоохон үсрэлт боллоо. Үүнээс өмнө амралтын эхний өдрүүдэд 500 сая долларын босго давсан их мөнгө цуглуулж байсан түүх байхгүй. «Гарри Поттер ба үхлийн тахил: II хэсэг» 483 сая долларын орлого олсноороо хоёрдугаарт явж байна. Universal компанийн дөрөвдүгээр сард гаргасан «Галзуу хурд 7» кино харин эхний амралтын өдрүүдэд 147 сая доллар цуглуулсан юм. Эхний амралтын өдрүүдийн орлого нь кино бизнесийн чухал үзүүлэлт бөгөөд тэр үзүүлэлтээр киноны прокатын хувь заяа шалтгаалдаг. Бэлтгэсэн Ш.МЯГМАР
    Энэ киноны амжилт дэлхийн кино үйлдвэрт ямар нөлөө үзүүлэх вэ? news: Киноны кадраас «Юрийн галавын үе» кино прокатад тавигдсныхаа дараах эхний амралтын өдрөөр хамгийн их орлого оллоо гэж Business Insider хэвлэл мэдээлэв. Хойд Америкт л гэхэд эхний амралтын өдрүүдэд 204,6 сая доллар цуглуулж чадлаа. Гадаад орнуудын үзүүлэлт нь 307,2 сая ам.доллар байв. Нийт кассын орлого 511,8 сая ам.доллар болжээ. Энэхүү үзүүлэлт нь Universal кино компанийн дээд амжилт төдийгүй дэлхийн кино аж үйлдвэрийн томоохон үсрэлт боллоо. Үүнээс өмнө амралтын эхний өдрүүдэд 500 сая долларын босго давсан их мөнгө цуглуулж байсан түүх байхгүй. «Гарри Поттер ба үхлийн тахил: II хэсэг» 483 сая долларын орлого олсноороо хоёрдугаарт явж байна. Universal компанийн дөрөвдүгээр сард гаргасан «Галзуу хурд 7» кино харин эхний амралтын өдрүүдэд 147 сая доллар цуглуулсан юм. Эхний амралтын өдрүүдийн орлого нь кино бизнесийн чухал үзүүлэлт бөгөөд тэр үзүүлэлтээр киноны прокатын хувь заяа шалтгаалдаг. Бэлтгэсэн Ш.МЯГМАР
    Киноны эхний амралтын өдрүүдийн орлого яагаад ийм чухал вэ? news: Киноны кадраас «Юрийн галавын үе» кино прокатад тавигдсныхаа дараах эхний амралтын өдрөөр хамгийн их орлого оллоо гэж Business Insider хэвлэл мэдээлэв. Хойд Америкт л гэхэд эхний амралтын өдрүүдэд 204,6 сая доллар цуглуулж чадлаа. Гадаад орнуудын үзүүлэлт нь 307,2 сая ам.доллар байв. Нийт кассын орлого 511,8 сая ам.доллар болжээ. Энэхүү үзүүлэлт нь Universal кино компанийн дээд амжилт төдийгүй дэлхийн кино аж үйлдвэрийн томоохон үсрэлт боллоо. Үүнээс өмнө амралтын эхний өдрүүдэд 500 сая долларын босго давсан их мөнгө цуглуулж байсан түүх байхгүй. «Гарри Поттер ба үхлийн тахил: II хэсэг» 483 сая долларын орлого олсноороо хоёрдугаарт явж байна. Universal компанийн дөрөвдүгээр сард гаргасан «Галзуу хурд 7» кино харин эхний амралтын өдрүүдэд 147 сая доллар цуглуулсан юм. Эхний амралтын өдрүүдийн орлого нь кино бизнесийн чухал үзүүлэлт бөгөөд тэр үзүүлэлтээр киноны прокатын хувь заяа шалтгаалдаг. Бэлтгэсэн Ш.МЯГМАР
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            384,
            256,
            128,
            64,
            32
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 20
  • per_device_eval_batch_size: 20
  • num_train_epochs: 15
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 20
  • per_device_eval_batch_size: 20
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 15
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin

Training Logs

Click to expand
Epoch Step Training Loss cosine_ndcg@10
0.0376 50 - 0.2937
0.0751 100 - 0.3049
0.1127 150 - 0.3175
0.1503 200 - 0.3277
0.1878 250 - 0.3382
0.2254 300 - 0.3472
0.2630 350 - 0.3585
0.3005 400 - 0.3635
0.3381 450 - 0.3666
0.3757 500 9.7164 0.3697
0.4132 550 - 0.3739
0.4508 600 - 0.3788
0.4884 650 - 0.3799
0.5259 700 - 0.3825
0.5635 750 - 0.3828
0.6011 800 - 0.3852
0.6386 850 - 0.3889
0.6762 900 - 0.3873
0.7137 950 - 0.3863
0.7513 1000 6.4327 0.3925
0.7889 1050 - 0.3913
0.8264 1100 - 0.3910
0.8640 1150 - 0.3941
0.9016 1200 - 0.3936
0.9391 1250 - 0.3907
0.9767 1300 - 0.3969
1.0 1331 - 0.3952
1.0143 1350 - 0.3973
1.0518 1400 - 0.3955
1.0894 1450 - 0.4016
1.1270 1500 5.0976 0.3987
1.1645 1550 - 0.3993
1.2021 1600 - 0.4001
1.2397 1650 - 0.4028
1.2772 1700 - 0.3989
1.3148 1750 - 0.3980
1.3524 1800 - 0.4015
1.3899 1850 - 0.3999
1.4275 1900 - 0.3983
1.4651 1950 - 0.3978
1.5026 2000 4.429 0.4002
1.5402 2050 - 0.3992
1.5778 2100 - 0.4045
1.6153 2150 - 0.4075
1.6529 2200 - 0.4062
1.6905 2250 - 0.4055
1.7280 2300 - 0.4045
1.7656 2350 - 0.4107
1.8032 2400 - 0.4114
1.8407 2450 - 0.4058
1.8783 2500 4.0496 0.4097
1.9159 2550 - 0.4049
1.9534 2600 - 0.4065
1.9910 2650 - 0.4114
2.0 2662 - 0.4093
2.0285 2700 - 0.4091
2.0661 2750 - 0.4094
2.1037 2800 - 0.4085
2.1412 2850 - 0.4140
2.1788 2900 - 0.4117
2.2164 2950 - 0.4131
2.2539 3000 3.3969 0.4129
2.2915 3050 - 0.4146
2.3291 3100 - 0.4125
2.3666 3150 - 0.4105
2.4042 3200 - 0.4070
2.4418 3250 - 0.4025
2.4793 3300 - 0.4136
2.5169 3350 - 0.4073
2.5545 3400 - 0.4051
2.5920 3450 - 0.4066
2.6296 3500 3.0771 0.4118
2.6672 3550 - 0.4098
2.7047 3600 - 0.4090
2.7423 3650 - 0.4083
2.7799 3700 - 0.4066
2.8174 3750 - 0.4057
2.8550 3800 - 0.4053
2.8926 3850 - 0.4047
2.9301 3900 - 0.4048
2.9677 3950 - 0.4081
3.0 3993 - 0.4074
3.0053 4000 2.9716 0.4082
3.0428 4050 - 0.4109
3.0804 4100 - 0.4082
3.1180 4150 - 0.4092
3.1555 4200 - 0.4083
3.1931 4250 - 0.4066
3.2307 4300 - 0.4120
3.2682 4350 - 0.4069
3.3058 4400 - 0.4084
3.3434 4450 - 0.4109
3.3809 4500 2.4447 0.4093
3.4185 4550 - 0.4067
3.4560 4600 - 0.4105
3.4936 4650 - 0.4114
3.5312 4700 - 0.4122
3.5687 4750 - 0.4087
3.6063 4800 - 0.4032
3.6439 4850 - 0.4047
3.6814 4900 - 0.4060
3.7190 4950 - 0.4069
3.7566 5000 2.4886 0.4054
3.7941 5050 - 0.4052
3.8317 5100 - 0.4076
3.8693 5150 - 0.4078
3.9068 5200 - 0.4105
3.9444 5250 - 0.4121
3.9820 5300 - 0.4099
4.0 5324 - 0.4094
4.0195 5350 - 0.4110
4.0571 5400 - 0.4107
4.0947 5450 - 0.4095
4.1322 5500 2.286 0.4093
4.1698 5550 - 0.4103
4.2074 5600 - 0.4060
4.2449 5650 - 0.4085
4.2825 5700 - 0.4075
4.3201 5750 - 0.4081
4.3576 5800 - 0.4092
4.3952 5850 - 0.4077
4.4328 5900 - 0.4058
4.4703 5950 - 0.4083
4.5079 6000 2.0519 0.4032
4.5455 6050 - 0.4080
4.5830 6100 - 0.4108
4.6206 6150 - 0.4091
4.6582 6200 - 0.4089
4.6957 6250 - 0.4097
4.7333 6300 - 0.4061
4.7708 6350 - 0.4100
4.8084 6400 - 0.4080
4.8460 6450 - 0.4087
4.8835 6500 2.0873 0.4040
4.9211 6550 - 0.4090
4.9587 6600 - 0.4123
4.9962 6650 - 0.4095
5.0 6655 - 0.4103
5.0338 6700 - 0.4113
5.0714 6750 - 0.4062
5.1089 6800 - 0.4075
5.1465 6850 - 0.4061
5.1841 6900 - 0.4083
5.2216 6950 - 0.4091
5.2592 7000 1.8234 0.4058
5.2968 7050 - 0.4068
5.3343 7100 - 0.4108
5.3719 7150 - 0.4122
5.4095 7200 - 0.4067
5.4470 7250 - 0.4109
5.4846 7300 - 0.4069
5.5222 7350 - 0.4093
5.5597 7400 - 0.4015
5.5973 7450 - 0.4028
5.6349 7500 1.7477 0.4044
5.6724 7550 - 0.4040
5.7100 7600 - 0.4037
5.7476 7650 - 0.4051
5.7851 7700 - 0.4070
5.8227 7750 - 0.4078
5.8603 7800 - 0.4082
5.8978 7850 - 0.4064
5.9354 7900 - 0.4076
5.9730 7950 - 0.4080
6.0 7986 - 0.4103
6.0105 8000 1.7771 0.4086
6.0481 8050 - 0.4063
6.0856 8100 - 0.4055
6.1232 8150 - 0.4064
6.1608 8200 - 0.4048
6.1983 8250 - 0.4066
6.2359 8300 - 0.4079
6.2735 8350 - 0.4092
6.3110 8400 - 0.4068
6.3486 8450 - 0.4075
6.3862 8500 1.501 0.4054
6.4237 8550 - 0.4084
6.4613 8600 - 0.4056
6.4989 8650 - 0.4082
6.5364 8700 - 0.4065
6.5740 8750 - 0.4059
6.6116 8800 - 0.4065
6.6491 8850 - 0.4022
6.6867 8900 - 0.4028
6.7243 8950 - 0.4045
6.7618 9000 1.5318 0.4066
6.7994 9050 - 0.4064
6.8370 9100 - 0.4078
6.8745 9150 - 0.4043
6.9121 9200 - 0.4042
6.9497 9250 - 0.4026
6.9872 9300 - 0.4073
7.0 9317 - 0.4088
7.0248 9350 - 0.4074
7.0624 9400 - 0.4093
7.0999 9450 - 0.4103
7.1375 9500 1.5072 0.4074
7.1751 9550 - 0.4097
7.2126 9600 - 0.4074
7.2502 9650 - 0.4059
7.2878 9700 - 0.4045
7.3253 9750 - 0.4056
7.3629 9800 - 0.4075
7.4005 9850 - 0.4077
7.4380 9900 - 0.4058
7.4756 9950 - 0.4074
7.5131 10000 1.3566 0.4064
7.5507 10050 - 0.4038
7.5883 10100 - 0.4078
7.6258 10150 - 0.4072
7.6634 10200 - 0.4094
7.7010 10250 - 0.4100
7.7385 10300 - 0.4106
7.7761 10350 - 0.4087
7.8137 10400 - 0.4104
7.8512 10450 - 0.4086
7.8888 10500 1.3677 0.4079
7.9264 10550 - 0.4095
7.9639 10600 - 0.4082
8.0 10648 - 0.4106
8.0015 10650 - 0.4101
8.0391 10700 - 0.4101
8.0766 10750 - 0.4118
8.1142 10800 - 0.4110
8.1518 10850 - 0.4085
8.1893 10900 - 0.4086
8.2269 10950 - 0.4088
8.2645 11000 1.2968 0.4083
8.3020 11050 - 0.4077
8.3396 11100 - 0.4064
8.3772 11150 - 0.4069
8.4147 11200 - 0.4063
8.4523 11250 - 0.4071
8.4899 11300 - 0.4059
8.5274 11350 - 0.4078
8.5650 11400 - 0.4067
8.6026 11450 - 0.4073
8.6401 11500 1.2523 0.4078
8.6777 11550 - 0.4063
8.7153 11600 - 0.4058
8.7528 11650 - 0.4066
8.7904 11700 - 0.4065
8.8279 11750 - 0.4067
8.8655 11800 - 0.4067
8.9031 11850 - 0.4063
8.9406 11900 - 0.4073
8.9782 11950 - 0.4077
9.0 11979 - 0.4071
9.0158 12000 1.2947 0.4067
9.0533 12050 - 0.4065
9.0909 12100 - 0.4052
9.1285 12150 - 0.4048
9.1660 12200 - 0.4058
9.2036 12250 - 0.4069
9.2412 12300 - 0.4059
9.2787 12350 - 0.4065
9.3163 12400 - 0.4080
9.3539 12450 - 0.4074
9.3914 12500 1.1852 0.4084
9.4290 12550 - 0.4089
9.4666 12600 - 0.4085
9.5041 12650 - 0.4092
9.5417 12700 - 0.4085
9.5793 12750 - 0.4086
9.6168 12800 - 0.4087
9.6544 12850 - 0.4084
9.6920 12900 - 0.4091
9.7295 12950 - 0.4091
9.7671 13000 1.1745 0.4089
9.8047 13050 - 0.4082
9.8422 13100 - 0.4087
9.8798 13150 - 0.4088
9.9174 13200 - 0.4089
9.9549 13250 - 0.4089
9.9925 13300 - 0.4090
10.0 13310 - 0.4090
0.0751 100 - 0.4084
0.1503 200 - 0.4080
0.2254 300 - 0.4075
0.3005 400 - 0.4065
0.3757 500 1.1459 0.4061
0.4508 600 - 0.4052
0.5259 700 - 0.4079
0.6011 800 - 0.4081
0.6762 900 - 0.4076
0.7513 1000 1.0709 0.4079
0.8264 1100 - 0.4059
0.9016 1200 - 0.4075
0.9767 1300 - 0.4056
1.0 1331 - 0.4066
1.0518 1400 - 0.4101

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.3.1
  • Transformers: 4.47.1
  • PyTorch: 2.5.1+cu121
  • Accelerate: 1.2.1
  • Datasets: 3.2.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
11
Safetensors
Model size
118M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for gmunkhtur/finetuned_paraphrase-multilingual_v3

Evaluation results