nanalysenko's picture
Upload 10 files
afd9806 verified
metadata
base_model: DeepPavlov/rubert-base-cased-sentence
datasets: []
language: []
library_name: sentence-transformers
pipeline_tag: sentence-similarity
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:29127
  - loss:MultipleNegativesRankingLoss
widget:
  - source_sentence: >-
      Медицинское освидетельствование на состояние опьянения

      (алкогольное, наркотическое и иное токсическое согласно приказу МЗ РФ 
      933н от

      18.12.2015г.)
    sentences:
      - >-
        Патолого-анатомическое исследование биопсийного (операционного)
        материала матки, придатков, стенки кишки
      - >-
        Медицинское освидетельствование на состояние опьянения (алкогольного,
        наркотического или иного токсического)
      - Определение содержания антител к эндомизию в крови
  - source_sentence: УЗИ придаточных (верхнечелюстных) пазух
    sentences:
      - Рентгенография позвоночника, вертикальная
      - Прием (осмотр, консультация) врача-офтальмолога первичный
      - Ультразвуковое исследование околоносовых пазух
  - source_sentence: Прием (осмотр, консультация) врача-челюстно-лицевого хирурга повторный
    sentences:
      - Магнитно-резонансная томография шеи
      - Тимпанометрия
      - Прием (осмотр, консультация) врача-челюстно-лицевого хирурга повторный
  - source_sentence: (200) АЛТ (аланинаминотрансфераза)
    sentences:
      - Определение активности аланинаминотрансферазы в крови
      - Рентгенография грудного и поясничного отдела позвоночника
      - >-
        Анализ спектра органических кислот мочи методом газовой хроматографии с
        масс-спектрометрией
  - source_sentence: Витамин 25(OH)D2 и 25(OH)D3, раздельное определение (ВЭЖХ - МС/МС)
    sentences:
      - Исследование уровня 25-OH витамина Д в крови
      - Определение содержания антител к париетальным клеткам желудка
      - Прием (осмотр, консультация) врача-детского хирурга повторный

SentenceTransformer based on DeepPavlov/rubert-base-cased-sentence

This is a sentence-transformers model finetuned from DeepPavlov/rubert-base-cased-sentence. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: DeepPavlov/rubert-base-cased-sentence
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    'Витамин 25(OH)D2 и 25(OH)D3, раздельное определение (ВЭЖХ - МС/МС)',
    'Исследование уровня 25-OH витамина Д в крови',
    'Определение содержания антител к париетальным клеткам желудка',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 29,127 training samples
  • Columns: sentence_0 and sentence_1
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1
    type string string
    details
    • min: 4 tokens
    • mean: 19.98 tokens
    • max: 110 tokens
    • min: 5 tokens
    • mean: 17.0 tokens
    • max: 60 tokens
  • Samples:
    sentence_0 sentence_1
    Ультразвуковое исследование органов малого таза
    (комплексное)
    Ультразвуковое исследование органов малого таза
    МРТ головного мозга (исследование структуры головного мозга) Магнитно-резонансная томография головного мозга с контрастированием
    Антитела к лямблиям (Lamblia intestinalis), суммарные Определение антител классов A, M, G (IgM, IgA, IgG) к лямблиям в крови
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • num_train_epochs: 11
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 11
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin

Training Logs

Epoch Step Training Loss
0.5488 500 0.8526
1.0977 1000 0.3415
1.6465 1500 0.2691
2.1954 2000 0.218
2.7442 2500 0.188
3.2931 3000 0.1725
3.8419 3500 0.1533
4.3908 4000 0.1508
4.9396 4500 0.1391
5.4885 5000 0.1311
6.0373 5500 0.1284
6.5862 6000 0.122
7.1350 6500 0.1163
7.6839 7000 0.1102
8.2327 7500 0.1068
8.7816 8000 0.1046
9.3304 8500 0.1018
9.8793 9000 0.0987
10.4281 9500 0.0983
10.9769 10000 0.0971

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.0.1
  • Transformers: 4.41.2
  • PyTorch: 2.3.0+cu121
  • Accelerate: 0.32.1
  • Datasets: 2.20.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply}, 
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}