matunderstars's picture
Add new SentenceTransformer model
d7ad29a verified
metadata
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:200
  - loss:MultipleNegativesRankingLoss
base_model: sentence-transformers/all-MiniLM-L6-v2
widget:
  - source_sentence: Como alterar a senha única?
    sentences:
      - Siga as instruções em https://senha.ufes.br/site/alteraSenha.
      - >-
        Após a viagem, no prazo máximo de 05 (cinco) dias úteis de seu retorno é
        necessário prestar contas da viagem realizada, mesmo que sem a
        solicitação de diárias e passagens, sob pena de ficar impossibilitado de
        receber novas concessões até que a pendência seja regularizada junto ao
        SCDP.


        Para isso, é necessário anexar ao processo os seguintes documentos:


        1. Relatório de Viagem (preenchido e assinado);

        2. Bilhete(s) de passagem(ns) aérea(s) (caso tenha solicitado passagens)
        ou;

        3. Declaração da empresa de transporte (quando for o caso) ou;

        4. Recibo de check-in emitido digitalmente pela companhia aérea ou
        declaração fornecida pela mesma (quando for o caso);

        5. Certificado ou Declaração de participação.


        Assim que anexados ao processo, este deve ser enviado à DCFN para baixa
        no SCDP e posterior arquivamento.


        Procedimentos, formulários, dúvidas e orientações estão disponíveis em:

        https://gestaoadministrativa.saomateus.ufes.br/procedimentos-necessarios-para-solicitacao-de-diarias-e-passagens-aereas-no-ambito-do-ceunesufes
      - Envie um e-mail para [email protected] para agendar o atendimento.
  - source_sentence: Acesso a impressoras e computadores
    sentences:
      - Acesse o manual em https://drm.saomateus.ufes.br.
      - >-
        Informações sobre pagamento de notas fiscais a fornecedor entrar em
        contato com a DCFN (Divisão de Contabilidade e Finanças)


        E-mail institucional do setor: [email protected]


        Telefones: 3312-1517 e 3312-1518


        Demais informações acesse o site:
        https://www.gestaoadministrativa.saomateus.ufes.br/apresentacao
      - >-
        Para obter acesso a impressoras e computadores da UFES, envie uma
        solicitação ao setor de TI, especificando os dispositivos necessários.
  - source_sentence: Formatação de computador
    sentences:
      - >-
        A formatação de computadores deve ser solicitada diretamente ao suporte
        de TI, que avaliará a necessidade de backup e reinstalação dos sistemas
        operacionais.
      - Siga as orientações em https://senha.ufes.br/site/recuperaCredenciais.
      - Acesse https://drm.saomateus.ufes.br/comissao-de-inventario.
  - source_sentence: PC sem acesso ao sistema e rede do ceunes
    sentences:
      - >-
        Problemas de acesso aos sistemas e rede do CEUNES podem estar
        relacionados às configurações de rede. Entre em contato com o suporte de
        TI em https://atendimento.ufes.br para verificar e resolver.
      - >-
        O cronograma está disponível no link
        https://progep.ufes.br/exames-periodicos. A coleta dos exames
        laboratoriais será realizada conforme cronograma, das 07h30min às 10:30,
        na Sala de reuniões, prédio da SUGRAD. Esteja atento ao seu e-mail
        institucional.
      - >-
        Para instalar uma impressora, solicite o serviço ao suporte de TI em
        https://atendimento.ufes.br, que poderá auxiliar com a instalação e
        configuração do equipamento.
  - source_sentence: >-
      Como atualizar o cadastro no Proaes em caso de alteração de
      renda/composição familiar?
    sentences:
      - >-
        Acesse https://drm.saomateus.ufes.br → Patrimônio → Agentes
        Patrimoniais.
      - >-
        Envie um e-mail para [email protected] para agendar atendimento
        social na DASAS.
      - Acesse https://senha.ufes.br/site/recuperaCredenciais.
datasets:
  - matunderstars/ufes-qa-data
pipeline_tag: sentence-similarity
library_name: sentence-transformers

SentenceTransformer based on sentence-transformers/all-MiniLM-L6-v2

This is a sentence-transformers model finetuned from sentence-transformers/all-MiniLM-L6-v2 on the train and test datasets. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("matunderstars/ufes-qa-embedding-finetuned-v2.1")
# Run inference
sentences = [
    'Como atualizar o cadastro no Proaes em caso de alteração de renda/composição familiar?',
    'Envie um e-mail para [email protected] para agendar atendimento social na DASAS.',
    'Acesse https://senha.ufes.br/site/recuperaCredenciais.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Datasets

train

  • Dataset: train at 02bfedf
  • Size: 100 training samples
  • Columns: question and answer
  • Approximate statistics based on the first 100 samples:
    question answer
    type string string
    details
    • min: 7 tokens
    • mean: 18.3 tokens
    • max: 45 tokens
    • min: 14 tokens
    • mean: 54.23 tokens
    • max: 256 tokens
  • Samples:
    question answer
    Qual é o horário de funcionamento do setor DCFN (Divisão de Contabilidade e Finanças)? Demais informações acesse o site: https://www.gestaoadministrativa.saomateus.ufes.br/apresentacao
    Como incluir itens no catálogo de materiais? Acesse https://compras.ufes.br/inclusao-de-produto-no-catalogo-de-materiais.
    Fiz exames laboratoriais recentemente, devo coletar novamente? Caso você já tenha realizado os mesmos exames laboratoriais nos últimos 6 meses, favor entrar em contato com o Setor de Enfermagem da DASAS pelo email [email protected] ou compareça presencialmente no Setor para maiores esclarecimentos.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

test

  • Dataset: test at 02bfedf
  • Size: 100 training samples
  • Columns: question and answer
  • Approximate statistics based on the first 100 samples:
    question answer
    type string string
    details
    • min: 9 tokens
    • mean: 17.15 tokens
    • max: 32 tokens
    • min: 21 tokens
    • mean: 54.6 tokens
    • max: 219 tokens
  • Samples:
    question answer
    Como solicitar atendimento psicológico? Envie um e-mail para [email protected] ou compareça presencialmente na DASAS para agendamento.
    Como saber o dia da coleta de exames? O cronograma está disponível no link https://progep.ufes.br/exames-periodicos. A coleta dos exames laboratoriais será realizada conforme cronograma, das 07h30min às 10:30, na Sala de reuniões, prédio da SUGRAD. Esteja atento ao seu e-mail institucional.
    Como solicitar palestras/rodas de conversa sobre questões de cunho psicoemocional? Envie um e-mail para [email protected] para solicitar participação/contribuição em evento.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • num_train_epochs: 180
  • warmup_ratio: 0.1
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 180
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss
71.4286 500 0.1428
142.8571 1000 0.0001

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.3.1
  • Transformers: 4.46.3
  • PyTorch: 2.5.1+cu121
  • Accelerate: 1.1.1
  • Datasets: 3.2.0
  • Tokenizers: 0.20.3

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}