anhtuansh's picture
Add new SentenceTransformer model
10bf037 verified
metadata
base_model: Alibaba-NLP/gte-multilingual-base
library_name: sentence-transformers
metrics:
  - cosine_accuracy@1
  - cosine_accuracy@3
  - cosine_accuracy@5
  - cosine_accuracy@10
  - cosine_precision@1
  - cosine_precision@3
  - cosine_precision@5
  - cosine_precision@10
  - cosine_recall@1
  - cosine_recall@3
  - cosine_recall@5
  - cosine_recall@10
  - cosine_ndcg@10
  - cosine_mrr@10
  - cosine_map@100
pipeline_tag: sentence-similarity
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:10200
  - loss:MatryoshkaLoss
  - loss:MultipleNegativesRankingLoss
widget:
  - source_sentence: >-
      1.500.000 ( một triệu năm trăm_nghìn ) đồng / giấy_phép ( theo quy_định
      tại khoản b điều 4 thông_tư số 143 / 2016 / tt - btc ngày 26 / 9 / 2016
      của bộ tài_chính , có hiệu_lực thi_hành kể từ ngày 01 / 01 / 2017 ) .
    sentences:
      - >-
        phí lệ_phí của thủ_tục : thủ_tục cấp lại giấy_phép thành_lập văn_phòng
        đại_diện của thương_nhân nước_ngoài tại việt_nam là bao_nhiêu ?
      - khi nào người giải_quyết tố_cáo tạm đình_chỉ việc giải_quyết tố_cáo ?
      - >-
        người điều_khiển , người đi trên phương_tiện , phương_tiện xuất_cảnh ,
        nhập_cảnh qua cửa_khẩu biên_giới đất_liền phải thực_hiện thủ_tục
        biên_phòng điện_tử như thế_nào ?
  - source_sentence: |-
      bước 1 : tổ_chức sử_dụng đất chuẩn_bị hồ_sơ theo quy_định của pháp_luật ; 
       bước 2 : tổ_chức sử_dụng đất nộp hồ_sơ tại bộ_phận hành_chính công về tài_nguyên và môi_trường của ban quản_lý khu kinh_tế quảng_ninh tại trung_tâm phục_vụ hành_chính công tỉnh ; 
       bước 3 : cán_bộ bộ_phận hành_chính công về tài_nguyên và môi_trường kiểm_tra hồ_sơ và trao giấy tiếp_nhận hồ_sơ cho nhà đầu_tư ; 
       bước 4 : tổ_chức sử_dụng đất căn_cứ thời_gian ghi trên giấy tiếp_nhận hồ_sơ đến trung_tâm phục_vụ hành_chính công_nhận kết_quả .
    sentences:
      - >-
        khiếu_nại quyết_định kỷ_luật cán_bộ , công_chức được thực_hiện trong
        trường_hợp nào ?
      - >-
        trình_tự thực_hiện của thủ_tục : thủ_tục miễn , giảm tiền thuê đất trong
        khu kinh_tế ( trừ khu kinh_tế vân_đồn ) là gì ?
      - >-
        trường_hợp đã hết thời_hiệu yêu_cầu thi_hành án , đề_nghị khôi_phục
        thời_hiệu thi_hành án cần những thủ_tục gì ?
  - source_sentence: >-
      theo quy_định tại nghị_định số 91 / 2017 / nđ - cp ngày 31 / 7 / 2017 của
      chính_phủ quy_định chi_tiết thi_hành luật sửa_đổi , bổ_sung một_số điều
      của luật thi_đua , khen_thưởng năm 2013 : 
       trong thời_hạn 20 ngày_ngày làm_việc ( 30 ngày làm_việc đối_với trường_hợp phải lấy ý_kiến hiệp y ) kể từ ngày nhận đủ hồ_sơ theo quy_định , trưởng ban ban thi_đua - khen_thưởng trung_ương trình thủ_tướng chính_phủ xem_xét , quyết_định ; 
       sau khi nhận được quyết_định khen_thưởng của thủ_tướng chính_phủ , trong thời_hạn 10 ngày làm_việc , ban thi_đua - khen_thưởng trung_ương sao quyết_định và thông_báo kết_quả khen_thưởng cho bộ , ban , ngành , tỉnh , đoàn_thể trung_ương trình khen_thưởng ; 
       sau khi nhận được quyết_định khen_thưởng của cấp có thẩm_quyền , trong thời_hạn 10 ngày làm_việc , cơ_quan trình khen_thưởng thông_báo và gửi kết_quả khen_thưởng cho các trường_hợp được khen_thưởng ; 
       đối_với các trường_hợp không đủ điều_kiện , tiêu_chuẩn , hồ_sơ theo quy_định , trong thời_hạn 10ngày làm_việc kể từ ngày nhận đủ hồ_sơ theo quy_định , ban thi_đua - khen_thưởng trung_ương thông_báo bằng văn_bản cho bộ , ban , ngành , tỉnh , đoàn_thể trung_ương trình khen_thưởng .
    sentences:
      - >-
        yêu_cầu về xác_nhận quá_trình thực_hành trong cấp chứng_chỉ hành_nghề
        khám chữa bệnh là gì ?
      - >-
        đề_nghị cho biết thời_hạn thực_hiện thủ_tục tặng_thưởng " cờ thi_đua của
        chính_phủ " về thành_tích thi_đua theo đợt hoặc chuyên_đề
      - >-
        vợ_chồng tôi năm nay được 38 tuổi , nghề_nghiệp là nông_dân . vợ_chồng
        tôi muốn tham_gia bhxh tự_nguyện để khi về già có lương hưu . vậy
        vợ_chồng tôi có được đóng bhxh không ?
  - source_sentence: >-
      theo quy_định tại điểm c khoản 1 điều 211 luật doanh_nghiệp ,
      trường_hợp_doanh_nghiệp ngừng hoạt_động_kinh_doanh 01 năm mà không
      thông_báo với cơ_quan đăng_ký kinh_doanh và cơ_quan thuế thì doanh_nghiệp
      thuộc trường_hợp bị thu_hồi giấy chứng_nhận đăng_ký doanh_nghiệp . -
      trình_tự , thủ_tục thu_hồi giấy chứng_nhận đăng_ký doanh_nghiệp thực_hiện
      theo quy_định tại khoản 3 điều 63 nghị_định số 78 / 2015 / nđ - cp được
      sửa_đổi , bổ_sung tại khoản 20 điều 1 nghị_định số 108 / 2018 / nđ - cp
      sửa_đổi , bổ_sung một_số điều của nghị_định số 78 / 2015 / nđ - cp. theo
      đó , phòng đăng_ký kinh_doanh thông_báo bằng văn_bản về hành_vi vi_phạm và
      yêu_cầu người đại_diện theo pháp_luật của doanh_nghiệp đến trụ_sở của
      phòng để giải_trình . sau 10 ngày làm_việc , kể từ ngày kết_thúc thời_hạn
      hẹn trong thông_báo mà người được yêu_cầu không đến hoặc nội_dung
      giải_trình không được chấp_thuận thì phòng đăng_ký kinh_doanh ra
      quyết_định thu_hồi giấy chứng_nhận đăng_ký doanh_nghiệp . - như_vậy , theo
      quy_định nêu trên việc công_ty ngừng hoạt_động_kinh_doanh 01 năm mà không
      thông_báo với cơ_quan đăng_ký kinh_doanh và cơ_quan thuế là
      vi_phạm_quy_định pháp_luật và thuộc một trong các trường_hợp bị thu_hồi
      giấy chứng_nhận đăng_ký doanh_nghiệp .
    sentences:
      - >-
        thủ_tục và hồ_sơ xin phép chuyển_đổi mục_đích sử_dụng , di_dời , tháo_dỡ
        ?
      - >-
        thời_gian đăng_ký hoạt_động của chi_nhánh của tổ_chức trọng_tài
        nước_ngoài tại việt_nam được quy_định như thế_nào ?
      - >-
        công_ty tnhh xyz ngừng hoạt_động_kinh_doanh 01 năm mà không thông_báo
        với cơ_quan đăng_ký kinh_doanh và cơ_quan thuế ? trong trường_hợp này ,
        công_ty bị thu_hồi giấy chứng_nhận đăng_ký doanh_nghiệp thì có đúng
        quy_định pháp_luật hiện_hành không ?
  - source_sentence: >-
      thời_hạn giải_quyết việc gia_hạn thời_gian học_tập cho lưu học_sinh để
      hoàn_thành khóa học như sau : tối_đa 20 ngày làm_việc kể từ ngày nhận đủ
      hồ_sơ hợp_lệ .
    sentences:
      - >-
        tôi muốn hỏi về gia_hạn thời_gian học_tập cho lưu học_sinh để hoàn_thành
        khóa học , có thời_hạn giải_quyết như thế_nào ?
      - >-
        thành_phần hồ_sơ giải_quyết chế_độ hỗ_trợ đối_với người việt_nam có công
        với cách_mạng quy_định tại nghị_định số 102 / 2018 / nđ - cp ngày 20 / 7
        / 2018 của chính_phủ về chế_độ hỗ_trợ và một_số chế_độ đãi_ngộ khác
        đối_với người việt_nam có công với cách_mạng , người tham_gia
        kháng_chiến , chiến_tranh bảo_vệ tổ_quốc và làm nhiệm_vụ quốc_tế đang
        định_cư ở nước_ngoài ( nghị_định số 102 / 2018 / nđ - cp ) , bao_gồm
        những giấy_tờ gì ?
      - >-
        nhiệm_vụ thiết_kế bvtc gồm nội_dung gì ? đơn_vị lập và thẩm_quyền
        phê_duyệt nhiệm_vụ thiết_kế bvtc ?
model-index:
  - name: SentenceTransformer based on Alibaba-NLP/gte-multilingual-base
    results:
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 768
          type: dim_768
        metrics:
          - type: cosine_accuracy@1
            value: 0.5502645502645502
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.7151675485008818
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.7716049382716049
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.818342151675485
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.5502645502645502
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.23838918283362726
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.15432098765432098
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.08183421516754849
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.5502645502645502
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.7151675485008818
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.7716049382716049
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.818342151675485
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.6852873293977579
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.6424529688418579
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.6476797396844348
            name: Cosine Map@100
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 512
          type: dim_512
        metrics:
          - type: cosine_accuracy@1
            value: 0.5555555555555556
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.7098765432098766
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.7645502645502645
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.8130511463844797
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.5555555555555556
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.23662551440329216
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.15291005291005288
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.08130511463844796
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.5555555555555556
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.7098765432098766
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.7645502645502645
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.8130511463844797
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.6843803553657516
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.6431192435822073
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.6489190779603494
            name: Cosine Map@100

SentenceTransformer based on Alibaba-NLP/gte-multilingual-base

This is a sentence-transformers model finetuned from Alibaba-NLP/gte-multilingual-base on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: Alibaba-NLP/gte-multilingual-base
  • Maximum Sequence Length: 8192 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
    • json

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("anhtuansh/gte-multilingual-base-Matryoshka-2e-11k")
# Run inference
sentences = [
    'thời_hạn giải_quyết việc gia_hạn thời_gian học_tập cho lưu học_sinh để hoàn_thành khóa học như sau : tối_đa 20 ngày làm_việc kể từ ngày nhận đủ hồ_sơ hợp_lệ .',
    'tôi muốn hỏi về gia_hạn thời_gian học_tập cho lưu học_sinh để hoàn_thành khóa học , có thời_hạn giải_quyết như thế_nào ?',
    'thành_phần hồ_sơ giải_quyết chế_độ hỗ_trợ đối_với người việt_nam có công với cách_mạng quy_định tại nghị_định số 102 / 2018 / nđ - cp ngày 20 / 7 / 2018 của chính_phủ về chế_độ hỗ_trợ và một_số chế_độ đãi_ngộ khác đối_với người việt_nam có công với cách_mạng , người tham_gia kháng_chiến , chiến_tranh bảo_vệ tổ_quốc và làm nhiệm_vụ quốc_tế đang định_cư ở nước_ngoài ( nghị_định số 102 / 2018 / nđ - cp ) , bao_gồm những giấy_tờ gì ?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric dim_768 dim_512
cosine_accuracy@1 0.5503 0.5556
cosine_accuracy@3 0.7152 0.7099
cosine_accuracy@5 0.7716 0.7646
cosine_accuracy@10 0.8183 0.8131
cosine_precision@1 0.5503 0.5556
cosine_precision@3 0.2384 0.2366
cosine_precision@5 0.1543 0.1529
cosine_precision@10 0.0818 0.0813
cosine_recall@1 0.5503 0.5556
cosine_recall@3 0.7152 0.7099
cosine_recall@5 0.7716 0.7646
cosine_recall@10 0.8183 0.8131
cosine_ndcg@10 0.6853 0.6844
cosine_mrr@10 0.6425 0.6431
cosine_map@100 0.6477 0.6489

Training Details

Training Dataset

json

  • Dataset: json
  • Size: 10,200 training samples
  • Columns: positive and anchor
  • Approximate statistics based on the first 1000 samples:
    positive anchor
    type string string
    details
    • min: 4 tokens
    • mean: 320.87 tokens
    • max: 3689 tokens
    • min: 10 tokens
    • mean: 59.35 tokens
    • max: 421 tokens
  • Samples:
    positive anchor
    1 . thẩm_quyền cấp giấy_phép tổ_chức triển_lãm , hội_chợ xuất_bản_phẩm được quy_định cụ_thể như sau : - bộ thông_tin và truyền_thông cấp giấy_phép cho cơ_quan , tổ_chức ở trung_ương ; cơ_quan , tổ_chức , cá_nhân nước_ngoài ; - ủy_ban nhân_dân cấp tỉnh cấp giấy_phép cho cơ_quan , tổ_chức , cá_nhân có trụ_sở hoặc cư_trú tại địa_phương ; chi_nhánh , văn_phòng đại_diện , đơn_vị trực_thuộc cơ_quan , tổ_chức ở trung_ương đặt tại địa_phương . 2 . hồ_sơ bao_gồm : - đơn đề_nghị cấp giấy_phép trong đó ghi rõ mục_đích , thời_gian , địa_điểm và tên các đơn_vị tham_gia triển_lãm , hội_chợ ; - danh_mục xuất_bản_phẩm để triển_lãm , hội_chợ theo mẫu quy_định . ( quy_định tại khoản 2 , 3 điều 44 luật xuất_bản ) hồ_sơ và thẩm_quyền cấp giấy_phép tổ_chức triển_lãm , hội_chợ xuất_bản_phẩm được quy_định cụ_thể như thế_nào ?
    - trường_hợp mất danh_mục và phiếu theo_dõi trừ lùi thì người khai hải_quan có hồ_sơ đề_nghị cơ_quan hải_quan nơi cấp danh_mục lần đầu_đề_nghị cấp lại , bao_gồm :
    + công_văn đề_nghị cấp lại danh_mục , phiếu theo_dõi trừ lùi trong đó nêu rõ : lý_do mất danh_mục , phiếu theo_dõi trừ lùi và cam_kết của người khai hải_quan về tính chính_xác của nội_dung khai_báo ;
    + bảng kê toàn_bộ tờ khai hải_quan ( điện_tử hoặc giấy ) của số_lượng hàng_hóa đã nhập_khẩu theo danh_mục ;
    + bản danh_mục và phiếu theo_dõi trừ lùi của cơ_quan hải_quan nơi làm thủ_tục nhập_khẩu lô hàng cuối_cùng trước khi thất_lạc ( 01 bản chụp có xác_nhận của cơ_quan hải_quan nơi nhập_khẩu ) .
    - khi làm thủ_tục hải_quan , người khai hải_quan nộp , xuất_trình cho cơ_quan hải_quan nơi đăng_ký tờ khai hải_quan các hồ_sơ sau :
    + hồ_sơ hải_quan theo quy_định hiện_hành ;
    + danh_mục hàng_hóa và phiếu theo_dõi trừ lùi đã đăng_ký với cơ_quan hải_quan ( bản giao người khai hải_quan ) để cơ_quan hải_quan làm thủ_tục thực_hiện...
    trường_hợp tôi làm mất danh_mục và phiếu theo_dõi trừ lùi hàng_hóa_nhập_khẩu dung_môi n - hexan dùng trong sản_xuất khô_dầu đậu_tương và dầu thực_vật , cám gạo trích ly và dầu cám thì cần làm những thủ_tục gì ?
    thẩm_quyền cấp giấy chứng_nhận cơ_sở đủ điều_kiện đăng_kiểm tàu cá là : tổng_cục thủy_sản . thẩm_quyền cấp giấy chứng_nhận cơ_sở đủ điều_kiện đăng_kiểm tàu cá ?
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512
        ],
        "matryoshka_weights": [
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Evaluation Dataset

json

  • Dataset: json
  • Size: 1,134 evaluation samples
  • Columns: positive and anchor
  • Approximate statistics based on the first 1000 samples:
    positive anchor
    type string string
    details
    • min: 4 tokens
    • mean: 336.57 tokens
    • max: 3862 tokens
    • min: 7 tokens
    • mean: 59.17 tokens
    • max: 864 tokens
  • Samples:
    positive anchor
    việc thực_hiện thủ_tục tặng_thưởng bằng khen cấp bộ , ban , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương về thành_tích đột_xuất được tiến_hành như sau :
    bước 1 . vụ , phòng , ban thi_đua – khen_thưởng các bộ , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương tiếp_nhận đề_nghị khen_thưởng của các đơn_vị thực thuộc .
    bước 2 . thẩm_định hồ_sơ , xin ý_kiến các cơ_quan liên_quan , báo_cáo hội_đồng thi_đua khen_thưởng cùng cấp , tổng_hợp trình bộ_trưởng , thủ_trưởng đơn_vị , chủ_tịch ubnd tỉnh , thành_phố quyết_định khen_thưởng .
    bước 3 . khi có quyết_định của bộ_trưởng , thủ_trưởng đơn_vị , chủ_tịch ubnd tỉnh , thành_phố trực_thuộc trung_ương ; vụ , phòng , ban thi_đua – khen_thưởng các bộ , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương thông_báo quyết_định , viết bằng , đóng_dấu và cấp_phát cho đơn_vị trình khen .
    bước 4 . các trường_hợp không được khen_thưởng ( không đúng đối_tượng , không đủ tiêu_chuẩn , không đủ ...
    đề_nghị cho biết trình_tự thực_hiện thủ_tục tặng_thưởng bằng khen cấp bộ , ban , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương về thành_tích đột_xuất
    bông_thủy_tinh chống cháy là vật_liệu chống cháy , thuộc danh_mục phương_tiện pccc quy_định phụ_lục v nghị_định số 79 / 2014 / nđ - cp ngày 31 / 7 / 2014 quy_định chi_tiết thi_hành một_số điều của luật phòng cháy và chữa_cháy và luật sửa_đổi , bổ_sung một_số điều của luật phòng cháy và chữa_cháy . do đó , nếu đưa vào sử_dụng trong hạng_mục pccc của công_trình thì phải kiểm_định về pccc. tuy_nhiên , đối_với vật_liệu bông thủy_tinh cách_nhiệt chống cháy được các cơ_quan , tổ_chức , cá_nhân cần xem_xét tùy vào yêu_cầu cụ_thể của công_trình để đăng_ký kiểm_định “ tính nguy_hiểm cháy ” đối_với vật_liệu đó hoặc “ giới_hạn chịu_lửa ” của kết_cấu sử_dụng vật_liệu đó . thành_phần hồ_sơ đề_nghị kiểm_định được quy_định tại điểm a khoản 4 điều 18 thông_tư 66 / 2014 / tt - bca ngày 16 / 12 / 2014 quy_định chi_tiết thi_hành một_số điều của nghị_định số 79 / 2014 / nđ - cp ngày 31 / 7 / 2014 quy_định chi_tiết thi_hành một_số điều của luật phòng cháy và chữa_cháy và luật sửa_đổi , bổ_sung một_số điều ... bông_thủy_tinh cách_nhiệt chống cháy có phải kiểm_định không ? thành_phần hồ_sơ đề_nghị kiểm_định như thế_nào ?
    thẻ thường_trú không có thời_hạn nhưng định_kỳ 10 năm một lần , người nước_ngoài thường_trú phải đến nộp hồ_sơ tại phòng quản_lý xuất , nhập_cảnh công_an tỉnh , thành_phố trực_thuộc trung_ương để đề_nghị cấp đổi thẻ thường_trú . thẻ thường_trú có thời_hạn không ?
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512
        ],
        "matryoshka_weights": [
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 2
  • per_device_eval_batch_size: 2
  • gradient_accumulation_steps: 2
  • learning_rate: 2e-05
  • num_train_epochs: 1
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • fp16: True
  • tf32: False
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 2
  • per_device_eval_batch_size: 2
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 2
  • eval_accumulation_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: False
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss Validation Loss dim_768_cosine_ndcg@10 dim_512_cosine_ndcg@10
0 0 - - 0.5662 0.5644
0.0039 10 0.1692 - - -
0.0078 20 0.3949 - - -
0.0118 30 0.2216 - - -
0.0157 40 0.2554 - - -
0.0196 50 0.1446 - - -
0.0235 60 0.1345 - - -
0.0275 70 0.2128 - - -
0.0314 80 0.1289 - - -
0.0353 90 0.0532 - - -
0.0392 100 0.1749 - - -
0.0431 110 0.1318 - - -
0.0471 120 0.0704 - - -
0.0510 130 0.0431 - - -
0.0549 140 0.4482 - - -
0.0588 150 0.1473 - - -
0.0627 160 0.3725 - - -
0.0667 170 0.1792 - - -
0.0706 180 0.065 - - -
0.0745 190 0.0173 - - -
0.0784 200 0.2006 - - -
0.0824 210 0.439 - - -
0.0863 220 0.2171 - - -
0.0902 230 0.0668 - - -
0.0941 240 0.1011 - - -
0.0980 250 0.0176 - - -
0.1020 260 0.1538 - - -
0.1059 270 0.1334 - - -
0.1098 280 0.3126 - - -
0.1137 290 0.0102 - - -
0.1176 300 0.2042 - - -
0.1216 310 0.0053 - - -
0.1255 320 0.3044 - - -
0.1294 330 0.0729 - - -
0.1333 340 0.1016 - - -
0.1373 350 0.0458 - - -
0.1412 360 0.0479 - - -
0.1451 370 0.0621 - - -
0.1490 380 0.0026 - - -
0.1529 390 0.173 - - -
0.1569 400 0.0134 - - -
0.1608 410 0.0586 - - -
0.1647 420 0.0247 - - -
0.1686 430 0.0106 - - -
0.1725 440 0.0069 - - -
0.1765 450 0.0303 - - -
0.1804 460 0.1574 - - -
0.1843 470 0.0543 - - -
0.1882 480 0.209 - - -
0.1922 490 0.2385 - - -
0.1961 500 0.0014 - - -
0.2 510 0.1301 - - -
0.2039 520 0.0075 - - -
0.2078 530 0.0148 - - -
0.2118 540 0.0143 - - -
0.2157 550 0.0477 - - -
0.2196 560 0.0092 - - -
0.2235 570 0.121 - - -
0.2275 580 0.0062 - - -
0.2314 590 0.0879 - - -
0.2353 600 0.1005 - - -
0.2392 610 0.3175 - - -
0.2431 620 0.0047 - - -
0.2471 630 0.1038 - - -
0.2510 640 0.0528 - - -
0.2549 650 0.2159 - - -
0.2588 660 0.0294 - - -
0.2627 670 0.0045 - - -
0.2667 680 0.0077 - - -
0.2706 690 0.0276 - - -
0.2745 700 0.0061 - - -
0.2784 710 0.032 - - -
0.2824 720 0.233 - - -
0.2863 730 0.0048 - - -
0.2902 740 0.0298 - - -
0.2941 750 0.0004 - - -
0.2980 760 0.0339 - - -
0.3020 770 0.2882 - - -
0.3059 780 0.0199 - - -
0.3098 790 0.006 - - -
0.3137 800 0.0617 - - -
0.3176 810 0.0442 - - -
0.3216 820 0.0095 - - -
0.3255 830 0.0045 - - -
0.3294 840 0.0246 - - -
0.3333 850 0.0005 - - -
0.3373 860 0.0375 - - -
0.3412 870 0.0414 - - -
0.3451 880 0.0835 - - -
0.3490 890 0.0505 - - -
0.3529 900 0.0046 - - -
0.3569 910 0.0889 - - -
0.3608 920 0.015 - - -
0.3647 930 0.0046 - - -
0.3686 940 0.0238 - - -
0.3725 950 0.0626 - - -
0.3765 960 0.018 - - -
0.3804 970 0.0383 - - -
0.3843 980 0.0555 - - -
0.3882 990 0.0405 - - -
0.3922 1000 0.0379 - - -
0.3961 1010 0.0019 - - -
0.4 1020 0.015 - - -
0.4039 1030 0.0462 - - -
0.4078 1040 0.0657 - - -
0.4118 1050 0.0245 - - -
0.4157 1060 0.0057 - - -
0.4196 1070 0.0316 - - -
0.4235 1080 0.0309 - - -
0.4275 1090 0.0083 - - -
0.4314 1100 0.0099 - - -
0.4353 1110 0.0051 - - -
0.4392 1120 0.0023 - - -
0.4431 1130 0.0058 - - -
0.4471 1140 0.027 - - -
0.4510 1150 0.028 - - -
0.4549 1160 0.0115 - - -
0.4588 1170 0.0649 - - -
0.4627 1180 0.1375 - - -
0.4667 1190 0.0462 - - -
0.4706 1200 0.0076 - - -
0.4745 1210 0.2884 - - -
0.4784 1220 0.1072 - - -
0.4824 1230 0.0655 - - -
0.4863 1240 0.003 - - -
0.4902 1250 0.001 - - -
0.4941 1260 0.0182 - - -
0.4980 1270 0.0782 - - -
0.5020 1280 0.0006 - - -
0.5059 1290 0.0561 - - -
0.5098 1300 0.019 - - -
0.5137 1310 0.0041 - - -
0.5176 1320 0.0199 - - -
0.5216 1330 0.0035 - - -
0.5255 1340 0.0388 - - -
0.5294 1350 0.0082 - - -
0.5333 1360 0.0038 - - -
0.5373 1370 0.0062 - - -
0.5412 1380 0.0143 - - -
0.5451 1390 0.036 - - -
0.5490 1400 0.0042 - - -
0.5529 1410 0.0927 - - -
0.5569 1420 0.0438 - - -
0.5608 1430 0.0034 - - -
0.5647 1440 0.0115 - - -
0.5686 1450 0.0076 - - -
0.5725 1460 0.0035 - - -
0.5765 1470 0.2002 - - -
0.5804 1480 0.0119 - - -
0.5843 1490 0.0144 - - -
0.5882 1500 0.0003 - - -
0.5922 1510 0.0563 - - -
0.5961 1520 0.0079 - - -
0.6 1530 0.001 - - -
0.6039 1540 0.0594 - - -
0.6078 1550 0.1215 - - -
0.6118 1560 0.0027 - - -
0.6157 1570 0.0451 - - -
0.6196 1580 0.0016 - - -
0.6235 1590 0.0021 - - -
0.6275 1600 0.0017 - - -
0.6314 1610 0.011 - - -
0.6353 1620 0.0069 - - -
0.6392 1630 0.0171 - - -
0.6431 1640 0.1518 - - -
0.6471 1650 0.095 - - -
0.6510 1660 0.0095 - - -
0.6549 1670 0.0037 - - -
0.6588 1680 0.001 - - -
0.6627 1690 0.0003 - - -
0.6667 1700 0.0355 - - -
0.6706 1710 0.0163 - - -
0.6745 1720 0.0131 - - -
0.6784 1730 0.0114 - - -
0.6824 1740 0.0291 - - -
0.6863 1750 0.0079 - - -
0.6902 1760 0.0075 - - -
0.6941 1770 0.0838 - - -
0.6980 1780 0.0128 - - -
0.7020 1790 0.1947 - - -
0.7059 1800 0.0219 - - -
0.7098 1810 0.0909 - - -
0.7137 1820 0.0052 - - -
0.7176 1830 0.0237 - - -
0.7216 1840 0.0028 - - -
0.7255 1850 0.0664 - - -
0.7294 1860 0.0146 - - -
0.7333 1870 0.0157 - - -
0.7373 1880 0.0654 - - -
0.7412 1890 0.0036 - - -
0.7451 1900 0.0001 - - -
0.7490 1910 0.0595 - - -
0.7529 1920 0.0432 - - -
0.7569 1930 0.0287 - - -
0.7608 1940 0.0042 - - -
0.7647 1950 0.0946 - - -
0.7686 1960 0.0064 - - -
0.7725 1970 0.0102 - - -
0.7765 1980 0.0148 - - -
0.7804 1990 0.0008 - - -
0.7843 2000 0.0019 - - -
0.7882 2010 0.1745 - - -
0.7922 2020 0.0045 - - -
0.7961 2030 0.1492 - - -
0.8 2040 0.2533 - - -
0.8039 2050 0.0009 - - -
0.8078 2060 0.0814 - - -
0.8118 2070 0.0005 - - -
0.8157 2080 0.0098 - - -
0.8196 2090 0.0615 - - -
0.8235 2100 0.0132 - - -
0.8275 2110 0.0006 - - -
0.8314 2120 0.0547 - - -
0.8353 2130 0.0024 - - -
0.8392 2140 0.0131 - - -
0.8431 2150 0.1234 - - -
0.8471 2160 0.019 - - -
0.8510 2170 0.0027 - - -
0.8549 2180 0.0035 - - -
0.8588 2190 0.0165 - - -
0.8627 2200 0.0767 - - -
0.8667 2210 0.076 - - -
0.8706 2220 0.0082 - - -
0.8745 2230 0.0584 - - -
0.8784 2240 0.0141 - - -
0.8824 2250 0.0042 - - -
0.8863 2260 0.0356 - - -
0.8902 2270 0.0003 - - -
0.8941 2280 0.0031 - - -
0.8980 2290 0.0171 - - -
0.9020 2300 0.083 - - -
0.9059 2310 0.0026 - - -
0.9098 2320 0.0127 - - -
0.9137 2330 0.0088 - - -
0.9176 2340 0.024 - - -
0.9216 2350 0.1174 - - -
0.9255 2360 0.0578 - - -
0.9294 2370 0.0034 - - -
0.9333 2380 0.0706 - - -
0.9373 2390 0.0261 - - -
0.9412 2400 0.0006 - - -
0.9451 2410 0.0027 - - -
0.9490 2420 0.0119 - - -
0.9529 2430 0.0075 - - -
0.9569 2440 0.0063 - - -
0.9608 2450 0.0028 - - -
0.9647 2460 0.0363 - - -
0.9686 2470 0.0004 - - -
0.9725 2480 0.0016 - - -
0.9765 2490 0.0018 - - -
0.9804 2500 0.1138 - - -
0.9843 2510 0.0046 - - -
0.9882 2520 0.0327 - - -
0.9922 2530 0.0497 - - -
0.9961 2540 0.0826 - - -
1.0 2550 0.0011 0.0172 0.6853 0.6844
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.10.14
  • Sentence Transformers: 3.3.1
  • Transformers: 4.41.2
  • PyTorch: 2.4.0
  • Accelerate: 0.29.3
  • Datasets: 2.19.1
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}