---
base_model: intfloat/multilingual-e5-large-instruct
library_name: sentence-transformers
metrics:
- cosine_accuracy
- dot_accuracy
- manhattan_accuracy
- euclidean_accuracy
- max_accuracy
pipeline_tag: sentence-similarity
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:10190
- loss:TripletLoss
widget:
- source_sentence: безглютеновый хлеб
sentences:
- 'Instruct: Найти похожие продукты на основе деталей
Query: Баклажаны по-сычуаньски баклажаны, азиатская кухня, закуска, терияки, сладкий
соус, пряный вкус, овощное блюдо, вегетарианское, пикантное, жареное, замаринованное,
кунжут, чеснок, имбирь, рыба, рисовый уксус'
- 'Instruct: Найти похожие продукты на основе деталей
Query: Сорбет "Манго- Маракуйя" без доб. сахара сладость, десерт, веганский, без
сахара, низкокалорийный, охлаждающий, тропические фрукты, натуральный, диетический,
сахарозаменитель, фруктовый, без добавок, здоровье'
- 'Instruct: Найти похожие продукты на основе деталей
Query: Изделие х/б без глютена с семенами безглютеновый, хлеб, рисовая мука, семена,
клетчатка, полезный, сытный, ароматный, выпечка, гастрономия'
- source_sentence: арома саше
sentences:
- 'Instruct: Найти похожие продукты на основе деталей
Query: Мандарины Хатайские сладкие мандарины, Хатай, сладкие, сорта, Надоркотт,
цитрусовые, фрукты, свежие'
- 'Instruct: Найти похожие продукты на основе деталей
Query: Арома-саше "№13 Warm Tobacco" Aroma Garmony, 10 гр аромат, саше, натуральный,
древесный, табачный, освежитель, упаковка, автомобиль, комод, шкафчик'
- 'Instruct: Найти похожие продукты на основе деталей
Query: Творог зерненый Карат Домашний 4% 200 г творог, домашний, зерненый, натуральный,
без консервантов, без добавок, полезный завтрак, продукт из молока, умеренная
жирность, Россия'
- source_sentence: almette
sentences:
- 'Instruct: Найти похожие продукты на основе деталей
Query: Конфеты Scandic Лесные ягоды без сахара 14 г без сахара, низкий гликемический
индекс, очищение зубов, свежесть, ягодные конфеты, Россия'
- 'Instruct: Найти похожие продукты на основе деталей
Query: Жареный рис с креветками жареный рис, морепродукты, азиатская кухня, яйцо,
овощи, жасминный рис, креветки'
- 'Instruct: Найти похожие продукты на основе деталей
Query: Сыр творожный Almette с зеленью 150 г None, сыр, творожный, закуски, бутерброды,
сливочный, зелень'
- source_sentence: низкокалорийная закуска без сахара для семьи без орехов с высоким
содержанием белка
sentences:
- 'Instruct: Найти похожие продукты на основе деталей
Query: Чебурек с телятиной чебурек, телятина, фарш, кинза, хрустящий, мясо, закуска,
фритюр'
- 'Instruct: Найти похожие продукты на основе деталей
Query: Печенье протеиновое в шоколаде без доб. сахара протеин, белок, порционная
упаковка, тренировка, здоровое питание, сладости без сахара, молочный шоколад,
снек'
- 'Instruct: Найти похожие продукты на основе деталей
Query: Суп "Куриный" с домашней лапшой, 1 кг куриный суп, домашняя лапша, свежие
овощи, зелень, специи, сытное блюдо, семейный обед, пищевая безопасность, аллергены'
- source_sentence: паста томатная
sentences:
- 'Instruct: Найти похожие продукты на основе деталей
Query: Паста томатная, 250 г томатная паста, кулинария, свежие ингредиенты, насыщенный
вкус, универсальное применение, консистенция'
- 'Instruct: Найти похожие продукты на основе деталей
Query: Сыр ''Страчателла'' 150 г None, сыр, сливки, закуски, салаты, пицца, паста,
гастрономия, итальянская кухня'
- 'Instruct: Найти похожие продукты на основе деталей
Query: Соус Filippo Berio томатный Арраббьята 340 г соус, итальянская кухня, без
консервантов, для пасты, острый, натуральные ингредиенты, высокое качество, томатный
соус, органические продукты'
model-index:
- name: SentenceTransformer based on intfloat/multilingual-e5-large-instruct
results:
- task:
type: triplet
name: Triplet
dataset:
name: dev
type: dev
metrics:
- type: cosine_accuracy
value: 0.9285083848190644
name: Cosine Accuracy
- type: dot_accuracy
value: 0.07149161518093557
name: Dot Accuracy
- type: manhattan_accuracy
value: 0.9285083848190644
name: Manhattan Accuracy
- type: euclidean_accuracy
value: 0.9285083848190644
name: Euclidean Accuracy
- type: max_accuracy
value: 0.9285083848190644
name: Max Accuracy
---
# SentenceTransformer based on intfloat/multilingual-e5-large-instruct
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-large-instruct](https://huggingface.co/intfloat/multilingual-e5-large-instruct). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
## Model Details
### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [intfloat/multilingual-e5-large-instruct](https://huggingface.co/intfloat/multilingual-e5-large-instruct)
- **Maximum Sequence Length:** 512 tokens
- **Output Dimensionality:** 1024 tokens
- **Similarity Function:** Cosine Similarity
### Model Sources
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
### Full Model Architecture
```
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
```
## Usage
### Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
```bash
pip install -U sentence-transformers
```
Then you can load this model and run inference.
```python
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("Data-Lab/multilingual-e5-large-instruct-embedder-tg")
# Run inference
sentences = [
'паста томатная',
'Instruct: Найти похожие продукты на основе деталей\nQuery: Паста томатная, 250 г томатная паста, кулинария, свежие ингредиенты, насыщенный вкус, универсальное применение, консистенция',
'Instruct: Найти похожие продукты на основе деталей\nQuery: Соус Filippo Berio томатный Арраббьята 340 г соус, итальянская кухня, без консервантов, для пасты, острый, натуральные ингредиенты, высокое качество, томатный соус, органические продукты',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
```
## Evaluation
### Metrics
#### Triplet
* Dataset: `dev`
* Evaluated with [TripletEvaluator
](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
| Metric | Value |
|:-------------------|:-----------|
| cosine_accuracy | 0.9285 |
| dot_accuracy | 0.0715 |
| manhattan_accuracy | 0.9285 |
| euclidean_accuracy | 0.9285 |
| **max_accuracy** | **0.9285** |
## Training Details
### Training Dataset
#### Unnamed Dataset
* Size: 10,190 training samples
* Columns: sentence_0
, sentence_1
, and sentence_2
* Approximate statistics based on the first 1000 samples:
| | sentence_0 | sentence_1 | sentence_2 |
|:--------|:---------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
| type | string | string | string |
| details |
хурма
| Instruct: Найти похожие продукты на основе деталей
Query: Чипсы из хурмы, 25 г чипсы, натуральные, фрукты, перекус, сладкий вкус, десерт
| Instruct: Найти похожие продукты на основе деталей
Query: Салат мимоза, 300 г салат, праздничный стол, обед, горбуша, отварные овощи, куриные желтки, классический рецепт, нежный вкус, закуска
|
| жареное мясо
| Instruct: Найти похожие продукты на основе деталей
Query: Жареная говядина с черным перцем жареное мясо, приготовление, специи, соусы, овощи
| Instruct: Найти похожие продукты на основе деталей
Query: Каша рисовая на безлактозном молоке безлактозное молоко, рисовая каша, завтрак на ходу, низкое содержание жира, альтернативное молоко, легкая сладость, удобная упаковка, подходящий для аллергиков
|
| бедро цыпленка бройлера
| Instruct: Найти похожие продукты на основе деталей
Query: Бедро цыплят-бройлеров Халяль 1 кг None, цыпленок, мясо, бройлер, халяль, бедро, маринование, тушение, запекание, None
| Instruct: Найти похожие продукты на основе деталей
Query: Мясо бедра (Филе бедра) индейки в маринаде "Чесночный" 1 кг None, мясо, индейка, филе, маринад, чеснок, диетическое, нежирное, острое, травы, 1 кг, None
|
* Loss: [TripletLoss
](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
```json
{
"distance_metric": "TripletDistanceMetric.COSINE",
"triplet_margin": 0.5
}
```
### Training Hyperparameters
#### Non-Default Hyperparameters
- `eval_strategy`: steps
- `per_device_train_batch_size`: 4
- `per_device_eval_batch_size`: 4
- `fp16`: True
- `multi_dataset_batch_sampler`: round_robin
#### All Hyperparameters