|
--- |
|
tags: |
|
- sentence-transformers |
|
- sentence-similarity |
|
- feature-extraction |
|
- generated_from_trainer |
|
- dataset_size:3136 |
|
- loss:ContrastiveLoss |
|
base_model: sergeyzh/rubert-tiny-turbo |
|
widget: |
|
- source_sentence: Здравствуйте! Я ищу узкую посудомоечную машину шириной 45 см. Какие |
|
модели вы можете порекомендовать? |
|
sentences: |
|
- '{''long_web_name'': ''Cactus Экран Cactus 150x150см Wallscreen CS-PSW-150X150-SG |
|
1:1 настенно-потолочный рулонны'', ''price'': 4915.0, ''url'': ''https://megamarket.ru/catalog/details/cactus-ekran-cactus-150x150sm-wallscreen-cs-psw-150x150-sg-11-nastenno-potolochnyy-rulonny-100035844664/'', |
|
''image_link'': ''https://main-cdn.sbermegamarket.ru/mid9/hlr-system/-21/334/577/171/024/226/100035844664b0.jpg'', |
|
''id'': ''100035844664'', ''description'': '''', ''rating'': 4.75, ''review_count'': |
|
8}' |
|
- '{''long_web_name'': ''Напальчники ForAll Wasp Feelers, игровые, для игр на смартфоне'', |
|
''price'': 200.0, ''url'': ''https://megamarket.ru/catalog/details/napalchniki-forall-wasp-feelers-igrovye-dlya-igr-na-smartfone-600008773480/'', |
|
''image_link'': ''https://main-cdn.sbermegamarket.ru/mid9/hlr-system/-14/858/871/102/521/0/600008773480b0.jpg'', |
|
''id'': ''600008773480'', ''description'': ''Игровые напальчники ForAll.Напальчники |
|
ForAll были созданы специально для мобильных игр. Благодаря использованию инновационных |
|
материалов, они заметно улучшают показатели скольжения пальца по экрану телефона, |
|
даже при отсутствии не нём олеофобного покрытия. Высокая проводимость материалов |
|
напальчников позволяет увеличить чувствительность и точность каждого движения |
|
ваших пальцев по экрану вашего гаджета. Компактные, очень тонкие и при этом прочные, |
|
напальчники Sarafox не создают дискомфорта при использовании и не оставляют следов |
|
на экране вашего смартфона. В сочетании с низкой ценой, - это идеальный инструмент |
|
для того, чтобы повысить ваше мастерство на полях сражений мобильных игр. Для |
|
любых игр на мобильном телефоне или планшете (Fortnite, PUBG, FreeFire, Call of |
|
Duty, CoD, Boom beach, Rulеs оf Survivаl, Кnivеs Оut, Survivоr Rоyаlе, Сritiсаl |
|
Орs, Моbilе Lеgеnds, Stаndоff 2, Brawl Stars, Among US).2 шутки (1 пара) в комплекте. |
|
Состав: нейлон, спандекс, нано-углеродное волокно.'', ''rating'': 4.92, ''review_count'': |
|
12}' |
|
- '{''long_web_name'': ''Пылесос Deerma VC55 белый'', ''price'': 11500.0, ''url'': |
|
''https://megamarket.ru/catalog/details/pylesos-deerma-vacuum-cleaner-vc55-belyy-600009446716/'', |
|
''image_link'': ''https://main-cdn.sbermegamarket.ru/mid9/hlr-system/-10/348/655/451/191/140/600009446716b0.png'', |
|
''id'': ''600009446716'', ''description'': ''Мощные вертикальные пылесосы давно |
|
не уступают по эффективности классическим. В сравнении с обычными бытовыми пылесосами |
|
у них есть ряд преимуществ: — меньше весят; — более маневренные; — занимают меньше |
|
места при хранении. Если нужен пылесос для уборки в небольшом помещении, маленькой |
|
квартире без ковров, то вертикальный пылесос подойдет вам лучше любого другого. |
|
Маневренный вертикальный пылесос для дома — также незаменимый помощник при уборке |
|
в труднодоступных местах: под мебелью, на ступеньках. Пылесос вертикальный беспроводной, |
|
имеющий в комплекте половую щетку, щетку с круглым носиком и тонкую насадку поможет |
|
навести чистоту в любом месте, убирая пыль с пола, поверхности мебели и даже из |
|
узких щелей. Ручной пылесос, моющий вертикальный пылесос, пылесос вертикальный |
|
беспроводной — выбирайте технику, исходя из ваших пожеланий, и наслаждайтесь комфортной |
|
уборкой.'', ''rating'': 4.82, ''review_count'': 11}' |
|
- source_sentence: Здравствуйте! Мне нужны редукторы для моего блендера. Это те детали, |
|
которые помогают передавать вращение от мотора к ножам. Не подскажете, есть ли |
|
у вас такие в наличии? |
|
sentences: |
|
- '{''long_web_name'': ''Набор насадок для кухонного комбайна CASO Pasta Maker for |
|
KM 1800'', ''price'': 20160.0, ''url'': ''https://megamarket.ru/catalog/details/nabor-nasadok-dlya-kuhonnogo-kombayna-caso-pasta-maker-for-km-1800-600013894198/'', |
|
''image_link'': ''https://main-cdn.sbermegamarket.ru/mid9/hlr-system/-51/528/818/510/270/36/600013894198b0.jpeg'', |
|
''id'': ''600013894198'', ''description'': ''<p><strong>Набор CASO «Паста» для |
|
KM 1800 </strong>используется совместно с кухонным совместно с кухонными комбайнами |
|
KM 1800 Black для производства пасты в частных домах и квартирах. Замесите тесто |
|
для пасты с помощью кухонного комбайна, а затем обработайте его с помощью насадки |
|
для пасты. Насадки изготовлены из нержавеющей стали.</p><p></p><p><strong>ОСОБЕННОСТИ |
|
УСТРОЙСТВА: </strong></p><ul><li><p>Совместимость: к кухонному комбайну CASO KM |
|
1800 Black</p></li><li><p>Материал: нержавеющая сталь</p></li><li><p>Простая установка |
|
насадок</p></li><li><p>Насадка для листов лазаньи: до 140 мм</p></li><li><p>Насадка |
|
для спагетти: 2 мм</p></li><li><p>Насадка для тальятелле: 6.5 мм</p></li></ul>'', |
|
''rating'': 5.0, ''review_count'': 1}' |
|
- '{''long_web_name'': ''Нож к 616 0000 1/100 OSTER 0.25мм (914-81)'', ''price'': |
|
5090.0, ''url'': ''https://megamarket.ru/catalog/details/nozh-k-616-0000-1-100-oster-025mm-914-81-600004748731/'', |
|
''image_link'': ''https://main-cdn.sbermegamarket.ru/mid9/hlr-system/403/248/966/102/503/1/600004748731b0.jpg'', |
|
''id'': ''600004748731'', ''description'': ''Описание: Нож Oster 0,1мм №0000? |
|
арт. 76914-816 (окантовочный) для машинки Oster 616-91, Oster 616 Soft Touch, |
|
Oster 616 SILVER Limited Edition. Ножи Oster производятся в США из лучшей высокоуглеродистой |
|
стали ручной обработки, обеспечивая таким образом непревзойденную точность и производительность |
|
лезвия. Ножи закалены до 62-65Rc (по шкале С значения твердости метода Роквелла) |
|
и дополнительно криогенно обработаны, для большего усиления твердости стали. Лезвия |
|
режущих поверхностей заточены, окончательно обработаны, протестированы и проверены |
|
с помощью патентованной технологии Oster®. Таким образом получаются ультра-острые |
|
ножи готовые выдержать длительное испытание временем.'', ''rating'': 5.0, ''review_count'': |
|
4}' |
|
- '{''long_web_name'': ''Электрокексница GALAXY LINE GL2983 белый'', ''price'': |
|
1540.0, ''url'': ''https://megamarket.ru/catalog/details/elektrokeksnica-galaxy-line-gl2983-belyy-600017137396/'', |
|
''image_link'': ''https://main-cdn.sbermegamarket.ru/mid9/hlr-system/134/807/194/057/203/600017137396b0.png'', |
|
''id'': ''600017137396_139561'', ''description'': ''<p>Прибор для выпечки пончиков |
|
GALAXY LINE поможет вам приготовить пышные и вкусные пончики для всей семьи или |
|
друзей, не тратя много времени и усилий.</p><p>Рабочая поверхность позволяет приготовить |
|
сразу 4 пончика, а компактные размеры и стильный дизайн позволяет легко разместить |
|
его на любой кухне.</p><p>Прибор оснащен специальным антипригарным покрытием высокого |
|
качества, которое исключает прилипание продуктов и не требует использования большого |
|
количества масла.</p><p>Поверхность легко чистится, обладает высокой стойкостью |
|
к температурным перепадам и механическим воздействиям.</p><p></p><p>Корпус прибора |
|
выполнен из термоустойчивого пластика, который не нагревается в процессе работы, |
|
обеспечивая безопасное использование и позволяет избежать ожогов.</p><p>Модель |
|
станет идеальным выбором для людей, любящих ароматные десерты. </p><p><br></p>'', |
|
''rating'': 5.0, ''review_count'': 4}' |
|
- source_sentence: Здравствуйте! Мне нужно купить карты памяти MicroSD, чтобы использовать |
|
их в моём телефоне и планшете. Хотелось бы что-то надёжное и с хорошей скоростью |
|
записи. Можете помочь выбрать? |
|
sentences: |
|
- '{''long_web_name'': ''Сетевое зарядное устройство Apple MHJE3ZM/A 20W Power Adapter, |
|
1xUSB Type-C, 2.2A, white'', ''price'': 990.0, ''description'': ''<div><p>Сетевое |
|
зарядное устройство Apple MHJE3ZM/A 20W Power Adapter, 1xUSB Type-C, 2.2A, white |
|
— универсальная модель, совместимая со всеми современными гаджетами.</p>\n<h2>Продуманная |
|
конструкция</h2>\n<p>Корпус выполнен из качественного пластика — прочный материал, |
|
устойчивый к механическим повреждениям. Дополнительные технические параметры:</p>\n<ul>\n<li>Подходит |
|
для зарядки смартфонов, планшетов, ноутбуков, наушников и других устройств.</li>\n<li>Стандарт |
|
быстрой зарядки Power Delivery обеспечивает высокую скорость передачи энергии.</li>\n<li>Защита |
|
от короткого замыкания и перегрева продлевают срок службы.</li>\n</ul>\n<p>Мощность |
|
20 Вт позволяет быстро зарядить аккумулятор практически любого современного гаджета. |
|
Для удобства использования предусмотрен съемный кабель.</p></div>'', ''rating'': |
|
4.8, ''review_count'': 8132}' |
|
- '{''long_web_name'': ''Чайная машина Rommelsbacher TA 1200 1 л черный'', ''price'': |
|
0.0, ''url'': ''https://megamarket.ru/catalog/details/termopot-rommelsbacher-ta-1200-100000566245/'', |
|
''image_link'': ''https://main-cdn.sbermegamarket.ru/mid9/hlr-system/-20/153/022/951/418/59/100000566245b0.png'', |
|
''id'': ''100000566245_41866'', ''description'': ''В современном ритме жизни, |
|
когда каждая минута на вес золота, ждать, пока вскипит чайник – порой, непозволительная |
|
роскошь. С чайным автоматом Rommelsbacher у вас всегда под рукой будет вода подходящей |
|
температуры. В семьях с маленькими детьми такой прибор просто незаменим, когда |
|
необходимо приготовить детскую смесь.Горячий чай будет готов в любую секунду<ul><li>Объем |
|
в 1 литр подходит для использования в небольших семьях, не расходует лишнюю энергию |
|
на поддержание температуры.</li><li>Мощность 1200 Вт достаточно для достаточно |
|
быстрого нагрева и поддержания заданной температуры.</li><li>Термопот работает |
|
в четырех температурных режимах: 80 и 85 С, 90 и 100 С.</li><li>Безопасность работы |
|
обеспечивает автоматическое отключение при закипании и при отсутствии воды.</li><li>Долгую |
|
службу прибору обеспечит фильтр от накипи из нержавеющей стали.</li><li>Вы почувствуете |
|
настоящий вкус воды, а не пластика: внутренняя колба (бак для воды) выполнена |
|
из прочной нержавеющей стали.</li><li>Термопот комфортен в использовании: он оборудован |
|
дисплеем, индикаторами включения, температуры и уровня воды, имеется внутренняя |
|
подсветка.</li></ul>Покупая для дома или рабочего места чайный автомат Rommelsbacher |
|
TA 1200, вы получаете надежность, качество и комфорт от немецкого производителя |
|
по выгодной цене.'', ''rating'': 0.0, ''review_count'': 0}' |
|
- '{''long_web_name'': ''Моноблок iRU Office 23IH5P Black (1864652)'', ''price'': |
|
61474.0, ''url'': ''https://megamarket.ru/catalog/details/monoblok-iru-23ih5p-chernyy-1864652-100046661983/'', |
|
''image_link'': ''https://main-cdn.sbermegamarket.ru/mid9/hlr-system/-16/361/299/661/213/124/5/100046661983b0.png'', |
|
''id'': ''100046661983'', ''description'': ''<p>Моноблок iRU Office 23IH5P (1864652) |
|
— это современный компьютер, который отличается компактностью и производительностью.</p>\n<h2>Комфортная |
|
работа</h2>\n<p>Мощный процессор Intel Core i3 обеспечивает высокую скорость обработки |
|
данных. Монитор с диагональю 23,8 дюймов имеет разрешение Full HD. Благодаря этому |
|
изображение получается четким и детализированным. Другие технические параметры:</p>\n<ul>\n<li>оперативная |
|
память объемом 8 Гб позволяет быстро загружать программы;</li>\n<li>внутренний |
|
жесткий диск SSD на 120 Гб дает возможность хранить большое количество информации;</li>\n<li>видеокарта |
|
Intel UHD Graphics 630 поддерживает воспроизведение видео в высоком качестве.</li>\n</ul>\n<p>На |
|
передней панели расположены два динамика мощностью 2 Вт. Они обеспечивают качественное |
|
звучание. На задней панели находятся разъемы для подключения внешних устройств. |
|
Есть встроенный микрофон и веб-камера. Установлена операционная система Windows |
|
10 Pro.</p>'', ''rating'': 5.0, ''review_count'': 3}' |
|
- source_sentence: Здравствуйте! Я хочу купить пылесос, который небольшой и удобный, |
|
чтобы им можно было быстро убирать мусор с пола. Подскажите, пожалуйста, у вас |
|
есть такие вертикальные пылесосы? |
|
sentences: |
|
- '{''long_web_name'': ''Пылесос Gorenje SVC252FMWT белый'', ''price'': 17099.0, |
|
''description'': '''', ''rating'': 4.61, ''review_count'': 23}' |
|
- '{''long_web_name'': ''Полка для DVD-плеера Novigo NV-360 B'', ''price'': 129.0, |
|
''url'': ''https://megamarket.ru/catalog/details/novigo-nv-360-b-100025351075/'', |
|
''image_link'': ''https://main-cdn.sbermegamarket.ru/mid9/hlr-system/16925241112/100025351075b0.jpg'', |
|
''id'': ''100025351075'', ''description'': '''', ''rating'': 4.83, ''review_count'': |
|
69}' |
|
- '{''long_web_name'': ''Аксессуар для принтеров Konica Minolta (9961026723)'', |
|
''price'': 10.0, ''url'': ''https://megamarket.ru/catalog/details/aksessuar-dlya-printerov-konica-minolta-9961026723-600008281362/'', |
|
''image_link'': ''https://main-cdn.sbermegamarket.ru/mid9/hlr-system/690/288/244/717/209/600008281362b0.jpeg'', |
|
''id'': ''600008281362_76846'', ''description'': ''Инструкция Konica Minolta для |
|
bizhub С257i (9961026723)'', ''rating'': 0.0, ''review_count'': 0}' |
|
- source_sentence: Здравствуйте! Я хочу купить внешний диск для хранения данных, желательно |
|
SSD. Нужно, чтобы он был надёжным и быстрым, для переноса больших файлов. Можете |
|
помочь подобрать подходящий? |
|
sentences: |
|
- '{''long_web_name'': ''Сумка унисекс K&F Concept Storage Bag черная, 26х16х10 |
|
см'', ''price'': 3259.0, ''description'': ''<p>Поместится все <p>В сумке предусмотрено |
|
23 отделения для хранения самых разных вещей: смартфон, зарядное устройство, кабели |
|
для передачи данных, usb-накопители, ключи от машины, банковские карты и прочие |
|
ценности </p> Полный или частичный доступ <p>Удобная функция открытия и закрытия |
|
на 120° позволяет использовать несколько комбинаций внутренних отсеков, обеспечивая |
|
высокую степень свободы в адаптации к различным сценариям использования, делая |
|
организацию вещей еще более удобной </p> Для путешествий и работы <p>Компактная |
|
и легкая сумка весом всего 250 г - идеальный выбор для деловых встреч или путешествий. |
|
Она не занимает много места в чемодане или рюкзаке, но при этом обладает внушительной |
|
вместимостью </p> Прочные и надежные материалы изготовления <p>Модель изготовлена |
|
из водонепроницаемого нейлона, с высокопрочной строчкой и противоугонной молнией, |
|
гарантирующей износостойкость и долговечность. Она надежно защищает хранящиеся |
|
внутри вещи от каких либо повреждений </p> Водонепроницаемый нейлон <p>Благодаря |
|
водонепроницаемому нейлону сумка не пропускает влагу внутрь, а также обеспечивает |
|
легкий уход за внешней поверхностью. Внутри модель оснащена эластичной тканью, |
|
отличающейся особой мягкостью и безопасностью для хрупких предметов или гаджетов |
|
</p></p>'', ''rating'': 0.0, ''review_count'': 0}' |
|
- '{''long_web_name'': ''Внешний SSD диск KingSpec 240 ГБ Z3-240'', ''price'': 4129.0, |
|
''description'': '''', ''rating'': 0.0, ''review_count'': 0}' |
|
- '{''long_web_name'': ''Чайная машина Cooleq JD-12 12 л серебристый'', ''price'': |
|
54095.0, ''url'': ''https://megamarket.ru/catalog/details/sokoohladitel-cooleq-jd-12-100042900979/'', |
|
''image_link'': ''https://main-cdn.sbermegamarket.ru/mid9/hlr-system/117/347/633/386/112/1/100042900979b0.png'', |
|
''id'': ''100042900979_126197'', ''description'': '''', ''rating'': 0.0, ''review_count'': |
|
0}' |
|
pipeline_tag: sentence-similarity |
|
library_name: sentence-transformers |
|
metrics: |
|
- cosine_accuracy |
|
- cosine_accuracy_threshold |
|
- cosine_f1 |
|
- cosine_f1_threshold |
|
- cosine_precision |
|
- cosine_recall |
|
- cosine_ap |
|
model-index: |
|
- name: SentenceTransformer based on sergeyzh/rubert-tiny-turbo |
|
results: |
|
- task: |
|
type: binary-classification |
|
name: Binary Classification |
|
dataset: |
|
name: item classification |
|
type: item-classification |
|
metrics: |
|
- type: cosine_accuracy |
|
value: 0.9260204081632653 |
|
name: Cosine Accuracy |
|
- type: cosine_accuracy_threshold |
|
value: 0.7458415031433105 |
|
name: Cosine Accuracy Threshold |
|
- type: cosine_f1 |
|
value: 0.7972027972027971 |
|
name: Cosine F1 |
|
- type: cosine_f1_threshold |
|
value: 0.7458415031433105 |
|
name: Cosine F1 Threshold |
|
- type: cosine_precision |
|
value: 0.7037037037037037 |
|
name: Cosine Precision |
|
- type: cosine_recall |
|
value: 0.9193548387096774 |
|
name: Cosine Recall |
|
- type: cosine_ap |
|
value: 0.7692186034218071 |
|
name: Cosine Ap |
|
--- |
|
|
|
# SentenceTransformer based on sergeyzh/rubert-tiny-turbo |
|
|
|
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [sergeyzh/rubert-tiny-turbo](https://huggingface.co/sergeyzh/rubert-tiny-turbo). It maps sentences & paragraphs to a 312-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more. |
|
|
|
## Model Details |
|
|
|
### Model Description |
|
- **Model Type:** Sentence Transformer |
|
- **Base model:** [sergeyzh/rubert-tiny-turbo](https://huggingface.co/sergeyzh/rubert-tiny-turbo) <!-- at revision 93769a3baad2b037e5c2e4312fccf6bcfe082bf1 --> |
|
- **Maximum Sequence Length:** 2048 tokens |
|
- **Output Dimensionality:** 312 dimensions |
|
- **Similarity Function:** Cosine Similarity |
|
<!-- - **Training Dataset:** Unknown --> |
|
<!-- - **Language:** Unknown --> |
|
<!-- - **License:** Unknown --> |
|
|
|
### Model Sources |
|
|
|
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net) |
|
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers) |
|
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers) |
|
|
|
### Full Model Architecture |
|
|
|
``` |
|
SentenceTransformer( |
|
(0): Transformer({'max_seq_length': 2048, 'do_lower_case': False}) with Transformer model: BertModel |
|
(1): Pooling({'word_embedding_dimension': 312, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True}) |
|
(2): Normalize() |
|
) |
|
``` |
|
|
|
## Usage |
|
|
|
### Direct Usage (Sentence Transformers) |
|
|
|
First install the Sentence Transformers library: |
|
|
|
```bash |
|
pip install -U sentence-transformers |
|
``` |
|
|
|
Then you can load this model and run inference. |
|
```python |
|
from sentence_transformers import SentenceTransformer |
|
|
|
# Download from the 🤗 Hub |
|
model = SentenceTransformer("denis-gordeev/reranker_dialog_items_biencoder_rubert-tiny-turbo-3") |
|
# Run inference |
|
sentences = [ |
|
'Здравствуйте! Я хочу купить внешний диск для хранения данных, желательно SSD. Нужно, чтобы он был надёжным и быстрым, для переноса больших файлов. Можете помочь подобрать подходящий?', |
|
"{'long_web_name': 'Внешний SSD диск KingSpec 240 ГБ Z3-240', 'price': 4129.0, 'description': '', 'rating': 0.0, 'review_count': 0}", |
|
"{'long_web_name': 'Чайная машина Cooleq JD-12 12 л серебристый', 'price': 54095.0, 'url': 'https://megamarket.ru/catalog/details/sokoohladitel-cooleq-jd-12-100042900979/', 'image_link': 'https://main-cdn.sbermegamarket.ru/mid9/hlr-system/117/347/633/386/112/1/100042900979b0.png', 'id': '100042900979_126197', 'description': '', 'rating': 0.0, 'review_count': 0}", |
|
] |
|
embeddings = model.encode(sentences) |
|
print(embeddings.shape) |
|
# [3, 312] |
|
|
|
# Get the similarity scores for the embeddings |
|
similarities = model.similarity(embeddings, embeddings) |
|
print(similarities.shape) |
|
# [3, 3] |
|
``` |
|
|
|
<!-- |
|
### Direct Usage (Transformers) |
|
|
|
<details><summary>Click to see the direct usage in Transformers</summary> |
|
|
|
</details> |
|
--> |
|
|
|
<!-- |
|
### Downstream Usage (Sentence Transformers) |
|
|
|
You can finetune this model on your own dataset. |
|
|
|
<details><summary>Click to expand</summary> |
|
|
|
</details> |
|
--> |
|
|
|
<!-- |
|
### Out-of-Scope Use |
|
|
|
*List how the model may foreseeably be misused and address what users ought not to do with the model.* |
|
--> |
|
|
|
## Evaluation |
|
|
|
### Metrics |
|
|
|
#### Binary Classification |
|
|
|
* Dataset: `item-classification` |
|
* Evaluated with [<code>BinaryClassificationEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.BinaryClassificationEvaluator) |
|
|
|
| Metric | Value | |
|
|:--------------------------|:-----------| |
|
| cosine_accuracy | 0.926 | |
|
| cosine_accuracy_threshold | 0.7458 | |
|
| cosine_f1 | 0.7972 | |
|
| cosine_f1_threshold | 0.7458 | |
|
| cosine_precision | 0.7037 | |
|
| cosine_recall | 0.9194 | |
|
| **cosine_ap** | **0.7692** | |
|
|
|
<!-- |
|
## Bias, Risks and Limitations |
|
|
|
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.* |
|
--> |
|
|
|
<!-- |
|
### Recommendations |
|
|
|
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.* |
|
--> |
|
|
|
## Training Details |
|
|
|
### Training Dataset |
|
|
|
#### Unnamed Dataset |
|
|
|
|
|
* Size: 3,136 training samples |
|
* Columns: <code>anchor</code>, <code>text</code>, and <code>label</code> |
|
* Approximate statistics based on the first 1000 samples: |
|
| | anchor | text | label | |
|
|:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:------------------------------------------------| |
|
| type | string | string | int | |
|
| details | <ul><li>min: 23 tokens</li><li>mean: 43.03 tokens</li><li>max: 91 tokens</li></ul> | <ul><li>min: 52 tokens</li><li>mean: 310.0 tokens</li><li>max: 1009 tokens</li></ul> | <ul><li>0: ~81.90%</li><li>1: ~18.10%</li></ul> | |
|
* Samples: |
|
| anchor | text | label | |
|
|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------| |
|
| <code>Привет! Подскажите, пожалуйста, у вас есть средства для чистки и ухода за холодильником? Ищу что-то недорогое, но эффективное.</code> | <code>{'long_web_name': 'ТЭН для водонагревателя ИТАТЭН ITA-30047', 'price': 1243.0, 'url': 'https://megamarket.ru/catalog/details/ten-dlya-vodonagrevatelya-itaten-ita-30047-600005611737/', 'image_link': 'https://main-cdn.sbermegamarket.ru/mid9/hlr-system/-17/149/578/704/111/611/600005611737b0.jpeg', 'id': '600005611737', 'description': 'Нагревательный элемент для плоского водонагревателя Термекс: RZB 30F, 50F, 80F, 100F ; RZB 30L, 50L, 80L, 100L ; RZB 30FV, 50FV, 80FV, 100FV; IF 30V, 50V, 80V, 100V; ID 30V, 50V, 80V, 100V, Термекс IQ 30 V, Термекс IQ 50 V, Термекс IQ 80 V, Термекс IQ 100 V.Характеристики: Длина: 310 мм;Артикул: 30047;Применение: Для водонагревателей;Совместимость: Garanterm, Thermex;Тип ТЭНа: RF;Мощность: 1300 Вт;Материал: Нержавеющая сталь;Диаметр фланца: 64 мм;Трубка под термостат: Есть;Объем бака: 30 л, 50 л, 80 л, 100 л, 120 л, 150 л;Тип контактов: Клеммы под разъем;Производитель: Китай;Место под анод: М4;Напряжение: 220;Тип водонагревателя: Плоский;Размещение бака: Вер...</code> | <code>0</code> | |
|
| <code>Здравствуйте! Я Андрей, мне 38 лет, я покупаю у вас товары для своего бизнеса по ремонту бытовой техники в Воронеже. Мне нужны моноблоки — это такие настольные компьютеры, где всё встроено в монитор. Интересуют недорогие модели для тестирования программного обеспечения и проведения диагностики. Можете порекомендовать что-то подходящее?</code> | <code>{'long_web_name': 'Моноблок MSI PRO AP242 12M-450RU белый', 'price': 78299.0, 'description': '<p>Моноблок MSI Pro AP242 12M-450RU — это производительная рабочая станция для офисных задач.</p>\n<h2>Комфортная работа</h2>\n<p>Корпус выполнен в белом цвете. Матовое покрытие дисплея защищает от бликов. Другие технические параметры:</p>\n<ul>\n<li>мощный процессор Intel Core i5 12400;</li>\n<li>графический чип UHD Graphics 730;</li>\n<li>оперативная память объемом 16 Гб с возможностью расширения до 64 Гб;</li>\n<li>встроенная веб-камера для общения через Skype и Zoom;</li>\n<li>внутренний накопитель SSD на 512 Гб обеспечивает быстрый доступ к файлам;</li>\n<li>поддерживается беспроводная сеть стандарта 802.11ax.</li>\n</ul>\n<p>Предусмотрены два порта USB 3.2 Type-C и два USB 2.0 Type-A. Есть выход HDMI для подключения монитора или телевизора. Для воспроизведения звука есть встроенные динамики и микрофон.</p>', 'rating': 5.0, 'review_count': 18}</code> | <code>0</code> | |
|
| <code>Здравствуйте! Мне нужно купить карты памяти MicroSD, чтобы использовать их в моём телефоне и планшете. Хотелось бы что-то надёжное и с хорошей скоростью записи. Можете помочь выбрать?</code> | <code>{'long_web_name': 'Флэш карта Kingston Canvas Select Plus SDCS2/32GB microSDHC Class10, 32 Gb, adapter', 'price': 740.0, 'description': '', 'rating': 4.93, 'review_count': 587}</code> | <code>1</code> | |
|
* Loss: [<code>ContrastiveLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#contrastiveloss) with these parameters: |
|
```json |
|
{ |
|
"distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE", |
|
"margin": 0.5, |
|
"size_average": true |
|
} |
|
``` |
|
|
|
### Evaluation Dataset |
|
|
|
#### Unnamed Dataset |
|
|
|
|
|
* Size: 392 evaluation samples |
|
* Columns: <code>anchor</code>, <code>text</code>, and <code>label</code> |
|
* Approximate statistics based on the first 392 samples: |
|
| | anchor | text | label | |
|
|:--------|:-----------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|:------------------------------------------------| |
|
| type | string | string | int | |
|
| details | <ul><li>min: 23 tokens</li><li>mean: 42.23 tokens</li><li>max: 91 tokens</li></ul> | <ul><li>min: 53 tokens</li><li>mean: 312.93 tokens</li><li>max: 1058 tokens</li></ul> | <ul><li>0: ~84.18%</li><li>1: ~15.82%</li></ul> | |
|
* Samples: |
|
| anchor | text | label | |
|
|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------| |
|
| <code>Здравствуйте! Мне нужны магнитные кабели для зарядки моих устройств в походах. Хочу заказать несколько штук, можно с разными разъёмами (USB-C, Micro USB, и Lightning). Желательно, чтобы они были качественными и прочными. Можете помочь с этим?</code> | <code>{'long_web_name': 'ТЭН для водонагревателя ИТАТЭН ITA-30047', 'price': 1243.0, 'url': 'https://megamarket.ru/catalog/details/ten-dlya-vodonagrevatelya-itaten-ita-30047-600005611737/', 'image_link': 'https://main-cdn.sbermegamarket.ru/mid9/hlr-system/-17/149/578/704/111/611/600005611737b0.jpeg', 'id': '600005611737', 'description': 'Нагревательный элемент для плоского водонагревателя Термекс: RZB 30F, 50F, 80F, 100F ; RZB 30L, 50L, 80L, 100L ; RZB 30FV, 50FV, 80FV, 100FV; IF 30V, 50V, 80V, 100V; ID 30V, 50V, 80V, 100V, Термекс IQ 30 V, Термекс IQ 50 V, Термекс IQ 80 V, Термекс IQ 100 V.Характеристики: Длина: 310 мм;Артикул: 30047;Применение: Для водонагревателей;Совместимость: Garanterm, Thermex;Тип ТЭНа: RF;Мощность: 1300 Вт;Материал: Нержавеющая сталь;Диаметр фланца: 64 мм;Трубка под термостат: Есть;Объем бака: 30 л, 50 л, 80 л, 100 л, 120 л, 150 л;Тип контактов: Клеммы под разъем;Производитель: Китай;Место под анод: М4;Напряжение: 220;Тип водонагревателя: Плоский;Размещение бака: Вер...</code> | <code>0</code> | |
|
| <code>Здравствуйте! Мне нужны сумки и рюкзаки для фототехники. Что-то удобное и вместительное, чтобы можно было безопасно носить зеркальный фотоаппарат и несколько объективов. Можно посмотреть варианты?</code> | <code>{'long_web_name': 'Аксессуар для принтеров Konica Minolta (9961026723)', 'price': 10.0, 'url': 'https://megamarket.ru/catalog/details/aksessuar-dlya-printerov-konica-minolta-9961026723-600008281362/', 'image_link': 'https://main-cdn.sbermegamarket.ru/mid9/hlr-system/690/288/244/717/209/600008281362b0.jpeg', 'id': '600008281362_76846', 'description': 'Инструкция Konica Minolta для bizhub С257i (9961026723)', 'rating': 0.0, 'review_count': 0}</code> | <code>0</code> | |
|
| <code>Здравствуйте! Ищу умные часы Apple Watch Series 2. Скажите, пожалуйста, есть ли у вас в наличии?</code> | <code>{'long_web_name': 'Смарт-часы Apple Watch Series 9 45 мм Midnight размер ML', 'price': 58373.0, 'description': 'Смарт-часы Apple Watch. Материал корпуса — алюминий. Время работы в активном режиме — до 18 часов. Функция Double Tap активируется посредством двух быстрых касаний указательного и большого пальцев — можно ответить на звонок, выключить будильник и управлять воспроизведением музыки. Объем встроенной памяти — 64 Гб. В комплекте — кабель USB?C с магнитным креплением для быстрой зарядки', 'rating': 4.97, 'review_count': 114}</code> | <code>0</code> | |
|
* Loss: [<code>ContrastiveLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#contrastiveloss) with these parameters: |
|
```json |
|
{ |
|
"distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE", |
|
"margin": 0.5, |
|
"size_average": true |
|
} |
|
``` |
|
|
|
### Training Hyperparameters |
|
#### Non-Default Hyperparameters |
|
|
|
- `eval_strategy`: steps |
|
- `num_train_epochs`: 1 |
|
- `warmup_ratio`: 0.1 |
|
- `fp16`: True |
|
- `load_best_model_at_end`: True |
|
- `batch_sampler`: no_duplicates |
|
|
|
#### All Hyperparameters |
|
<details><summary>Click to expand</summary> |
|
|
|
- `overwrite_output_dir`: False |
|
- `do_predict`: False |
|
- `eval_strategy`: steps |
|
- `prediction_loss_only`: True |
|
- `per_device_train_batch_size`: 8 |
|
- `per_device_eval_batch_size`: 8 |
|
- `per_gpu_train_batch_size`: None |
|
- `per_gpu_eval_batch_size`: None |
|
- `gradient_accumulation_steps`: 1 |
|
- `eval_accumulation_steps`: None |
|
- `torch_empty_cache_steps`: None |
|
- `learning_rate`: 5e-05 |
|
- `weight_decay`: 0.0 |
|
- `adam_beta1`: 0.9 |
|
- `adam_beta2`: 0.999 |
|
- `adam_epsilon`: 1e-08 |
|
- `max_grad_norm`: 1.0 |
|
- `num_train_epochs`: 1 |
|
- `max_steps`: -1 |
|
- `lr_scheduler_type`: linear |
|
- `lr_scheduler_kwargs`: {} |
|
- `warmup_ratio`: 0.1 |
|
- `warmup_steps`: 0 |
|
- `log_level`: passive |
|
- `log_level_replica`: warning |
|
- `log_on_each_node`: True |
|
- `logging_nan_inf_filter`: True |
|
- `save_safetensors`: True |
|
- `save_on_each_node`: False |
|
- `save_only_model`: False |
|
- `restore_callback_states_from_checkpoint`: False |
|
- `no_cuda`: False |
|
- `use_cpu`: False |
|
- `use_mps_device`: False |
|
- `seed`: 42 |
|
- `data_seed`: None |
|
- `jit_mode_eval`: False |
|
- `use_ipex`: False |
|
- `bf16`: False |
|
- `fp16`: True |
|
- `fp16_opt_level`: O1 |
|
- `half_precision_backend`: auto |
|
- `bf16_full_eval`: False |
|
- `fp16_full_eval`: False |
|
- `tf32`: None |
|
- `local_rank`: 0 |
|
- `ddp_backend`: None |
|
- `tpu_num_cores`: None |
|
- `tpu_metrics_debug`: False |
|
- `debug`: [] |
|
- `dataloader_drop_last`: False |
|
- `dataloader_num_workers`: 0 |
|
- `dataloader_prefetch_factor`: None |
|
- `past_index`: -1 |
|
- `disable_tqdm`: False |
|
- `remove_unused_columns`: True |
|
- `label_names`: None |
|
- `load_best_model_at_end`: True |
|
- `ignore_data_skip`: False |
|
- `fsdp`: [] |
|
- `fsdp_min_num_params`: 0 |
|
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False} |
|
- `fsdp_transformer_layer_cls_to_wrap`: None |
|
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None} |
|
- `deepspeed`: None |
|
- `label_smoothing_factor`: 0.0 |
|
- `optim`: adamw_torch |
|
- `optim_args`: None |
|
- `adafactor`: False |
|
- `group_by_length`: False |
|
- `length_column_name`: length |
|
- `ddp_find_unused_parameters`: None |
|
- `ddp_bucket_cap_mb`: None |
|
- `ddp_broadcast_buffers`: False |
|
- `dataloader_pin_memory`: True |
|
- `dataloader_persistent_workers`: False |
|
- `skip_memory_metrics`: True |
|
- `use_legacy_prediction_loop`: False |
|
- `push_to_hub`: False |
|
- `resume_from_checkpoint`: None |
|
- `hub_model_id`: None |
|
- `hub_strategy`: every_save |
|
- `hub_private_repo`: None |
|
- `hub_always_push`: False |
|
- `gradient_checkpointing`: False |
|
- `gradient_checkpointing_kwargs`: None |
|
- `include_inputs_for_metrics`: False |
|
- `include_for_metrics`: [] |
|
- `eval_do_concat_batches`: True |
|
- `fp16_backend`: auto |
|
- `push_to_hub_model_id`: None |
|
- `push_to_hub_organization`: None |
|
- `mp_parameters`: |
|
- `auto_find_batch_size`: False |
|
- `full_determinism`: False |
|
- `torchdynamo`: None |
|
- `ray_scope`: last |
|
- `ddp_timeout`: 1800 |
|
- `torch_compile`: False |
|
- `torch_compile_backend`: None |
|
- `torch_compile_mode`: None |
|
- `dispatch_batches`: None |
|
- `split_batches`: None |
|
- `include_tokens_per_second`: False |
|
- `include_num_input_tokens_seen`: False |
|
- `neftune_noise_alpha`: None |
|
- `optim_target_modules`: None |
|
- `batch_eval_metrics`: False |
|
- `eval_on_start`: False |
|
- `use_liger_kernel`: False |
|
- `eval_use_gather_object`: False |
|
- `average_tokens_across_devices`: False |
|
- `prompts`: None |
|
- `batch_sampler`: no_duplicates |
|
- `multi_dataset_batch_sampler`: proportional |
|
|
|
</details> |
|
|
|
### Training Logs |
|
| Epoch | Step | Training Loss | Validation Loss | item-classification_cosine_ap | |
|
|:----------:|:-------:|:-------------:|:---------------:|:-----------------------------:| |
|
| 0 | 0 | - | 0.0302 | 0.3988 | |
|
| 0.2551 | 100 | 0.0129 | - | - | |
|
| 0.5102 | 200 | 0.0065 | - | - | |
|
| **0.6378** | **250** | **-** | **0.0065** | **0.7692** | |
|
| 0.7653 | 300 | 0.0058 | - | - | |
|
| 1.0 | 392 | - | 0.0065 | 0.7692 | |
|
|
|
* The bold row denotes the saved checkpoint. |
|
|
|
### Framework Versions |
|
- Python: 3.10.13 |
|
- Sentence Transformers: 3.3.1 |
|
- Transformers: 4.47.1 |
|
- PyTorch: 2.2.1 |
|
- Accelerate: 1.2.1 |
|
- Datasets: 3.2.0 |
|
- Tokenizers: 0.21.0 |
|
|
|
## Citation |
|
|
|
### BibTeX |
|
|
|
#### Sentence Transformers |
|
```bibtex |
|
@inproceedings{reimers-2019-sentence-bert, |
|
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks", |
|
author = "Reimers, Nils and Gurevych, Iryna", |
|
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing", |
|
month = "11", |
|
year = "2019", |
|
publisher = "Association for Computational Linguistics", |
|
url = "https://arxiv.org/abs/1908.10084", |
|
} |
|
``` |
|
|
|
#### ContrastiveLoss |
|
```bibtex |
|
@inproceedings{hadsell2006dimensionality, |
|
author={Hadsell, R. and Chopra, S. and LeCun, Y.}, |
|
booktitle={2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06)}, |
|
title={Dimensionality Reduction by Learning an Invariant Mapping}, |
|
year={2006}, |
|
volume={2}, |
|
number={}, |
|
pages={1735-1742}, |
|
doi={10.1109/CVPR.2006.100} |
|
} |
|
``` |
|
|
|
<!-- |
|
## Glossary |
|
|
|
*Clearly define terms in order to be accessible across audiences.* |
|
--> |
|
|
|
<!-- |
|
## Model Card Authors |
|
|
|
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.* |
|
--> |
|
|
|
<!-- |
|
## Model Card Contact |
|
|
|
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.* |
|
--> |