---
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:2818353
- loss:CachedMultipleNegativesRankingLoss
base_model: answerdotai/ModernBERT-base
widget:
- source_sentence: واش كا يحبس هاد الطوبيس في شارع ستونر؟
sentences:
- '{''ar'': ''هل هذه الحافلة تتوقف في شارع أستونر ؟''}'
- tachicart/mo_darija_merged
- tachicart/mo_darija_merged
- source_sentence: العمال تما يقدرو يبدلو ليك الدولار بالفيتشات ديال الكازينو. مشينا؟
sentences:
- tachicart/mo_darija_merged
- tachicart/mo_darija_merged
- '{''ar'': ''يستطيع الصرافون أن يغيروا دولاراتك من أجل بقشيش الكازينو . هل نذهب
؟''}'
- source_sentence: واخا توريني شي كبوط مضاد للماء؟
sentences:
- tachicart/mo_darija_merged
- '{''ar'': ''هل لك أن ترنى معطفاً ضد الماء ؟''}'
- tachicart/mo_darija_merged
- source_sentence: فين كاين البلاطو رقم خمسة؟
sentences:
- tachicart/mo_darija_merged
- tachicart/mo_darija_merged
- '{''ar'': ''أين الرصيف رقم خمسة ؟''}'
- source_sentence: شحال للمطار؟
sentences:
- tachicart/mo_darija_merged
- tachicart/mo_darija_merged
- '{''ar'': ''كم سأدفع للوصول إلى المطار ؟''}'
datasets:
- atlasia/AL-Atlas-Moroccan-Darija-Pretraining-Dataset
pipeline_tag: sentence-similarity
library_name: sentence-transformers
---
# SentenceTransformer based on answerdotai/ModernBERT-base
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [answerdotai/ModernBERT-base](https://huggingface.co/answerdotai/ModernBERT-base) on the [al-atlas-moroccan-darija-pretraining-dataset](https://huggingface.co/datasets/atlasia/AL-Atlas-Moroccan-Darija-Pretraining-Dataset) dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
## Model Details
### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [answerdotai/ModernBERT-base](https://huggingface.co/answerdotai/ModernBERT-base)
- **Maximum Sequence Length:** 8192 tokens
- **Output Dimensionality:** 768 dimensions
- **Similarity Function:** Cosine Similarity
- **Training Dataset:**
- [al-atlas-moroccan-darija-pretraining-dataset](https://huggingface.co/datasets/atlasia/AL-Atlas-Moroccan-Darija-Pretraining-Dataset)
### Model Sources
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
### Full Model Architecture
```
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
```
## Usage
### Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
```bash
pip install -U sentence-transformers
```
Then you can load this model and run inference.
```python
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("BounharAbdelaziz/ModernBERT-basemoroccan-arabic-epoch-2lr-0.0005batch-32")
# Run inference
sentences = [
'شحال للمطار؟',
'tachicart/mo_darija_merged',
"{'ar': 'كم سأدفع للوصول إلى المطار ؟'}",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
```
## Training Details
### Training Dataset
#### al-atlas-moroccan-darija-pretraining-dataset
* Dataset: [al-atlas-moroccan-darija-pretraining-dataset](https://huggingface.co/datasets/atlasia/AL-Atlas-Moroccan-Darija-Pretraining-Dataset) at [6668961](https://huggingface.co/datasets/atlasia/AL-Atlas-Moroccan-Darija-Pretraining-Dataset/tree/66689612b03f0d7a9528bf74ea30782dd2976569)
* Size: 2,818,353 training samples
* Columns: text
, dataset_source
, and metadata
* Approximate statistics based on the first 1000 samples:
| | text | dataset_source | metadata |
|:--------|:-------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
| type | string | string | string |
| details |
سامي خضيرة :
الكابيتان فوقتنا كان هو كاسياس ولكن كنا كنحسو باللي راموس هو القائد الفعلي كان فيه الروح و الغرينتا ديال الاسبان .
ماتنساش كان معانا تا رونالدو كيهضر مع كولشي ويحفزنا ، و عادي تسمعو وسط الفيستير كيقول " خضيرة زير راسك وكون عدواني " ، " مسعود عطينا شوية من سحرك الكروي فالتيران " ونتا أدي ماريا حاول تشد الكرة وقصد المرمى " كان هادشي كيخلينا نعطيو كل ما فجهدنا
و بطبيعة الحال كان مورينيو الخطير فهاد الضومين ، و كانت المشكلة الكبيرة ديما هي كيفاش نوقفو ميسي ماشي غير حنا ولكن كاع الفراقي فداك الوقت .
| atlasia/facebook_darija_dataset
| {'pageName': "Football B'darija - فوتبول بالداريجة"}
|
| الأحداث كاتتطور بسرعة رهيبة ف بريتوريا !!
ميغيل كاردوزو المدرب السابق للترجي الرياضي التونسي وصل البارح بشكل مفاجئ لجنوب افريقيا.. وصباح اليوم الصحافة المحلية كاتأكد انو ماميلودي سانداونز غاتقيل المدرب ديالها اليوم و غاتعين كاردوزو ك بديل !
| atlasia/facebook_darija_dataset
| {'pageName': "Football B'darija - فوتبول بالداريجة"}
|
| الريال و تحدي جديد هاد الليلة باش يرجعو للمنافسة ف التشامبيانزليغ قدام خصم أقل ما يتقال عليه انو عتيد هو اتلانتا بيرغامو وليدات العبقري جيانبييرو غاسبيريني..
الريال مؤخرا ورغم الشكوك اللي دايرة على الفريق والمشاكل الدفاعية و الإصابات اللي زادت ف الهشاشة ديال الدفاع ديالو الا انو رجع بقوة للمنافسة فالليغا واستغل الفترة د الفراغ اللي تا تعيشها البارسا حاليا باش يرجع على بعد نقطتين من الصدارة و عندو ماتش مؤجل مرشح بقوة يفوز فيه على فالنسيا ويطلع للقمة ..
الريال تانضن لا ربح اليوم غايمحي بشكل شبه كلي الغمامة اللي كاتطوف فوق منو من بدا الموسم و غايقوي ثقة الجمهور فيه و يرجع الثقة للمجموعة و غايرسم راسو ك رقم قوي ف المنافسة المفضلة ليه واحنا ديجا عارفين ان الريال diesel فرقة كاتديماري بشوية بشوية وفالفترات الحاسمة ف الموسم كاتورك على السانكيام فيتيس.
| atlasia/facebook_darija_dataset
| {'pageName': "Football B'darija - فوتبول بالداريجة"}
|
* Loss: [CachedMultipleNegativesRankingLoss
](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedmultiplenegativesrankingloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
```
### Evaluation Dataset
#### al-atlas-moroccan-darija-pretraining-dataset
* Dataset: [al-atlas-moroccan-darija-pretraining-dataset](https://huggingface.co/datasets/atlasia/AL-Atlas-Moroccan-Darija-Pretraining-Dataset) at [6668961](https://huggingface.co/datasets/atlasia/AL-Atlas-Moroccan-Darija-Pretraining-Dataset/tree/66689612b03f0d7a9528bf74ea30782dd2976569)
* Size: 1,875 evaluation samples
* Columns: text
, dataset_source
, and metadata
* Approximate statistics based on the first 1000 samples:
| | text | dataset_source | metadata |
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
| type | string | string | string |
| details | كاين في اللاخر ديال هاد القاعة. انجيب ليك شويا دابا. و إلا حتاجيتي شي حاجا اخرى، قولها ليا.
| tachicart/mo_darija_merged
| {'ar': 'إنها في أخر القاعة . سوف آتي لك ببعض منها الآن . إذا أردت أي شيئاً آخر فقط أعلمني .'}
|
| واش كا دير التعديلات؟
| tachicart/mo_darija_merged
| {'ar': 'هل تقومون بعمل تعديلات ؟'}
|
| بغينا ناخدو طابلة حدا الشرجم.
| tachicart/mo_darija_merged
| {'ar': 'نريد مائدة بجانب النافذة .'}
|
* Loss: [CachedMultipleNegativesRankingLoss
](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedmultiplenegativesrankingloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
```
### Training Hyperparameters
#### Non-Default Hyperparameters
- `eval_strategy`: steps
- `per_device_train_batch_size`: 32
- `per_device_eval_batch_size`: 32
- `learning_rate`: 0.0005
- `num_train_epochs`: 2
- `warmup_ratio`: 0.03
- `bf16`: True
#### All Hyperparameters