Modelin açıklaması (model description)
Bu model distilbert-base-turkish'in turkish-toxic-language dataset'i üzerinde fine-tune edilmiş versiyonudur.
Sonuçlar (results)
Model google colab üzerinde T4 GPU ile yaklaşık 1.5 saatte eğitilmiştir. Eğitim parametleri aşağıda verilmiştir.
Model evaluation veri setinde şu değerlere ulaşmıştır:
- Loss: 0.2019
- Accuracy: 0.9287
Modelin kullanım amacı (intended uses)
Verilen Türkçe cümlenin toksik olup olmadığını tespit edip etiketleme amaçlı kullanılmaktadır.
Etiketler :
OTHER : Toksik değil
INSULT : Hakaret
PROFANITY : Küfür
SEXIST : Cinsiyetçilik
RACIST : Irkçılık
Modelin Kullanılması (Usage)
from transformers import pipeline
pipe = pipeline("sentiment-analysis", model="barandinho/distilbert-base-turkish-cased-toxic-lang")
Training ve evaluation verisi (training and evaluation data)
Model en başta training ve evaluation diye ayrılıp 2 epoch boyunca eğitilmiştir. Modelin başarısı doğrulanınca training ve evaluation veri setleri birleştirilip 3 epoch boyunca tekrardan eğitilecektir.
Eğitilirken kullanılan parametreler (training hyperparameters)
- learning_rate: 5e-05
- train_batch_size: 32
- eval_batch_size: 32
- seed: 42
- gradient_accumulation_steps: 2
- total_train_batch_size: 64
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- lr_scheduler_warmup_steps: 500
- num_epochs: 2
Eğitim sonuçları (training results)
Training Loss | Epoch | Step | Validation Loss | Accuracy |
---|---|---|---|---|
0.762 | 1.0 | 972 | 0.2179 | 0.9210 |
0.1682 | 2.0 | 1944 | 0.2019 | 0.9287 |
Framework versiyonları (framework versions)
- Transformers 4.35.2
- Pytorch 2.1.0+cu121
- Datasets 2.16.1
- Tokenizers 0.15.1
- Downloads last month
- 169
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.
Model tree for barandinho/distilbert-base-turkish-cased-toxic-lang
Base model
dbmdz/distilbert-base-turkish-cased