--- language: - uk tags: - ukrainian widget: - text: "Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера." license: mit --- ## Model Description Fine-tuning of [XLM-RoBERTa-Uk](https://huggingface.co/ukr-models/xlm-roberta-base-uk) model on [synthetic NER dataset](https://huggingface.co/datasets/ukr-models/Ukr-Synth) with B-PER, I-PER, B-LOC, I-LOC, B-ORG, I-ORG tags ## How to Use Huggingface pipeline way (returns tokens with labels): ```py from transformers import pipeline, AutoTokenizer, AutoModelForTokenClassification tokenizer = AutoTokenizer.from_pretrained('ukr-models/uk-ner') model = AutoModelForTokenClassification.from_pretrained('ukr-models/uk-ner') ner = pipeline('ner', model=model, tokenizer=tokenizer) ner("Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера.") ``` If you wish to get predictions split by words, not by tokens, you may use the following approach (download script get_predictions.py from the repository, it uses [package tokenize_uk](https://pypi.org/project/tokenize_uk/) for splitting) ```py from transformers import AutoTokenizer, AutoModelForTokenClassification from get_predictions import get_word_predictions tokenizer = AutoTokenizer.from_pretrained('ukr-models/uk-ner') model = AutoModelForTokenClassification.from_pretrained('ukr-models/uk-ner') get_word_predictions(model, tokenizer, ["Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера."]) ```