Update README.md
Browse files
README.md
CHANGED
@@ -11,7 +11,7 @@ tags:
|
|
11 |
- summarization
|
12 |
base_model: openchat/openchat-3.5-0106
|
13 |
datasets:
|
14 |
-
- somosnlp/
|
15 |
metrics:
|
16 |
- rouge
|
17 |
pipeline_tag: text-generation
|
@@ -58,7 +58,7 @@ widget:
|
|
58 |
Los artículos clickbait suelen ser de baja calidad y no aportan valor al lector, más allá de la curiosidad inicial. Este fenómeno hace socavar la confianza del público en las fuentes de noticias.
|
59 |
Y afecta negativamente a los ingresos publicitarios de los creadores de contenidos legítimos, que podrían ver reducido su tráfico web.
|
60 |
|
61 |
-
Presentamos un modelo de 7B parámetros, entrenado con el dataset [NoticIA](https://huggingface.co/datasets/somosnlp/
|
62 |
generar resúmenes concisos y de alta calidad de artículos con titulares clickbait.
|
63 |
|
64 |
|
@@ -75,7 +75,7 @@ entrenamiento *Low-Rank Adaptation* (LoRA).
|
|
75 |
La configuración exacta de entrenamiento está disponible en []()
|
76 |
|
77 |
### Prompt
|
78 |
-
El prompt utilizado para el entrenamiento es el mismo definido explicado en [https://huggingface.co/datasets/somosnlp/
|
79 |
El prompt es convertido al template de chat específico de cada modelo.
|
80 |
|
81 |
# Rendimiento
|
@@ -151,7 +151,7 @@ def prompt(
|
|
151 |
|
152 |
prompt = prompt(headline=headline, body=body)
|
153 |
|
154 |
-
tokenizer = AutoTokenizer.from_pretrained("somosnlp/
|
155 |
|
156 |
|
157 |
quantization_config = BitsAndBytesConfig(
|
@@ -161,7 +161,7 @@ quantization_config = BitsAndBytesConfig(
|
|
161 |
)
|
162 |
|
163 |
model = AutoModelForCausalLM.from_pretrained(
|
164 |
-
"somosnlp/
|
165 |
)
|
166 |
|
167 |
formatted_prompt = tokenizer.apply_chat_template(
|
@@ -196,9 +196,9 @@ from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig #
|
|
196 |
from transformers import BitsAndBytesConfig # pip install bitsandbytes
|
197 |
|
198 |
|
199 |
-
dataset = load_dataset("somosnlp/
|
200 |
|
201 |
-
tokenizer = AutoTokenizer.from_pretrained("
|
202 |
|
203 |
quantization_config = BitsAndBytesConfig(
|
204 |
load_in_4bit=True,
|
@@ -207,7 +207,7 @@ quantization_config = BitsAndBytesConfig(
|
|
207 |
)
|
208 |
|
209 |
model = AutoModelForCausalLM.from_pretrained(
|
210 |
-
"
|
211 |
)
|
212 |
|
213 |
formatted_prompt = tokenizer.apply_chat_template(
|
|
|
11 |
- summarization
|
12 |
base_model: openchat/openchat-3.5-0106
|
13 |
datasets:
|
14 |
+
- somosnlp/NoticIA-it
|
15 |
metrics:
|
16 |
- rouge
|
17 |
pipeline_tag: text-generation
|
|
|
58 |
Los artículos clickbait suelen ser de baja calidad y no aportan valor al lector, más allá de la curiosidad inicial. Este fenómeno hace socavar la confianza del público en las fuentes de noticias.
|
59 |
Y afecta negativamente a los ingresos publicitarios de los creadores de contenidos legítimos, que podrían ver reducido su tráfico web.
|
60 |
|
61 |
+
Presentamos un modelo de 7B parámetros, entrenado con el dataset [NoticIA](https://huggingface.co/datasets/somosnlp/NoticIA-it). Este modelo es capaz de
|
62 |
generar resúmenes concisos y de alta calidad de artículos con titulares clickbait.
|
63 |
|
64 |
|
|
|
75 |
La configuración exacta de entrenamiento está disponible en []()
|
76 |
|
77 |
### Prompt
|
78 |
+
El prompt utilizado para el entrenamiento es el mismo definido explicado en [https://huggingface.co/datasets/somosnlp/NoticIA-it](https://huggingface.co/datasets/somosnlp/NoticIA-it).
|
79 |
El prompt es convertido al template de chat específico de cada modelo.
|
80 |
|
81 |
# Rendimiento
|
|
|
151 |
|
152 |
prompt = prompt(headline=headline, body=body)
|
153 |
|
154 |
+
tokenizer = AutoTokenizer.from_pretrained("somosnlp/NoticIA-7B")
|
155 |
|
156 |
|
157 |
quantization_config = BitsAndBytesConfig(
|
|
|
161 |
)
|
162 |
|
163 |
model = AutoModelForCausalLM.from_pretrained(
|
164 |
+
"somosnlp/NoticIA-7B", torch_dtype=torch.bfloat16, device_map="auto",quantization_config=quantization_config,
|
165 |
)
|
166 |
|
167 |
formatted_prompt = tokenizer.apply_chat_template(
|
|
|
196 |
from transformers import BitsAndBytesConfig # pip install bitsandbytes
|
197 |
|
198 |
|
199 |
+
dataset = load_dataset("somosnlp/NoticIA-it",split="test")
|
200 |
|
201 |
+
tokenizer = AutoTokenizer.from_pretrained("somosnlp/NoticIA-7B")
|
202 |
|
203 |
quantization_config = BitsAndBytesConfig(
|
204 |
load_in_4bit=True,
|
|
|
207 |
)
|
208 |
|
209 |
model = AutoModelForCausalLM.from_pretrained(
|
210 |
+
"somosnlp/NoticIA-7B", torch_dtype=torch.bfloat16, device_map="auto", quantization_config=quantization_config,
|
211 |
)
|
212 |
|
213 |
formatted_prompt = tokenizer.apply_chat_template(
|