Upload tokenizer

Browse files

Files changed (6) hide show

README.md +37 -42
added_tokens.json +4 -0
special_tokens_map.json +34 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +62 -0

README.md CHANGED Viewed

@@ -1,54 +1,49 @@
 ---
 license: apache-2.0
 base_model: openchat/openchat-3.5-0106
 datasets:
 - somosnlp/Resumen_Noticias_Clickbait
-language:
-- es
 metrics:
 - rouge
-library_name: transformers
 pipeline_tag: text-generation
-tags:
-  - clickbait
-  - noticia
-  - spanish
-  - summary
-  - summarization
 widget:
-  - example_title: Summary Example
-    messages:
-      - role: user
-        content: >-
-          Ahora eres una Inteligencia Artificial experta en desmontar titulares
-          sensacionalistas o clickbait. Tu tarea consiste en analizar noticias
-          con titulares sensacionalistas y generar un resumen de una sola frase
-          que revele la verdad detrás del titular.\nEste es el titular de la
-          noticia: Le compra un abrigo a su abuela de 97 años y la reacción de
-          esta es una fantasía\nEl titular plantea una pregunta o proporciona
-          información incompleta. Debes buscar en el cuerpo de la noticia una
-          frase que responda lo que se sugiere en el título. Siempre que puedas
-          cita el texto original, especialmente si se trata de una frase que
-          alguien ha dicho. Si citas una frase que alguien ha dicho, usa
-          comillas para indicar que es una cita. Usa siempre las mínimas
-          palabras posibles. No es necesario que la respuesta sea una oración
-          completa. Puede ser sólo el foco de la pregunta. Recuerda responder
-          siempre en Español.\nEste es el cuerpo de la noticia:\nLa usuaria de X
-          @Kokreta1 ha relatado la conversación que ha tenido con su abuela de
-          97 años cuando le ha dado el abrigo que le ha comprado para su
-          cumpleaños.\nTeniendo en cuenta la avanzada edad de la señora, la
-          tuitera le ha regalado una prenda acorde a sus años, algo con lo que
-          su yaya no ha estado de acuerdo.\nEl abrigo es de vieja, ha opinado la
-          mujer cuando lo ha visto. Os juro que soy muy fan. Mañana vamos las
-          dos (a por otro). Eso sí, la voy a llevar al Bershka, ha asegurado
-          entre risas la joven.\nSegún la propia cadena de ropa, la cual
-          pertenece a Inditex, su público se caracteriza por ser jóvenes
-          atrevidos, conocedores de las últimas tendencias e interesados en la
-          música, las redes sociales y las nuevas tecnologías, por lo que la
-          gente mayor no suele llevar este estilo.\nLa inusual personalidad de
-          la señora ha encantado a los usuarios de la red. Es por eso que el
-          relato ha acumulado más de 1.000 me gusta y cerca de 100 retuits,
-          además de una multitud de comentarios.\n
 ---
 <p align="center">

 ---
+language:
+- es
 license: apache-2.0
+library_name: transformers
+tags:
+- clickbait
+- noticia
+- spanish
+- summary
+- summarization
 base_model: openchat/openchat-3.5-0106
 datasets:
 - somosnlp/Resumen_Noticias_Clickbait
 metrics:
 - rouge
 pipeline_tag: text-generation
 widget:
+- example_title: Summary Example
+  messages:
+  - role: user
+    content: 'Ahora eres una Inteligencia Artificial experta en desmontar titulares
+      sensacionalistas o clickbait. Tu tarea consiste en analizar noticias con titulares
+      sensacionalistas y generar un resumen de una sola frase que revele la verdad
+      detrás del titular.\nEste es el titular de la noticia: Le compra un abrigo a
+      su abuela de 97 años y la reacción de esta es una fantasía\nEl titular plantea
+      una pregunta o proporciona información incompleta. Debes buscar en el cuerpo
+      de la noticia una frase que responda lo que se sugiere en el título. Siempre
+      que puedas cita el texto original, especialmente si se trata de una frase que
+      alguien ha dicho. Si citas una frase que alguien ha dicho, usa comillas para
+      indicar que es una cita. Usa siempre las mínimas palabras posibles. No es necesario
+      que la respuesta sea una oración completa. Puede ser sólo el foco de la pregunta.
+      Recuerda responder siempre en Español.\nEste es el cuerpo de la noticia:\nLa
+      usuaria de X @Kokreta1 ha relatado la conversación que ha tenido con su abuela
+      de 97 años cuando le ha dado el abrigo que le ha comprado para su cumpleaños.\nTeniendo
+      en cuenta la avanzada edad de la señora, la tuitera le ha regalado una prenda
+      acorde a sus años, algo con lo que su yaya no ha estado de acuerdo.\nEl abrigo
+      es de vieja, ha opinado la mujer cuando lo ha visto. Os juro que soy muy fan.
+      Mañana vamos las dos (a por otro). Eso sí, la voy a llevar al Bershka, ha asegurado
+      entre risas la joven.\nSegún la propia cadena de ropa, la cual pertenece a Inditex,
+      su público se caracteriza por ser jóvenes atrevidos, conocedores de las últimas
+      tendencias e interesados en la música, las redes sociales y las nuevas tecnologías,
+      por lo que la gente mayor no suele llevar este estilo.\nLa inusual personalidad
+      de la señora ha encantado a los usuarios de la red. Es por eso que el relato
+      ha acumulado más de 1.000 me gusta y cerca de 100 retuits, además de una multitud
+      de comentarios.\n'
 ---
 <p align="center">

added_tokens.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "<|end_of_turn|>": 32000,
+  "<|pad_0|>": 32001
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "additional_special_tokens": [
+    "<|end_of_turn|>",
+    "<|pad_0|>"
+  ],
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|end_of_turn|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dadfd56d766715c61d2ef780a525ab43b8e6da4de6865bda3d95fdef5e134055
+size 493443

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "<|end_of_turn|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32001": {
+      "content": "<|pad_0|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|end_of_turn|>",
+    "<|pad_0|>"
+  ],
+  "bos_token": "<s>",
+  "chat_template": "{{ bos_token }}{% for message in messages %}{{ 'GPT4 Correct ' + message['role'].title() + ': ' + message['content'] + '<|end_of_turn|>'}}{% endfor %}{% if add_generation_prompt %}{{ 'GPT4 Correct Assistant:' }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|end_of_turn|>",
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<unk>",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": true
+}