Iker commited on
Commit
5acbe92
·
verified ·
1 Parent(s): 91a841a

Upload tokenizer

Browse files
README.md CHANGED
@@ -1,54 +1,49 @@
1
  ---
 
 
2
  license: apache-2.0
 
 
 
 
 
 
 
3
  base_model: openchat/openchat-3.5-0106
4
  datasets:
5
  - somosnlp/Resumen_Noticias_Clickbait
6
- language:
7
- - es
8
  metrics:
9
  - rouge
10
- library_name: transformers
11
  pipeline_tag: text-generation
12
- tags:
13
- - clickbait
14
- - noticia
15
- - spanish
16
- - summary
17
- - summarization
18
  widget:
19
- - example_title: Summary Example
20
- messages:
21
- - role: user
22
- content: >-
23
- Ahora eres una Inteligencia Artificial experta en desmontar titulares
24
- sensacionalistas o clickbait. Tu tarea consiste en analizar noticias
25
- con titulares sensacionalistas y generar un resumen de una sola frase
26
- que revele la verdad detrás del titular.\nEste es el titular de la
27
- noticia: Le compra un abrigo a su abuela de 97 años y la reacción de
28
- esta es una fantasía\nEl titular plantea una pregunta o proporciona
29
- información incompleta. Debes buscar en el cuerpo de la noticia una
30
- frase que responda lo que se sugiere en el título. Siempre que puedas
31
- cita el texto original, especialmente si se trata de una frase que
32
- alguien ha dicho. Si citas una frase que alguien ha dicho, usa
33
- comillas para indicar que es una cita. Usa siempre las mínimas
34
- palabras posibles. No es necesario que la respuesta sea una oración
35
- completa. Puede ser sólo el foco de la pregunta. Recuerda responder
36
- siempre en Español.\nEste es el cuerpo de la noticia:\nLa usuaria de X
37
- @Kokreta1 ha relatado la conversación que ha tenido con su abuela de
38
- 97 años cuando le ha dado el abrigo que le ha comprado para su
39
- cumpleaños.\nTeniendo en cuenta la avanzada edad de la señora, la
40
- tuitera le ha regalado una prenda acorde a sus años, algo con lo que
41
- su yaya no ha estado de acuerdo.\nEl abrigo es de vieja, ha opinado la
42
- mujer cuando lo ha visto. Os juro que soy muy fan. Mañana vamos las
43
- dos (a por otro). Eso sí, la voy a llevar al Bershka, ha asegurado
44
- entre risas la joven.\nSegún la propia cadena de ropa, la cual
45
- pertenece a Inditex, su público se caracteriza por ser jóvenes
46
- atrevidos, conocedores de las últimas tendencias e interesados en la
47
- música, las redes sociales y las nuevas tecnologías, por lo que la
48
- gente mayor no suele llevar este estilo.\nLa inusual personalidad de
49
- la señora ha encantado a los usuarios de la red. Es por eso que el
50
- relato ha acumulado más de 1.000 me gusta y cerca de 100 retuits,
51
- además de una multitud de comentarios.\n
52
  ---
53
 
54
  <p align="center">
 
1
  ---
2
+ language:
3
+ - es
4
  license: apache-2.0
5
+ library_name: transformers
6
+ tags:
7
+ - clickbait
8
+ - noticia
9
+ - spanish
10
+ - summary
11
+ - summarization
12
  base_model: openchat/openchat-3.5-0106
13
  datasets:
14
  - somosnlp/Resumen_Noticias_Clickbait
 
 
15
  metrics:
16
  - rouge
 
17
  pipeline_tag: text-generation
 
 
 
 
 
 
18
  widget:
19
+ - example_title: Summary Example
20
+ messages:
21
+ - role: user
22
+ content: 'Ahora eres una Inteligencia Artificial experta en desmontar titulares
23
+ sensacionalistas o clickbait. Tu tarea consiste en analizar noticias con titulares
24
+ sensacionalistas y generar un resumen de una sola frase que revele la verdad
25
+ detrás del titular.\nEste es el titular de la noticia: Le compra un abrigo a
26
+ su abuela de 97 años y la reacción de esta es una fantasía\nEl titular plantea
27
+ una pregunta o proporciona información incompleta. Debes buscar en el cuerpo
28
+ de la noticia una frase que responda lo que se sugiere en el título. Siempre
29
+ que puedas cita el texto original, especialmente si se trata de una frase que
30
+ alguien ha dicho. Si citas una frase que alguien ha dicho, usa comillas para
31
+ indicar que es una cita. Usa siempre las mínimas palabras posibles. No es necesario
32
+ que la respuesta sea una oración completa. Puede ser sólo el foco de la pregunta.
33
+ Recuerda responder siempre en Español.\nEste es el cuerpo de la noticia:\nLa
34
+ usuaria de X @Kokreta1 ha relatado la conversación que ha tenido con su abuela
35
+ de 97 años cuando le ha dado el abrigo que le ha comprado para su cumpleaños.\nTeniendo
36
+ en cuenta la avanzada edad de la señora, la tuitera le ha regalado una prenda
37
+ acorde a sus años, algo con lo que su yaya no ha estado de acuerdo.\nEl abrigo
38
+ es de vieja, ha opinado la mujer cuando lo ha visto. Os juro que soy muy fan.
39
+ Mañana vamos las dos (a por otro). Eso sí, la voy a llevar al Bershka, ha asegurado
40
+ entre risas la joven.\nSegún la propia cadena de ropa, la cual pertenece a Inditex,
41
+ su público se caracteriza por ser jóvenes atrevidos, conocedores de las últimas
42
+ tendencias e interesados en la música, las redes sociales y las nuevas tecnologías,
43
+ por lo que la gente mayor no suele llevar este estilo.\nLa inusual personalidad
44
+ de la señora ha encantado a los usuarios de la red. Es por eso que el relato
45
+ ha acumulado más de 1.000 me gusta y cerca de 100 retuits, además de una multitud
46
+ de comentarios.\n'
 
 
 
 
 
47
  ---
48
 
49
  <p align="center">
added_tokens.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "<|end_of_turn|>": 32000,
3
+ "<|pad_0|>": 32001
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,34 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "additional_special_tokens": [
3
+ "<|end_of_turn|>",
4
+ "<|pad_0|>"
5
+ ],
6
+ "bos_token": {
7
+ "content": "<s>",
8
+ "lstrip": false,
9
+ "normalized": false,
10
+ "rstrip": false,
11
+ "single_word": false
12
+ },
13
+ "eos_token": {
14
+ "content": "<|end_of_turn|>",
15
+ "lstrip": false,
16
+ "normalized": false,
17
+ "rstrip": false,
18
+ "single_word": false
19
+ },
20
+ "pad_token": {
21
+ "content": "<unk>",
22
+ "lstrip": false,
23
+ "normalized": false,
24
+ "rstrip": false,
25
+ "single_word": false
26
+ },
27
+ "unk_token": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false
33
+ }
34
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:dadfd56d766715c61d2ef780a525ab43b8e6da4de6865bda3d95fdef5e134055
3
+ size 493443
tokenizer_config.json ADDED
@@ -0,0 +1,62 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_bos_token": true,
3
+ "add_eos_token": false,
4
+ "added_tokens_decoder": {
5
+ "0": {
6
+ "content": "<unk>",
7
+ "lstrip": false,
8
+ "normalized": false,
9
+ "rstrip": false,
10
+ "single_word": false,
11
+ "special": true
12
+ },
13
+ "1": {
14
+ "content": "<s>",
15
+ "lstrip": false,
16
+ "normalized": false,
17
+ "rstrip": false,
18
+ "single_word": false,
19
+ "special": true
20
+ },
21
+ "2": {
22
+ "content": "</s>",
23
+ "lstrip": false,
24
+ "normalized": false,
25
+ "rstrip": false,
26
+ "single_word": false,
27
+ "special": true
28
+ },
29
+ "32000": {
30
+ "content": "<|end_of_turn|>",
31
+ "lstrip": false,
32
+ "normalized": false,
33
+ "rstrip": false,
34
+ "single_word": false,
35
+ "special": true
36
+ },
37
+ "32001": {
38
+ "content": "<|pad_0|>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false,
43
+ "special": true
44
+ }
45
+ },
46
+ "additional_special_tokens": [
47
+ "<|end_of_turn|>",
48
+ "<|pad_0|>"
49
+ ],
50
+ "bos_token": "<s>",
51
+ "chat_template": "{{ bos_token }}{% for message in messages %}{{ 'GPT4 Correct ' + message['role'].title() + ': ' + message['content'] + '<|end_of_turn|>'}}{% endfor %}{% if add_generation_prompt %}{{ 'GPT4 Correct Assistant:' }}{% endif %}",
52
+ "clean_up_tokenization_spaces": false,
53
+ "eos_token": "<|end_of_turn|>",
54
+ "legacy": true,
55
+ "model_max_length": 1000000000000000019884624838656,
56
+ "pad_token": "<unk>",
57
+ "sp_model_kwargs": {},
58
+ "spaces_between_special_tokens": false,
59
+ "tokenizer_class": "LlamaTokenizer",
60
+ "unk_token": "<unk>",
61
+ "use_default_system_prompt": true
62
+ }