RichardErkhov commited on
Commit
af45e02
·
verified ·
1 Parent(s): c6a97fa

uploaded readme

Browse files
Files changed (1) hide show
  1. README.md +153 -0
README.md ADDED
@@ -0,0 +1,153 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ Quantization made by Richard Erkhov.
2
+
3
+ [Github](https://github.com/RichardErkhov)
4
+
5
+ [Discord](https://discord.gg/pvy7H8DZMG)
6
+
7
+ [Request more models](https://github.com/RichardErkhov/quant_request)
8
+
9
+
10
+ llama-3.2-Korean-Bllossom-3B - AWQ
11
+ - Model creator: https://huggingface.co/Bllossom/
12
+ - Original model: https://huggingface.co/Bllossom/llama-3.2-Korean-Bllossom-3B/
13
+
14
+
15
+
16
+
17
+ Original model description:
18
+ ---
19
+ base_model:
20
+ - meta-llama/Meta-Llama-3.2-3B
21
+ language:
22
+ - en
23
+ - ko
24
+ library_name: transformers
25
+ license: llama3.2
26
+ ---
27
+
28
+
29
+ <a href="https://github.com/MLP-Lab/Bllossom">
30
+ <img src="https://github.com/teddysum/bllossom/blob/main//bllossom_icon.png?raw=true" width="30%" height="30%">
31
+ </a>
32
+
33
+ # Update!
34
+ * [2024.10.08] Bllossom-3B 모델이 최초 업데이트 되었습니다.
35
+
36
+
37
+
38
+ # Bllossom | [Demo]() | [Homepage](https://www.bllossom.ai/) | [Github](https://github.com/MLP-Lab/Bllossom) |
39
+
40
+ ```bash
41
+ 저희 Bllossom 팀에서 Bllossom-3B 모델을 공개합니다.
42
+ llama3.2-3B가 나왔는데 한국어가 포함 안되었다구?? 이번 Bllossom-3B는 한국어가 지원되지 않는 기본 모델을 한국어-영어로 강화모델입니다.
43
+ - 100% full-tuning으로 150GB의 정제된 한국어로 추가 사전학습 되었습니다. (GPU많이 태웠습니다)
44
+ - 굉장히 정제된 Instruction Tuning을 진행했습니다.
45
+ - 영어 성능을 전혀 손상시키지 않은 완전한 Bilingual 모델입니다.
46
+ - LogicKor 기준 5B이하 최고점수를 기록했고 6점 초반대 점수를 보입니다.
47
+ - Instruction tuning만 진행했습니다. DPO 등 성능 올릴 방법으로 튜닝해보세요.
48
+ - MT-Bench, LogicKor 등 벤치마크 점수를 잘받기 위해 정답데이터를 활용하거나 혹은 벤치마크를 타겟팅 해서 학습하지 않았습니다. (해당 벤치마크 타게팅해서 학습하면 8점도 나옵니다...)
49
+
50
+ 언제나 그랬듯 해당 모델은 상업적 이용이 가능합니다.
51
+
52
+ 1. Bllossom은 AAAI2024, NAACL2024, LREC-COLING2024 (구두) 발표되었습니다.
53
+ 2. 좋은 언어모델 계속 업데이트 하겠습니다!! 한국어 강화를위해 공동 연구하실분(특히논문) 언제든 환영합니다!!
54
+ ```
55
+
56
+
57
+
58
+ ```python
59
+ import torch
60
+ from transformers import AutoTokenizer, AutoModelForCausalLM
61
+
62
+ model_id = 'Bllossom/llama-3.2-Korean-Bllossom-3B'
63
+
64
+ tokenizer = AutoTokenizer.from_pretrained(model_id)
65
+ model = AutoModelForCausalLM.from_pretrained(
66
+ model_id,
67
+ torch_dtype=torch.bfloat16,
68
+ device_map="auto",
69
+ )
70
+ instruction = "철수가 20개의 연필을 가지고 있었는데 영희가 절반을 가져가고 민수가 남은 5개를 가져갔으면 철수에게 남은 연필의 갯수는 몇개인가요?"
71
+
72
+ messages = [
73
+ {"role": "user", "content": f"{instruction}"}
74
+ ]
75
+
76
+ input_ids = tokenizer.apply_chat_template(
77
+ messages,
78
+ add_generation_prompt=True,
79
+ return_tensors="pt"
80
+ ).to(model.device)
81
+
82
+ terminators = [
83
+ tokenizer.convert_tokens_to_ids("<|end_of_text|>"),
84
+ tokenizer.convert_tokens_to_ids("<|eot_id|>")
85
+ ]
86
+
87
+ outputs = model.generate(
88
+ input_ids,
89
+ max_new_tokens=1024,
90
+ eos_token_id=terminators,
91
+ do_sample=True,
92
+ temperature=0.6,
93
+ top_p=0.9
94
+ )
95
+
96
+ print(tokenizer.decode(outputs[0][input_ids.shape[-1]:], skip_special_tokens=True))
97
+ ```
98
+ ```
99
+ 철수가 20개의 연필을 가지고 있었고 영희가 절반을 가져가면, 영희가 가져간 연필의 갯수는 20 / 2 = 10개입니다.
100
+
101
+ 이제 철수가 남은 연필의 갯수를 계산해보겠습니다. 영희가 10개를 가져간 후 철수가 남은 연필의 갯수는 20 - 10 = 10개입니다.
102
+
103
+ 민수가 남은 5개를 가져갔으므로, 철수가 남은 연필의 갯수는 10 - 5 = 5개입니다.
104
+
105
+ 따라서 철수가 남은 연필의 갯수는 5개입니다.
106
+ ```
107
+
108
+ ## Supported by
109
+
110
+ - AICA <img src="https://aica-gj.kr/images/logo.png" width="20%" height="20%">
111
+
112
+ ## Citation
113
+ **Language Model**
114
+ ```text
115
+ @misc{bllossom,
116
+ author = {ChangSu Choi, Yongbin Jeong, Seoyoon Park, InHo Won, HyeonSeok Lim, SangMin Kim, Yejee Kang, Chanhyuk Yoon, Jaewan Park, Yiseul Lee, HyeJin Lee, Younggyun Hahm, Hansaem Kim, KyungTae Lim},
117
+ title = {Optimizing Language Augmentation for Multilingual Large Language Models: A Case Study on Korean},
118
+ year = {2024},
119
+ journal = {LREC-COLING 2024},
120
+ paperLink = {\url{https://arxiv.org/pdf/2403.10882}},
121
+ },
122
+ }
123
+ ```
124
+
125
+ **Vision-Language Model**
126
+ ```text
127
+ @misc{bllossom-V,
128
+ author = {Dongjae Shin, Hyunseok Lim, Inho Won, Changsu Choi, Minjun Kim, Seungwoo Song, Hangyeol Yoo, Sangmin Kim, Kyungtae Lim},
129
+ title = {X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment},
130
+ year = {2024},
131
+ publisher = {GitHub},
132
+ journal = {NAACL 2024 findings},
133
+ paperLink = {\url{https://arxiv.org/pdf/2403.11399}},
134
+ },
135
+ }
136
+ ```
137
+
138
+ ## Contact
139
+ - 임경태(KyungTae Lim), Professor at Seoultech. `[email protected]`
140
+ - 함영균(Younggyun Hahm), CEO of Teddysum. `[email protected]`
141
+ - 김한샘(Hansaem Kim), Professor at Yonsei. `[email protected]`
142
+
143
+ ## Contributor
144
+ - **유한결(Hangyeol Yoo)**, [email protected]
145
+ - 신동재(Dongjae Shin), [email protected]
146
+ - 임현석(Hyeonseok Lim), [email protected]
147
+ - 원인호(Inho Won), [email protected]
148
+ - 김민준(Minjun Kim), [email protected]
149
+ - 송승우(Seungwoo Song), [email protected]
150
+ - 육정훈(Jeonghun Yuk), [email protected]
151
+ - 최창수(Chansu Choi), [email protected]
152
+ - 송서현(Seohyun Song), [email protected]
153
+