RichardErkhov
/

mesolitica_-_malaysian-llama-3-8b-instruct-16k-gguf

GGUF

Inference Endpoints

conversational

Model card Files Files and versions Community

RichardErkhov commited on Aug 23, 2024

Commit

e124e27

verified ·

1 Parent(s): 3f46b18

uploaded readme

Browse files

Files changed (1) hide show

README.md +159 -0

README.md ADDED Viewed

	@@ -0,0 +1,159 @@

+Quantization made by Richard Erkhov.
+[Github](https://github.com/RichardErkhov)
+[Discord](https://discord.gg/pvy7H8DZMG)
+[Request more models](https://github.com/RichardErkhov/quant_request)
+malaysian-llama-3-8b-instruct-16k - GGUF
+- Model creator: https://huggingface.co/mesolitica/
+- Original model: https://huggingface.co/mesolitica/malaysian-llama-3-8b-instruct-16k/
+| Name | Quant method | Size |
+| ---- | ---- | ---- |
+| [malaysian-llama-3-8b-instruct-16k.Q2_K.gguf](https://huggingface.co/RichardErkhov/mesolitica_-_malaysian-llama-3-8b-instruct-16k-gguf/blob/main/malaysian-llama-3-8b-instruct-16k.Q2_K.gguf) | Q2_K | 2.96GB |
+| [malaysian-llama-3-8b-instruct-16k.IQ3_XS.gguf](https://huggingface.co/RichardErkhov/mesolitica_-_malaysian-llama-3-8b-instruct-16k-gguf/blob/main/malaysian-llama-3-8b-instruct-16k.IQ3_XS.gguf) | IQ3_XS | 3.28GB |
+| [malaysian-llama-3-8b-instruct-16k.IQ3_S.gguf](https://huggingface.co/RichardErkhov/mesolitica_-_malaysian-llama-3-8b-instruct-16k-gguf/blob/main/malaysian-llama-3-8b-instruct-16k.IQ3_S.gguf) | IQ3_S | 3.43GB |
+| [malaysian-llama-3-8b-instruct-16k.Q3_K_S.gguf](https://huggingface.co/RichardErkhov/mesolitica_-_malaysian-llama-3-8b-instruct-16k-gguf/blob/main/malaysian-llama-3-8b-instruct-16k.Q3_K_S.gguf) | Q3_K_S | 3.41GB |
+| [malaysian-llama-3-8b-instruct-16k.IQ3_M.gguf](https://huggingface.co/RichardErkhov/mesolitica_-_malaysian-llama-3-8b-instruct-16k-gguf/blob/main/malaysian-llama-3-8b-instruct-16k.IQ3_M.gguf) | IQ3_M | 3.52GB |
+| [malaysian-llama-3-8b-instruct-16k.Q3_K.gguf](https://huggingface.co/RichardErkhov/mesolitica_-_malaysian-llama-3-8b-instruct-16k-gguf/blob/main/malaysian-llama-3-8b-instruct-16k.Q3_K.gguf) | Q3_K | 3.74GB |
+| [malaysian-llama-3-8b-instruct-16k.Q3_K_M.gguf](https://huggingface.co/RichardErkhov/mesolitica_-_malaysian-llama-3-8b-instruct-16k-gguf/blob/main/malaysian-llama-3-8b-instruct-16k.Q3_K_M.gguf) | Q3_K_M | 3.74GB |
+| [malaysian-llama-3-8b-instruct-16k.Q3_K_L.gguf](https://huggingface.co/RichardErkhov/mesolitica_-_malaysian-llama-3-8b-instruct-16k-gguf/blob/main/malaysian-llama-3-8b-instruct-16k.Q3_K_L.gguf) | Q3_K_L | 4.03GB |
+| [malaysian-llama-3-8b-instruct-16k.IQ4_XS.gguf](https://huggingface.co/RichardErkhov/mesolitica_-_malaysian-llama-3-8b-instruct-16k-gguf/blob/main/malaysian-llama-3-8b-instruct-16k.IQ4_XS.gguf) | IQ4_XS | 4.18GB |
+| [malaysian-llama-3-8b-instruct-16k.Q4_0.gguf](https://huggingface.co/RichardErkhov/mesolitica_-_malaysian-llama-3-8b-instruct-16k-gguf/blob/main/malaysian-llama-3-8b-instruct-16k.Q4_0.gguf) | Q4_0 | 4.34GB |
+| [malaysian-llama-3-8b-instruct-16k.IQ4_NL.gguf](https://huggingface.co/RichardErkhov/mesolitica_-_malaysian-llama-3-8b-instruct-16k-gguf/blob/main/malaysian-llama-3-8b-instruct-16k.IQ4_NL.gguf) | IQ4_NL | 4.38GB |
+| [malaysian-llama-3-8b-instruct-16k.Q4_K_S.gguf](https://huggingface.co/RichardErkhov/mesolitica_-_malaysian-llama-3-8b-instruct-16k-gguf/blob/main/malaysian-llama-3-8b-instruct-16k.Q4_K_S.gguf) | Q4_K_S | 4.37GB |
+| [malaysian-llama-3-8b-instruct-16k.Q4_K.gguf](https://huggingface.co/RichardErkhov/mesolitica_-_malaysian-llama-3-8b-instruct-16k-gguf/blob/main/malaysian-llama-3-8b-instruct-16k.Q4_K.gguf) | Q4_K | 4.58GB |
+| [malaysian-llama-3-8b-instruct-16k.Q4_K_M.gguf](https://huggingface.co/RichardErkhov/mesolitica_-_malaysian-llama-3-8b-instruct-16k-gguf/blob/main/malaysian-llama-3-8b-instruct-16k.Q4_K_M.gguf) | Q4_K_M | 4.58GB |
+| [malaysian-llama-3-8b-instruct-16k.Q4_1.gguf](https://huggingface.co/RichardErkhov/mesolitica_-_malaysian-llama-3-8b-instruct-16k-gguf/blob/main/malaysian-llama-3-8b-instruct-16k.Q4_1.gguf) | Q4_1 | 4.78GB |
+| [malaysian-llama-3-8b-instruct-16k.Q5_0.gguf](https://huggingface.co/RichardErkhov/mesolitica_-_malaysian-llama-3-8b-instruct-16k-gguf/blob/main/malaysian-llama-3-8b-instruct-16k.Q5_0.gguf) | Q5_0 | 5.21GB |
+| [malaysian-llama-3-8b-instruct-16k.Q5_K_S.gguf](https://huggingface.co/RichardErkhov/mesolitica_-_malaysian-llama-3-8b-instruct-16k-gguf/blob/main/malaysian-llama-3-8b-instruct-16k.Q5_K_S.gguf) | Q5_K_S | 5.21GB |
+| [malaysian-llama-3-8b-instruct-16k.Q5_K.gguf](https://huggingface.co/RichardErkhov/mesolitica_-_malaysian-llama-3-8b-instruct-16k-gguf/blob/main/malaysian-llama-3-8b-instruct-16k.Q5_K.gguf) | Q5_K | 5.34GB |
+| [malaysian-llama-3-8b-instruct-16k.Q5_K_M.gguf](https://huggingface.co/RichardErkhov/mesolitica_-_malaysian-llama-3-8b-instruct-16k-gguf/blob/main/malaysian-llama-3-8b-instruct-16k.Q5_K_M.gguf) | Q5_K_M | 5.34GB |
+| [malaysian-llama-3-8b-instruct-16k.Q5_1.gguf](https://huggingface.co/RichardErkhov/mesolitica_-_malaysian-llama-3-8b-instruct-16k-gguf/blob/main/malaysian-llama-3-8b-instruct-16k.Q5_1.gguf) | Q5_1 | 5.65GB |
+| [malaysian-llama-3-8b-instruct-16k.Q6_K.gguf](https://huggingface.co/RichardErkhov/mesolitica_-_malaysian-llama-3-8b-instruct-16k-gguf/blob/main/malaysian-llama-3-8b-instruct-16k.Q6_K.gguf) | Q6_K | 6.14GB |
+| [malaysian-llama-3-8b-instruct-16k.Q8_0.gguf](https://huggingface.co/RichardErkhov/mesolitica_-_malaysian-llama-3-8b-instruct-16k-gguf/blob/main/malaysian-llama-3-8b-instruct-16k.Q8_0.gguf) | Q8_0 | 7.95GB |
+Original model description:
+---
+language:
+- ms
+---
+# Full Parameter Finetuning Malaysian Llama-3 16384 context length on Malaysian chat completion 3B tokens
+README at https://github.com/huseinzol05/malaya/tree/master/session/llama3
+WandB, https://wandb.ai/huseinzol05/fpf-llama-3-8b-8192-hf-packing?nw=nwuserhuseinzol05
+## how-to
+```python
+from transformers import AutoTokenizer, AutoModelForCausalLM
+import torch
+tokenizer = AutoTokenizer.from_pretrained('mesolitica/malaysian-llama-3-8b-instruct-16k')
+model = AutoModelForCausalLM.from_pretrained('mesolitica/malaysian-llama-3-8b-instruct-16k',
+    torch_dtype=torch.bfloat16,
+    use_flash_attention_2 = True
+)
+_ = model.cuda()
+messages = [
+    {'role': 'user', 'content': 'kwsp tu apa'}
+]
+prompt = tokenizer.apply_chat_template(messages, tokenize = False)
+inputs = tokenizer([prompt], return_tensors='pt', add_special_tokens=False).to('cuda')
+generate_kwargs = dict(
+    inputs,
+    max_new_tokens=1024,
+    top_p=0.95,
+    top_k=50,
+    temperature=0.9,
+    do_sample=True,
+    num_beams=1,
+)
+r = model.generate(**generate_kwargs)
+tokenizer.decode(r[0])
+```
+```
+<|begin_of_text|><|start_header_id|>user<|end_header_id|>
+kwsp tu apa<|eot_id|><|start_header_id|>assistant<|end_header_id|>
+KWSP adalah singkatan kepada Kumpulan Wang Simpanan Pekerja, iaitu sejenis skim simpanan persaraan yang ditadbir oleh kerajaan Malaysia. Ia adalah sistem pencen yang disumbangkan oleh kedua-dua majikan dan pekerja. KWSP adalah skim simpanan wajib di Malaysia, dan kebanyakan pekerja mesti mendaftar dan menyumbang kepada KWSP. Skim ini ditadbir oleh Kumpulan Wang Simpanan Pekerja Malaysia. KWSP menyediakan pelbagai pilihan pelaburan untuk ahlinya, termasuk unit amanah, bon, dan juga simpanan tetap. Ahli boleh memohon untuk melabur sebahagian simpanan KWSP mereka dalam pilihan ini pada bila-bila masa, tertakluk kepada kriteria kelayakan tertentu. KWSP juga menyediakan perkhidmatan lain, seperti perumahan dan insurans.<|eot_id|>
+```
+```python
+messages = [
+    {'role': 'user', 'content': 'nasi kandaq apa sedap kat sungai petani kedah'}
+]
+prompt = tokenizer.apply_chat_template(messages, tokenize = False)
+inputs = tokenizer([prompt], return_tensors='pt', add_special_tokens=False).to('cuda')
+generate_kwargs = dict(
+    inputs,
+    max_new_tokens=1024,
+    top_p=0.95,
+    top_k=50,
+    temperature=0.9,
+    do_sample=True,
+    num_beams=1,
+)
+r = model.generate(**generate_kwargs)
+print(tokenizer.decode(r[0]))
+```
+```
+<|begin_of_text|><|start_header_id|>user<|end_header_id|>
+nasi kandaq apa sedap kat sungai petani kedah<|eot_id|><|start_header_id|>assistant<|end_header_id|>
+Di Sungai Petani, Kedah, terdapat sebuah gerai yang menyajikan "nasi kandaq" yang sangat lazat dan popular di kalangan penduduk setempat dan pelancong. Nasi kandaq ini merupakan sejenis hidangan nasi yang dimasak dengan santan dan rempah ratus yang dijual oleh seorang penjaja bernama "Cik Kandaq".
+Gerai nasi kandaq yang terkenal ini terletak di Pekan Lama, Sungai Petani dan telah beroperasi selama lebih dari 30 tahun. Nasi kandaq ini dinamakan berdasarkan nama gerai yang menjualnya, Cik Kandaq, yang merupakan nama samaran bagi penjual tersebut. Nama "Cik Kandaq" sendiri adalah gabungan antara perkataan "Cik", yang merupakan kata ganti nama bagi seorang wanita yang lebih rendah statusnya berbanding dengan "Puan", dan perkataan "kandaq" yang bermaksud'miskin' dalam loghat Kedah.
+Nasi kandaq yang dijual oleh Cik Kandaq sangat terkenal kerana rasa nasi yang lemak dan wangi dari campuran santan dan rempah ratus, serta kerangupan lauk-pauk yang dihidangkan bersama nasi tersebut. Lauk-pauk yang dihidangkan bersama nasi kandaq termasuk ikan goreng, sotong goreng, ayam goreng, dan telur masin.
+Gerai ini hanya beroperasi pada waktu pagi sahaja dan seringkali pelanggan akan berbaris panjang untuk mendapatkan hidangan nasi kandaq yang sedap ini. Bagi penduduk setempat, nasi kandaq adalah makanan kegemaran yang sering dicari, terutama pada waktu sarapan atau makan tengahari. Bagi pelancong yang berkunjung ke Sungai Petani, gerai nasi kandaq ini adalah salah satu tempat yang wajib dikunjungi untuk merasai pengalaman makan nasi kandaq yang asli dan nikmat.<|eot_id|>
+```
+```python
+messages = [
+    {'role': 'user', 'content': 'asdsd231asd'},
+    {'role': 'assistant', 'content': 'Saya minta maaf, saya tidak dapat menjana respons yang bermakna kepada input itu. Bolehkah anda berikan lebih banyak konteks atau jelaskan soalan anda?'},
+    {'role': 'user', 'content': 'awak giler eh'},
+]
+prompt = tokenizer.apply_chat_template(messages, tokenize = False)
+inputs = tokenizer([prompt], return_tensors='pt', add_special_tokens=False).to('cuda')
+generate_kwargs = dict(
+    inputs,
+    max_new_tokens=1024,
+    top_p=0.95,
+    top_k=50,
+    temperature=0.9,
+    do_sample=True,
+    num_beams=1,
+)
+r = model.generate(**generate_kwargs)
+print(tokenizer.decode(r[0]))
+```
+```
+<|begin_of_text|><|start_header_id|>user<|end_header_id|>
+asdsd231asd<|eot_id|><|start_header_id|>assistant<|end_header_id|>
+Saya minta maaf, saya tidak dapat menjana respons yang bermakna kepada input itu. Bolehkah anda berikan lebih banyak konteks atau jelaskan soalan anda?<|eot_id|><|start_header_id|>user<|end_header_id|>
+awak giler eh<|eot_id|><|start_header_id|>assistant<|end_header_id|>
+Saya memohon maaf jika saya memberi anda maklumat yang salah atau tidak membantu. Saya berusaha untuk memberikan jawapan yang tepat dan relevan kepada pertanyaan pengguna. Jika anda boleh memberikan lebih banyak konteks atau menjelaskan apa yang anda cari, saya berbesar hati untuk mencuba dan membantu anda sekali lagi.<|eot_id|>
+```