onnx-community
/

Kokoro-82M-ONNX

Text-to-Speech

Transformers.js

ONNX

English

style_text_to_speech_2

Model card Files Files and versions Community

Xenova HF staff commited on 3 days ago

Commit

8c499d8

verified ·

1 Parent(s): ec27144

Update README.md

Browse files

Files changed (1) hide show

README.md +65 -2

README.md CHANGED Viewed

@@ -3,8 +3,66 @@ license: apache-2.0
 library_name: transformers.js
 ---
 ## Usage
 ### Python
 ```python
@@ -41,7 +99,12 @@ import scipy.io.wavfile as wavfile
 wavfile.write('audio.wav', 24000, audio[0])
 ```
-## Samples
 | Model                                          | Size (MB) | Sample                                                                                                                                  |
 |------------------------------------------------|-----------|-----------------------------------------------------------------------------------------------------------------------------------------|
@@ -52,4 +115,4 @@ wavfile.write('audio.wav', 24000, audio[0])
 | model_uint8.onnx (8-bit & mixed precision)     | 177       | <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/61b253b7ac5ecaae3d1efe0c/tpOWRHIWwEb0PJX46dCWQ.wav"></audio> |
 | model_uint8f16.onnx (Mixed precision)          | 114       | <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/61b253b7ac5ecaae3d1efe0c/vtZhABzjP0pvGD7dRb5Vr.wav"></audio> |
 | model_q4.onnx (4-bit matmul)                   | 305       | <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/61b253b7ac5ecaae3d1efe0c/8FVn0IJIUfccEBWq8Fnw_.wav"></audio> |
-| model_q4f16.onnx (4-bit matmul & fp16 weights) | 154       | <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/61b253b7ac5ecaae3d1efe0c/7DrgWC_1q00s-wUJuG44X.wav"></audio> |

 library_name: transformers.js
 ---
+# Kokoro TTS
+Kokoro is a frontier TTS model for its size of 82 million parameters (text in/audio out).
+## Table of contents
+- [Samples](#samples)
+- [Usage](#usage)
+  - [JavaScript](#javascript)
+  - [Python](#python)
+## Samples
+> Life is like a box of chocolates. You never know what you're gonna get.
+| Voice                    | Nationality | Gender | Sample                                                                                                                                  |
+|--------------------------|-------------|--------|-----------------------------------------------------------------------------------------------------------------------------------------|
+| Default (`af`)           | American    | Female | <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/61b253b7ac5ecaae3d1efe0c/C0_ZUcNSAxvMwpS8QbnKv.wav"></audio> |
+| Bella (`af_bella`)       | American    | Female | <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/61b253b7ac5ecaae3d1efe0c/B_q15Z_FXdgBP9-Hk9oKq.wav"></audio> |
+| Nicole (`af_nicole`)     | American    | Female | <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/61b253b7ac5ecaae3d1efe0c/sS8U5lQHkhgX7rwTmy-5w.wav"></audio> |
+| Sarah (`af_sarah`)       | American    | Female | <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/61b253b7ac5ecaae3d1efe0c/SokkBiqEqwxLLx_pqvf1p.wav"></audio> |
+| Sky (`af_sky`)           | American    | Female | <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/61b253b7ac5ecaae3d1efe0c/IzySGHUtl5mYeFxx1oaRf.wav"></audio> |
+| Adam (`am_adam`)         | American    | Male   | <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/61b253b7ac5ecaae3d1efe0c/9n6myE6--ZsEuF5xDv5eC.wav"></audio> |
+| Michael (`am_michael`)   | American    | Male   | <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/61b253b7ac5ecaae3d1efe0c/EPFciGtTU1YUXu8MAw7DX.wav"></audio> |
+| Emma (`bf_emma`)         | British     | Female | <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/61b253b7ac5ecaae3d1efe0c/AGEsXs-gyJq3dsyo7PjHo.wav"></audio> |
+| Isabella (`bf_isabella`) | British     | Female | <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/61b253b7ac5ecaae3d1efe0c/JEzrrXYJSDcmlEzI7tE0c.wav"></audio> |
+| George (`bm_george`)     | British     | Male   | <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/61b253b7ac5ecaae3d1efe0c/nsv4zKB4MX2TvXRxv504k.wav"></audio> |
+| Lewis (`bm_lewis`)       | British     | Male   | <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/61b253b7ac5ecaae3d1efe0c/g_mcBl2xTbQl0sbrpZt48.wav"></audio> |
 ## Usage
+### JavaScript
+First, install the `kokoro-tts` library from [NPM](https://npmjs.com/package/kokoro-tts) using:
+```bash
+npm i kokoro-tts
+```
+You can then generate speech as follows:
+```js
+import { KokoroTTS } from "kokoro-tts";
+const model_id = "onnx-community/Kokoro-82M-ONNX";
+const tts = await KokoroTTS.from_pretrained(model_id, {
+  dtype: "q8", // Options: "fp32", "fp16", "q8", "q4", "q4f16"
+});
+const text = "Life is like a box of chocolates. You never know what you're gonna get.";
+const audio = await tts.generate(text, {
+  // Use `tts.list_voices()` to list all available voices
+  voice: "af_bella",
+});
+audio.save("audio.wav");
+```
 ### Python
 ```python
 wavfile.write('audio.wav', 24000, audio[0])
 ```
+## Quantizations
+The model is resilient to quantization, enabling efficient high-quality speech synthesis at a fraction of the original model size.
+> How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born.
 | Model                                          | Size (MB) | Sample                                                                                                                                  |
 |------------------------------------------------|-----------|-----------------------------------------------------------------------------------------------------------------------------------------|
 | model_uint8.onnx (8-bit & mixed precision)     | 177       | <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/61b253b7ac5ecaae3d1efe0c/tpOWRHIWwEb0PJX46dCWQ.wav"></audio> |
 | model_uint8f16.onnx (Mixed precision)          | 114       | <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/61b253b7ac5ecaae3d1efe0c/vtZhABzjP0pvGD7dRb5Vr.wav"></audio> |
 | model_q4.onnx (4-bit matmul)                   | 305       | <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/61b253b7ac5ecaae3d1efe0c/8FVn0IJIUfccEBWq8Fnw_.wav"></audio> |
+| model_q4f16.onnx (4-bit matmul & fp16 weights) | 154       | <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/61b253b7ac5ecaae3d1efe0c/7DrgWC_1q00s-wUJuG44X.wav"></audio> |