Spaces:

mozilla-ai
/

document-to-podcast

Sleeping

github-actions[bot] commited on 18 days ago

Commit

5af6319

1 Parent(s): 5b95d77

Sync with https://github.com/mozilla-ai/document-to-podcast

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,7 +2,9 @@
 import re
 from pathlib import Path
 import soundfile as sf
 import streamlit as st
@@ -29,6 +31,16 @@ def load_text_to_speech_model():
     return load_tts_model("OuteAI/OuteTTS-0.2-500M-GGUF/OuteTTS-0.2-500M-FP16.gguf")
 script = "script"
 audio = "audio"
 gen_button = "generate podcast button"
@@ -171,21 +183,23 @@ if "clean_text" in st.session_state:
                     st.session_state.audio.append(speech)
                     text = ""
     if st.session_state[gen_button]:
-        if st.button("Save Podcast to audio file"):
-            st.session_state.audio = stack_audio_segments(
-                st.session_state.audio, speech_model.sample_rate
-            )
-            sf.write(
-                "podcast.wav",
-                st.session_state.audio,
-                samplerate=speech_model.sample_rate,
-            )
             st.markdown("Podcast saved to disk!")
-        if st.button("Save Podcast script to text file"):
-            with open("script.txt", "w") as f:
-                st.session_state.script += "}"
-                f.write(st.session_state.script)
             st.markdown("Script saved to disk!")

 import re
 from pathlib import Path
+import io
+import numpy as np
 import soundfile as sf
 import streamlit as st
     return load_tts_model("OuteAI/OuteTTS-0.2-500M-GGUF/OuteTTS-0.2-500M-FP16.gguf")
+def numpy_to_wav(audio_array: np.ndarray, sample_rate: int) -> io.BytesIO:
+    """
+    Convert a numpy array to audio bytes in .wav format, ready to save into a file.
+    """
+    wav_io = io.BytesIO()
+    sf.write(wav_io, audio_array, sample_rate, format="WAV")
+    wav_io.seek(0)
+    return wav_io
 script = "script"
 audio = "audio"
 gen_button = "generate podcast button"
                     st.session_state.audio.append(speech)
                     text = ""
+        st.session_state.script += "}"
     if st.session_state[gen_button]:
+        audio_np = stack_audio_segments(
+            st.session_state.audio, speech_model.sample_rate
+        )
+        audio_wav = numpy_to_wav(audio_np, speech_model.sample_rate)
+        if st.download_button(
+            label="Save Podcast to audio file",
+            data=audio_wav,
+            file_name="podcast.wav",
+        ):
             st.markdown("Podcast saved to disk!")
+        if st.download_button(
+            label="Save Podcast script to text file",
+            data=st.session_state.script,
+            file_name="script.txt",
+        ):
             st.markdown("Script saved to disk!")