Spaces:

kotoba-speech
/

kotoba-whisper-diarization-demo

Running on Zero

App Files Files Community

asahi417 commited on Oct 23, 2024

Commit

1222a68

1 Parent(s): 807995a

init

Browse files

Files changed (1) hide show

app.py +6 -2

app.py CHANGED Viewed

@@ -50,6 +50,7 @@ def transcribe(inputs: str,
                num_speakers: float,
                min_speakers: float,
                max_speakers: float,
                add_silence_end: float,
                add_silence_start: float):
     if inputs is None:
@@ -63,6 +64,7 @@ def transcribe(inputs: str,
         num_speakers=int(num_speakers) if num_speakers != 0 else None,
         min_speakers=int(min_speakers) if min_speakers != 0 else None,
         max_speakers=int(max_speakers) if max_speakers != 0 else None,
         add_silence_end=add_silence_end if add_silence_end != 0 else None,
         add_silence_start=add_silence_start if add_silence_start != 0 else None
     )
@@ -77,8 +79,8 @@ description = (f"Transcribe and diarize long-form microphone or audio inputs wit
                f"Kotoba-Whisper [{model_name}](https://huggingface.co/{model_name}).")
 title = f"Audio Transcription and Diarization with {os.path.basename(model_name)}"
 shared_config = {"fn": transcribe, "title": title, "description": description, "allow_flagging": "never", "examples": [
-    [example_file, True, 0, 0, 0, 0.5, 0.5],
-    [example_file, True, 4, 0, 0, 0.5, 0.5]
 ]}
 o_upload = gr.Markdown()
 o_mic = gr.Markdown()
@@ -92,6 +94,7 @@ i_upload = gr.Interface(
         gr.Slider(0, 10, label="num speakers (set 0 for auto-detect mode)", value=0, step=1),
         gr.Slider(0, 10, label="min speakers (set 0 for auto-detect mode)", value=0, step=1),
         gr.Slider(0, 10, label="max speakers (set 0 for auto-detect mode)", value=0, step=1),
         gr.Slider(0, 0.5, label="silence at the end", value=0.5, step=0.05),
         gr.Slider(0, 0.5, label="silence at the start", value=0.5, step=0.05),
     ],
@@ -105,6 +108,7 @@ i_mic = gr.Interface(
         gr.Slider(0, 10, label="num speakers (set 0 for auto-detect mode)", value=0, step=1),
         gr.Slider(0, 10, label="min speakers (set 0 for auto-detect mode)", value=0, step=1),
         gr.Slider(0, 10, label="max speakers (set 0 for auto-detect mode)", value=0, step=1),
         gr.Slider(0, 0.5, label="silence at the end", value=0.5, step=0.05),
         gr.Slider(0, 0.5, label="silence at the start", value=0.5, step=0.05),
     ],

                num_speakers: float,
                min_speakers: float,
                max_speakers: float,
+               chunk_length_s: float,
                add_silence_end: float,
                add_silence_start: float):
     if inputs is None:
         num_speakers=int(num_speakers) if num_speakers != 0 else None,
         min_speakers=int(min_speakers) if min_speakers != 0 else None,
         max_speakers=int(max_speakers) if max_speakers != 0 else None,
+        chunk_length_s=int(chunk_length_s) if chunk_length_s != 30 else None,
         add_silence_end=add_silence_end if add_silence_end != 0 else None,
         add_silence_start=add_silence_start if add_silence_start != 0 else None
     )
                f"Kotoba-Whisper [{model_name}](https://huggingface.co/{model_name}).")
 title = f"Audio Transcription and Diarization with {os.path.basename(model_name)}"
 shared_config = {"fn": transcribe, "title": title, "description": description, "allow_flagging": "never", "examples": [
+    [example_file, True, 0, 0, 0, 30, 0.5, 0.5],
+    [example_file, True, 4, 0, 0, 30, 0.5, 0.5]
 ]}
 o_upload = gr.Markdown()
 o_mic = gr.Markdown()
         gr.Slider(0, 10, label="num speakers (set 0 for auto-detect mode)", value=0, step=1),
         gr.Slider(0, 10, label="min speakers (set 0 for auto-detect mode)", value=0, step=1),
         gr.Slider(0, 10, label="max speakers (set 0 for auto-detect mode)", value=0, step=1),
+        gr.Slider(5, 30, label="chunk length for ASR", value=30, step=1),
         gr.Slider(0, 0.5, label="silence at the end", value=0.5, step=0.05),
         gr.Slider(0, 0.5, label="silence at the start", value=0.5, step=0.05),
     ],
         gr.Slider(0, 10, label="num speakers (set 0 for auto-detect mode)", value=0, step=1),
         gr.Slider(0, 10, label="min speakers (set 0 for auto-detect mode)", value=0, step=1),
         gr.Slider(0, 10, label="max speakers (set 0 for auto-detect mode)", value=0, step=1),
+        gr.Slider(5, 30, label="chunk length for ASR", value=30, step=1),
         gr.Slider(0, 0.5, label="silence at the end", value=0.5, step=0.05),
         gr.Slider(0, 0.5, label="silence at the start", value=0.5, step=0.05),
     ],