niobures commited on Feb 22

Commit

a9a8ac2

verified ·

1 Parent(s): 46d7256

Style TTS (en, es)

Browse files

Files changed (23) hide show

.gitattributes +3 -0
en/StyleTTS2-ONNX-Cpp/.gitattributes +35 -0
en/StyleTTS2-ONNX-Cpp/bert_encoder.onnx +3 -0
en/StyleTTS2-ONNX-Cpp/final_simp.onnx +3 -0
en/StyleTTS2-ONNX-Cpp/plbert_simp.onnx +3 -0
en/StyleTTS2-ONNX-Cpp/predictor_encoder_simp.onnx +3 -0
en/StyleTTS2-ONNX-Cpp/ref_p.bin +3 -0
en/StyleTTS2-ONNX-Cpp/ref_s.bin +3 -0
en/StyleTTS2-ONNX-Cpp/source.txt +1 -0
en/StyleTTS2-ONNX-Cpp/style_encoder_simp.onnx +3 -0
en/styletts2-models (SC4949)/.gitattributes +37 -0
en/styletts2-models (SC4949)/anger.wav +0 -0
en/styletts2-models (SC4949)/config.yml +21 -0
en/styletts2-models (SC4949)/epochs_2nd_00020.pth +3 -0
en/styletts2-models (SC4949)/narrator.wav +3 -0
en/styletts2-models (SC4949)/source.txt +1 -0
en/styletts2-models (SC4949)/women.wav +3 -0
es/styletts2-spanish-ft/.gitattributes +36 -0
es/styletts2-spanish-ft/README.md +95 -0
es/styletts2-spanish-ft/config_spanish_ft.yml +106 -0
es/styletts2-spanish-ft/epoch_2nd_00049.pth +3 -0
es/styletts2-spanish-ft/reference_audio.wav +3 -0
es/styletts2-spanish-ft/source.txt +1 -0

.gitattributes CHANGED Viewed

@@ -58,3 +58,6 @@ vi,en/StyleTTS2-lite-vi/reference_audio/vn_1.wav filter=lfs diff=lfs merge=lfs -
 vi,en/StyleTTS2-lite-vi/reference_audio/vn_2.wav filter=lfs diff=lfs merge=lfs -text
 vi,en/StyleTTS2-lite-vi/reference_audio/vn_3.wav filter=lfs diff=lfs merge=lfs -text
 vi,en/StyleTTS2-lite-vi/reference_audio/vn_4.wav filter=lfs diff=lfs merge=lfs -text

 vi,en/StyleTTS2-lite-vi/reference_audio/vn_2.wav filter=lfs diff=lfs merge=lfs -text
 vi,en/StyleTTS2-lite-vi/reference_audio/vn_3.wav filter=lfs diff=lfs merge=lfs -text
 vi,en/StyleTTS2-lite-vi/reference_audio/vn_4.wav filter=lfs diff=lfs merge=lfs -text
+en/styletts2-models[[:space:]](SC4949)/narrator.wav filter=lfs diff=lfs merge=lfs -text
+en/styletts2-models[[:space:]](SC4949)/women.wav filter=lfs diff=lfs merge=lfs -text
+es/styletts2-spanish-ft/reference_audio.wav filter=lfs diff=lfs merge=lfs -text

en/StyleTTS2-ONNX-Cpp/.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

en/StyleTTS2-ONNX-Cpp/bert_encoder.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c859514cbe9b5c12a50a0046fd769a797b66af184036ebb914578a2e69d5e82a
+size 1575207

en/StyleTTS2-ONNX-Cpp/final_simp.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:38b2cd2f39302c45085659151581af1c80375f0d3b7d77ca29bf89a5085ad561
+size 304950337

en/StyleTTS2-ONNX-Cpp/plbert_simp.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f1c9af67134670d5fb1ac08e482ce8e0613e6d083bcc6a0990bcad41da33a51
+size 23106930

en/StyleTTS2-ONNX-Cpp/predictor_encoder_simp.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:47a270615ae814f73f6227ce0d51f7c24a790bf4e1b22ebd12550b879d79f604
+size 55399267

en/StyleTTS2-ONNX-Cpp/ref_p.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af4f5173706a7a03cd7512c440808369e7897614887069dec08a92eadcbfdca4
+size 512

en/StyleTTS2-ONNX-Cpp/ref_s.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3d846acc721a2b3ddeb150675ea63f30416326ddd0e7ac7c0c80f20aca3105de
+size 512

en/StyleTTS2-ONNX-Cpp/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/DDATT/StyleTTS2-ONNX-Cpp

en/StyleTTS2-ONNX-Cpp/style_encoder_simp.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90d7973e3d89ffe00b80603e6caa6c10de2921291bf406a568076fe25a9eb051
+size 55399267

en/styletts2-models (SC4949)/.gitattributes ADDED Viewed

	@@ -0,0 +1,37 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+narrator.wav filter=lfs diff=lfs merge=lfs -text
+women.wav filter=lfs diff=lfs merge=lfs -text

en/styletts2-models (SC4949)/anger.wav ADDED Viewed

Binary file (96 kB). View file

en/styletts2-models (SC4949)/config.yml ADDED Viewed

	@@ -0,0 +1,21 @@

+{ASR_config: Utils/ASR/config.yml, ASR_path: Utils/ASR/epoch_00080.pth, F0_path: Utils/JDC/bst.t7,
+  PLBERT_dir: Utils/PLBERT/, batch_size: 8, data_params: {OOD_data: Data/OOD_texts.txt,
+    min_length: 50, root_path: '', train_data: Data/train_list.txt, val_data: Data/val_list.txt},
+  device: cuda, epochs_1st: 40, epochs_2nd: 25, first_stage_path: first_stage.pth,
+  load_only_params: false, log_dir: Models/LibriTTS, log_interval: 10, loss_params: {
+    TMA_epoch: 4, diff_epoch: 0, joint_epoch: 0, lambda_F0: 1.0, lambda_ce: 20.0,
+    lambda_diff: 1.0, lambda_dur: 1.0, lambda_gen: 1.0, lambda_mel: 5.0, lambda_mono: 1.0,
+    lambda_norm: 1.0, lambda_s2s: 1.0, lambda_slm: 1.0, lambda_sty: 1.0}, max_len: 300,
+  model_params: {decoder: {resblock_dilation_sizes: [[1, 3, 5], [1, 3, 5], [1, 3,
+          5]], resblock_kernel_sizes: [3, 7, 11], type: hifigan, upsample_initial_channel: 512,
+      upsample_kernel_sizes: [20, 10, 6, 4], upsample_rates: [10, 5, 3, 2]}, diffusion: {
+      dist: {estimate_sigma_data: true, mean: -3.0, sigma_data: 0.19926648961191362,
+        std: 1.0}, embedding_mask_proba: 0.1, transformer: {head_features: 64, multiplier: 2,
+        num_heads: 8, num_layers: 3}}, dim_in: 64, dropout: 0.2, hidden_dim: 512,
+    max_conv_dim: 512, max_dur: 50, multispeaker: true, n_layer: 3, n_mels: 80, n_token: 178,
+    slm: {hidden: 768, initial_channel: 64, model: microsoft/wavlm-base-plus, nlayers: 13,
+      sr: 16000}, style_dim: 128}, optimizer_params: {bert_lr: 1.0e-05, ft_lr: 1.0e-05,
+    lr: 0.0001}, preprocess_params: {spect_params: {hop_length: 300, n_fft: 2048,
+      win_length: 1200}, sr: 24000}, pretrained_model: Models/LibriTTS/epoch_2nd_00002.pth,
+  save_freq: 1, second_stage_load_pretrained: true, slmadv_params: {batch_percentage: 0.5,
+    iter: 20, max_len: 500, min_len: 400, scale: 0.01, sig: 1.5, thresh: 5}}

en/styletts2-models (SC4949)/epochs_2nd_00020.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1164ffe19a17449d2c722234cecaf2836b35a698fb8ffd42562d2663657dca0a
+size 771390526

en/styletts2-models (SC4949)/narrator.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e49292afb1769d24c753055835b795b0ad225aa7b4d05cc846697826a9935c7b
+size 635084

en/styletts2-models (SC4949)/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/SC4949/styletts2-models

en/styletts2-models (SC4949)/women.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a7d39beddd2c24d864163ce38e799b261ab0bc23cbea492f0ece046feb131f1
+size 145484

es/styletts2-spanish-ft/.gitattributes ADDED Viewed

	@@ -0,0 +1,36 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+reference_audio.wav filter=lfs diff=lfs merge=lfs -text

es/styletts2-spanish-ft/README.md ADDED Viewed

	@@ -0,0 +1,95 @@

+# StyleTTS2 Spanish Fine-tuned Model
+Modelo StyleTTS2 fine-tuned para síntesis de voz en español con clonación de voz.
+## Descripción
+Este modelo fue entrenado específicamente para generar voz en español con alta calidad y naturalidad. Incluye capacidades de clonación de voz mediante audio de referencia.
+## Características
+- **Idioma**: Español (acento guatemalteco)
+- **Arquitectura**: StyleTTS2 con diffusion-based synthesis
+- **Epoch**: 49 (segunda fase de entrenamiento)
+- **Sample Rate**: 24kHz
+- **Calidad**: Alta fidelidad con clonación de voz
+## Archivos Incluidos
+- `epoch_2nd_00049.pth`: Checkpoint del modelo (2.1GB)
+- `config_spanish_ft.yml`: Configuración del modelo
+- `reference_audio.wav`: Audio de referencia para clonación de voz (916KB)
+## Uso
+### Instalación
+```bash
+pip install -U "huggingface_hub[cli]"
+huggingface-cli download FenixDS/styletts2-spanish-ft --local-dir styletts2-spanish-ft
+```
+### Integración con VoxBridge
+Este modelo está diseñado para usarse con [VoxBridge](https://github.com/MrBotGT/VoxBridge). Configuración en `config/default.yaml`:
+```yaml
+tts:
+  provider: styletts2
+  config_path: styletts2-spanish-ft/config_spanish_ft.yml
+  checkpoint_path: styletts2-spanish-ft/epoch_2nd_00049.pth
+  reference_audio: styletts2-spanish-ft/reference_audio.wav
+  alpha: 0.3
+  beta: 0.5
+  diffusion_steps: 4
+  embedding_scale: 2
+```
+### Uso Directo con StyleTTS2
+```python
+import torch
+from styletts2 import tts
+# Cargar modelo
+model = tts.StyleTTS2(
+    config_path="styletts2-spanish-ft/config_spanish_ft.yml",
+    checkpoint_path="styletts2-spanish-ft/epoch_2nd_00049.pth"
+)
+# Generar voz
+text = "Hola, este es un ejemplo de síntesis de voz en español."
+reference_audio = "styletts2-spanish-ft/reference_audio.wav"
+audio = model.inference(
+    text=text,
+    ref_audio=reference_audio,
+    alpha=0.3,
+    beta=0.5,
+    diffusion_steps=4,
+    embedding_scale=2
+)
+```
+## Parámetros de Síntesis
+- **alpha** (0.0-1.0): Control de prosodia. Mayor = más variación prosódica
+- **beta** (0.0-1.0): Control de speaker embedding. Mayor = más similitud con referencia
+- **diffusion_steps** (1-10): Pasos de difusión. Más pasos = mejor calidad pero más lento
+- **embedding_scale** (1-3): Escala del speaker embedding
+## Rendimiento
+- **Latencia** (CPU): ~1.2-1.8 segundos por frase
+- **Latencia** (GPU): ~0.3-0.5 segundos por frase
+- **Calidad**: Muy alta, con clonación de voz precisa
+## Licencia
+MIT License
+## Créditos
+Basado en [StyleTTS2](https://github.com/yl4579/StyleTTS2) por yl4579.
+Fine-tuning realizado con datos de voz en español guatemalteco.

es/styletts2-spanish-ft/config_spanish_ft.yml ADDED Viewed

	@@ -0,0 +1,106 @@

+# Spanish (Guatemalan) Multi-speaker Fine-tuning Config
+# Based on LibriTTS config with Multilingual PL-BERT
+ASR_config: Utils/ASR/config.yml
+ASR_path: Utils/ASR/epoch_00080.pth
+F0_path: Utils/JDC/bst.t7
+PLBERT_dir: Utils/PLBERT/
+# Batch size - reduced for Mac MPS (increase on GPU with more VRAM)
+batch_size: 1
+data_params:
+  OOD_data: Data/OOD_texts.txt
+  min_length: 50
+  root_path: Data/wavs_gt
+  train_data: Data/train_list.txt
+  val_data: Data/val_list.txt
+device: mps  # Use 'cuda' for NVIDIA GPU
+# Training epochs - fine-tuning needs fewer epochs
+epochs: 100
+load_only_params: true
+log_dir: Models/Spanish
+log_interval: 10
+loss_params:
+  TMA_epoch: 4
+  diff_epoch: 20
+  joint_epoch: 30
+  lambda_F0: 3.0
+  lambda_ce: 20.0
+  lambda_diff: 1.0
+  lambda_dur: 1.0
+  lambda_gen: 1.0
+  lambda_mel: 2.0
+  lambda_mono: 1.0
+  lambda_norm: 1.0
+  lambda_s2s: 1.0
+  lambda_slm: 1.0
+  lambda_sty: 1.0
+max_len: 250
+model_params:
+  decoder:
+    resblock_dilation_sizes: [[1, 3, 5], [1, 3, 5], [1, 3, 5]]
+    resblock_kernel_sizes: [3, 7, 11]
+    type: hifigan
+    upsample_initial_channel: 512
+    upsample_kernel_sizes: [20, 10, 6, 4]
+    upsample_rates: [10, 5, 3, 2]
+  diffusion:
+    dist:
+      estimate_sigma_data: true
+      mean: -3.0
+      sigma_data: 0.19319299498227843
+      std: 1.0
+    embedding_mask_proba: 0.1
+    transformer:
+      head_features: 64
+      multiplier: 2
+      num_heads: 8
+      num_layers: 3
+  dim_in: 64
+  dropout: 0.2
+  hidden_dim: 512
+  max_conv_dim: 512
+  max_dur: 50
+  multispeaker: true  # Multi-speaker mode enabled
+  n_layer: 3
+  n_mels: 80
+  n_token: 178  # Multilingual PL-BERT vocab size
+  slm:
+    hidden: 768
+    initial_channel: 64
+    model: microsoft/wavlm-base-plus
+    nlayers: 13
+    sr: 16000
+  style_dim: 128
+optimizer_params:
+  bert_lr: 1.0e-05
+  ft_lr: 0.0001
+  lr: 0.0001
+preprocess_params:
+  spect_params:
+    hop_length: 300
+    n_fft: 2048
+    win_length: 1200
+  sr: 24000
+pretrained_model: Models/LibriTTS/epochs_2nd_00020.pth
+save_freq: 10
+second_stage_load_pretrained: true
+slmadv_params:
+  batch_percentage: 0.5
+  iter: 10
+  max_len: 200
+  min_len: 150
+  scale: 0.01
+  sig: 1.5
+  thresh: 5

es/styletts2-spanish-ft/epoch_2nd_00049.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:513cbe2b838f5fe9f3ca7be209eb6f42fe70b5cc9fb6eb7699471b6d2cb760a2
+size 2252234593

es/styletts2-spanish-ft/reference_audio.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4c1ffe13b57cc612b483a7299088c8736a14cf34725dd0114bf346bef6bd2c30
+size 937808

es/styletts2-spanish-ft/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/FenixDS/styletts2-spanish-ft