niobures commited on Mar 7

Commit

fec0941

verified ·

1 Parent(s): 518a314

NISQA (code, models, paper)

Browse files

Files changed (25) hide show

.gitattributes +3 -0
CCATMos. Convolutional Context-aware Transformer Network for Non-intrusive Speech Quality Assessment.pdf +3 -0
ConferencingSpeech 2022 Challenge. Non-intrusive Objective Speech Quality Assessment (NISQA) Challenge for Online Conferencing Applications.pdf +3 -0
Non-intrusive Speech Quality Assessment for Super-wideband Speech Communication Networks.pdf +3 -0
code/ConferencingSpeech2022.zip +3 -0
code/NISQA-s.zip +3 -0
code/NISQA.wiki.zip +3 -0
code/NISQA.zip +3 -0
code/packages/nisqa-2.0.post2.tar.gz +3 -0
models/NISQA/.gitattributes +35 -0
models/NISQA/nisqa.tar +3 -0
models/NISQA/nisqa_mos_only.tar +3 -0
models/NISQA/nisqa_tts.tar +3 -0
models/NISQA/source.txt +1 -0
models/NISQA_preferred_training_dataset_voxpopuli_500_checkpoints_eval-2024-02-04-21-56-14/.gitattributes +35 -0
models/NISQA_preferred_training_dataset_voxpopuli_500_checkpoints_eval-2024-02-04-21-56-14/added_tokens.json +4 -0
models/NISQA_preferred_training_dataset_voxpopuli_500_checkpoints_eval-2024-02-04-21-56-14/config.json +92 -0
models/NISQA_preferred_training_dataset_voxpopuli_500_checkpoints_eval-2024-02-04-21-56-14/model.safetensors +3 -0
models/NISQA_preferred_training_dataset_voxpopuli_500_checkpoints_eval-2024-02-04-21-56-14/preprocessor_config.json +19 -0
models/NISQA_preferred_training_dataset_voxpopuli_500_checkpoints_eval-2024-02-04-21-56-14/runs/Feb04_21-57-29_4f8bbfe95eef/events.out.tfevents.1707083854.4f8bbfe95eef +3 -0
models/NISQA_preferred_training_dataset_voxpopuli_500_checkpoints_eval-2024-02-04-21-56-14/source.txt +1 -0
models/NISQA_preferred_training_dataset_voxpopuli_500_checkpoints_eval-2024-02-04-21-56-14/special_tokens_map.json +13 -0
models/NISQA_preferred_training_dataset_voxpopuli_500_checkpoints_eval-2024-02-04-21-56-14/spm_char.model +3 -0
models/NISQA_preferred_training_dataset_voxpopuli_500_checkpoints_eval-2024-02-04-21-56-14/tokenizer_config.json +63 -0
models/NISQA_preferred_training_dataset_voxpopuli_500_checkpoints_eval-2024-02-04-21-56-14/training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,6 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+CCATMos.[[:space:]]Convolutional[[:space:]]Context-aware[[:space:]]Transformer[[:space:]]Network[[:space:]]for[[:space:]]Non-intrusive[[:space:]]Speech[[:space:]]Quality[[:space:]]Assessment.pdf filter=lfs diff=lfs merge=lfs -text
+ConferencingSpeech[[:space:]]2022[[:space:]]Challenge.[[:space:]]Non-intrusive[[:space:]]Objective[[:space:]]Speech[[:space:]]Quality[[:space:]]Assessment[[:space:]](NISQA)[[:space:]]Challenge[[:space:]]for[[:space:]]Online[[:space:]]Conferencing[[:space:]]Applications.pdf filter=lfs diff=lfs merge=lfs -text
+Non-intrusive[[:space:]]Speech[[:space:]]Quality[[:space:]]Assessment[[:space:]]for[[:space:]]Super-wideband[[:space:]]Speech[[:space:]]Communication[[:space:]]Networks.pdf filter=lfs diff=lfs merge=lfs -text

CCATMos. Convolutional Context-aware Transformer Network for Non-intrusive Speech Quality Assessment.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ffd32c3903149d31421430712b8753f9df5317cd5d2f9bade5bfa2c969a836aa
+size 536661

ConferencingSpeech 2022 Challenge. Non-intrusive Objective Speech Quality Assessment (NISQA) Challenge for Online Conferencing Applications.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46c0e4d72b26a8040ccac7d6374c6fd8529f8374cc927d72ae3e717c9531fa69
+size 331874

Non-intrusive Speech Quality Assessment for Super-wideband Speech Communication Networks.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b4a48c0142047f830e5723ac25018b4495a92a29d08c48e181d97df824f7b423
+size 292433

code/ConferencingSpeech2022.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c919ff7e74c644bd6ac9eb851986b26b735968e114ab7bb9af7d0c704ea9b2f
+size 9813534

code/NISQA-s.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e762bd15505f2fa84e8f60dac24ccd2c0cac9bbe63b3f7d89f09acadcf01cb7
+size 18150690

code/NISQA.wiki.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b5b0c5ecc45086865e29896fcdff69a9626a9fae25da4019e41c272f5ed7770a
+size 659386

code/NISQA.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b155fd8a3a1d4950f0d6fcdb2789297a67d85448cf17df90b6e9d4cc01883215
+size 5364135

code/packages/nisqa-2.0.post2.tar.gz ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5be440be043aa69610b3126bf2f84be19c573b3c63b5a6078dce39773584e68b
+size 31721

models/NISQA/.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

models/NISQA/nisqa.tar ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ec4cf937514dd3f8860b21e66fabd8ca87a168572675ef8d979c4c4ad2e805c
+size 1051663

models/NISQA/nisqa_mos_only.tar ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:16b2632bea0a481b1bba485587a8da2265f2c7797b525712ae0c072986ee783c
+size 907215

models/NISQA/nisqa_tts.tar ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c556a954cd9536360b4fe6f524ad432816509cd22f436f345b281a7851360656
+size 1237159

models/NISQA/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/Vyvo-Research/NISQA

models/NISQA_preferred_training_dataset_voxpopuli_500_checkpoints_eval-2024-02-04-21-56-14/.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

models/NISQA_preferred_training_dataset_voxpopuli_500_checkpoints_eval-2024-02-04-21-56-14/added_tokens.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "<ctc_blank>": 80,
+  "<mask>": 79
+}

models/NISQA_preferred_training_dataset_voxpopuli_500_checkpoints_eval-2024-02-04-21-56-14/config.json ADDED Viewed

	@@ -0,0 +1,92 @@

+{
+  "_name_or_path": "microsoft/speecht5_tts",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": true,
+  "architectures": [
+    "SpeechT5ForTextToSpeech"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 0,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "decoder_attention_heads": 12,
+  "decoder_ffn_dim": 3072,
+  "decoder_layerdrop": 0.1,
+  "decoder_layers": 6,
+  "decoder_start_token_id": 2,
+  "encoder_attention_heads": 12,
+  "encoder_ffn_dim": 3072,
+  "encoder_layerdrop": 0.1,
+  "encoder_layers": 12,
+  "encoder_max_relative_position": 160,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "guided_attention_loss_num_heads": 2,
+  "guided_attention_loss_scale": 10.0,
+  "guided_attention_loss_sigma": 0.4,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "is_encoder_decoder": true,
+  "layer_norm_eps": 1e-05,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "max_length": 1876,
+  "max_speech_positions": 1876,
+  "max_text_positions": 600,
+  "model_type": "speecht5",
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_mel_bins": 80,
+  "pad_token_id": 1,
+  "positional_dropout": 0.1,
+  "reduction_factor": 2,
+  "scale_embedding": false,
+  "speaker_embedding_dim": 512,
+  "speech_decoder_postnet_dropout": 0.5,
+  "speech_decoder_postnet_kernel": 5,
+  "speech_decoder_postnet_layers": 5,
+  "speech_decoder_postnet_units": 256,
+  "speech_decoder_prenet_dropout": 0.5,
+  "speech_decoder_prenet_layers": 2,
+  "speech_decoder_prenet_units": 256,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.0.dev0",
+  "use_cache": false,
+  "use_guided_attention_loss": true,
+  "vocab_size": 81
+}

models/NISQA_preferred_training_dataset_voxpopuli_500_checkpoints_eval-2024-02-04-21-56-14/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9bcd6cd87acf4ea305453a0e058b5c8ad60fadd581caac8498732c386373d5fe
+size 577789320

models/NISQA_preferred_training_dataset_voxpopuli_500_checkpoints_eval-2024-02-04-21-56-14/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,19 @@

+{
+  "do_normalize": false,
+  "feature_extractor_type": "SpeechT5FeatureExtractor",
+  "feature_size": 1,
+  "fmax": 7600,
+  "fmin": 80,
+  "frame_signal_scale": 1.0,
+  "hop_length": 16,
+  "mel_floor": 1e-10,
+  "num_mel_bins": 80,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "processor_class": "SpeechT5Processor",
+  "reduction_factor": 2,
+  "return_attention_mask": true,
+  "sampling_rate": 16000,
+  "win_function": "hann_window",
+  "win_length": 64
+}

models/NISQA_preferred_training_dataset_voxpopuli_500_checkpoints_eval-2024-02-04-21-56-14/runs/Feb04_21-57-29_4f8bbfe95eef/events.out.tfevents.1707083854.4f8bbfe95eef ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d7be5fbc2358b71661ef6505cef404206b71344cc056a1fa9d67329faf00fee7
+size 63002

models/NISQA_preferred_training_dataset_voxpopuli_500_checkpoints_eval-2024-02-04-21-56-14/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/toastedshibe/NISQA_preferred_training_dataset_voxpopuli_500_checkpoints_eval-2024-02-04-21-56-14

models/NISQA_preferred_training_dataset_voxpopuli_500_checkpoints_eval-2024-02-04-21-56-14/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

models/NISQA_preferred_training_dataset_voxpopuli_500_checkpoints_eval-2024-02-04-21-56-14/spm_char.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7fcc48f3e225f627b1641db410ceb0c8649bd2b0c982e150b03f8be3728ab560
+size 238473

models/NISQA_preferred_training_dataset_voxpopuli_500_checkpoints_eval-2024-02-04-21-56-14/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "79": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "80": {
+      "content": "<ctc_blank>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "model_max_length": 600,
+  "normalize": false,
+  "pad_token": "<pad>",
+  "processor_class": "SpeechT5Processor",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "SpeechT5Tokenizer",
+  "unk_token": "<unk>"
+}

models/NISQA_preferred_training_dataset_voxpopuli_500_checkpoints_eval-2024-02-04-21-56-14/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:571a0c1727bdb738975e19ddec9cda82118196dac452bc24603c73a6340065be
+size 5048