Saugat212
/

ASR_MODEL

Model card Files Files and versions

Saugat212 commited on 26 days ago

Commit

0dea481

·

verified ·

1 Parent(s): db77171

Add model documentation

Files changed (1) hide show

README.md +86 -0

README.md ADDED Viewed

	@@ -0,0 +1,86 @@

+# Nepali Automatic Speech Recognition (ASR)
+## Overview
+Fine-tuning and inference for Nepali language speech recognition using Wav2Vec2 and Whisper models.
+## Model Details
+| Property | Value |
+|----------|-------|
+| **Model ID** | `Saugat212/ASR_MODEL` |
+| **Base Model** | facebook/wav2vec2-base |
+| **Architecture** | wav2vec2 |
+| **Parameters** | 0.3B |
+| **Language** | Nepali |
+## Purpose
+- Convert Nepali speech audio to text
+- Fine-tune Wav2Vec2 on Nepali datasets
+- Evaluate ASR performance using WER metric
+## Contents
+| File | Description |
+|------|-------------|
+| `whisper_transcription.ipynb` | Whisper model for Nepali speech-to-text transcription |
+| `wav2vec2_finetuning.ipynb` | Wav2Vec2 fine-tuning recipe for Nepali ASR |
+| `wav2vec2_finetune.py` | Python script for Wav2Vec2 fine-tuning |
+| `finetune.py` | ASR fine-tuning script |
+| `Dataset/` | Training datasets (CSV files with audio paths and transcriptions) |
+| `Phase 1/Finetuning/` | Phase 1 training data, checkpoints, and inference notebooks |
+## Usage
+### Load Model
+```python
+from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
+model_name = "Saugat212/ASR_MODEL"
+processor = Wav2Vec2Processor.from_pretrained(model_name)
+model = Wav2Vec2ForCTC.from_pretrained(model_name)
+```
+### Inference
+```python
+import torchaudio
+import torch
+# Load audio
+waveform, sample_rate = torchaudio.load("audio.wav")
+# Process
+input_values = processor(waveform.squeeze(), return_tensors="pt", sampling_rate=sample_rate).input_values
+# Infer
+with torch.no_grad():
+    logits = model(input_values).logits
+predicted_ids = torch.argmax(logits, dim=-1)
+# Decode
+transcription = processor.batch_decode(predicted_ids)[0]
+print(transcription)
+```
+## Models Available
+- **Wav2Vec2**: `Saugat212/ASR_MODEL` - Fine-tuned Nepali ASR
+- **Whisper**: OpenAI Whisper for alternative transcription
+## Dataset
+- Located in `Dataset/`
+- Contains `final_transcriptions.csv` with audio paths and transcriptions
+- Cleaned data in `cleaned_data.csv`
+## Requirements
+- transformers
+- torchaudio
+- datasets
+- evaluate
+- jiwer
+## Fine-tuning
+See `wav2vec2_finetuning.ipynb` for complete fine-tuning pipeline.