Spaces:

S-Dreamer
/

ThtratLandscapeChat

Sleeping

S-Dreamer commited on Nov 25, 2025

Commit

1c34bfc

verified ·

1 Parent(s): b79ce4d

Update datasets_loader.py

Files changed (1) hide show

datasets_loader.py CHANGED Viewed

@@ -1,33 +1,7 @@
-# datasets_loader.py
-from datasets import load_dataset, DatasetDict
-from transformers import AutoTokenizer
-def load_threat_dataset(path: str, tokenizer_name="bert-base-chinese"):
-    """
-    Loads a dataset of Chinese cybercrime posts with labels.
-    Expects columns: text, label
-    """
-    raw = load_dataset("csv", data_files=path)
-    tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)
-    def tokenize(batch):
-        return tokenizer(
-            batch["text"],
-            truncation=True,
-            padding="max_length",
-            max_length=256
-        )
-    tokenized = raw.map(tokenize, batched=True)
-    return DatasetDict({
-        "train": tokenized["train"],
-        "test": tokenized["test"]
-    })
-# Example:
-# ds = load_threat_dataset("dataset/threat_samples.csv")
-# print(ds["train"][0])

+from datasets import load_dataset
+def load_redteamer_mistral():
+    return load_dataset("romaingrx/red-teamer-mistral-", split="train")
+def load_multi_class_redteaming():
+    return load_dataset("SummerSigh/Muti-Class-Redteaming", split="train")