SentenceTransformer based on sentence-transformers/distiluse-base-multilingual-cased-v2

This is a sentence-transformers model finetuned from sentence-transformers/distiluse-base-multilingual-cased-v2. It maps sentences & paragraphs to a 512-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: DistilBertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Dense({'in_features': 768, 'out_features': 512, 'bias': True, 'activation_function': 'torch.nn.modules.activation.Tanh'})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("philipp-zettl/distiluse-base-multilingual-cased-v2-CEB")
# Run inference
sentences = [
    'Kaufmann / Kauffrau für Spedition und Logistikdienstleistungen - Vorbereitung auf Externenprüfung / Externenregelung - geringe Vorkenntnisse - Intensivkurs (IHK)\n\nSie haben keinen Abschluss, aber sind berufserfahren und engagiert? Darauf lässt sich aufbauen! Die Externenprüfung ist ein Weg, eine Qualifikationen nachzuholen und eine Ausbildung abzuschließen. Mit einem Berufsabschluss haben Sie die besten Aussichten auf einen sicheren Job und mindern das Risiko von Arbeitslosigkeit. Damit eröffnet das Bestehen der Externenprüfung vielfältige Perspektiven und neue Chancen auf ein erfolgreiches Berufsleben und einen beruflichen Aufstieg.  \n  \nIm Rahmen dieser Maßnahme werden Sie auf die Externenprüfung zum Kaufmann bzw. zur Kauffrau für Spedition und Logistikdienstleistungen vorbereitet.  \n  \nDie individuelle Vorbereitung auf die Abschlussprüfung wird nach einer ausführlichen persönlichen Bildungsberatung für Sie zusammengestellt und richtet sich nach Ihren Vorkenntnissen.',
    'Kaufmann / Kauffrau für Spedition und Logistikdienstleistungen - Vorbereitung auf Externenprüfung / Externenregelung - geringe Vorkenntnisse - Intensivkurs (IHK)\n\nThemen der Vorbereitungsschulung sind zum Beispiel:\n\n* Wirtschafts\\- und Sozialkunde, Betriebswirtschaftslehre\n* Information, Kommunikation und Kooperation\n* Rechnungswesen\n* Marketing\n* Personal\n* Dokumentation und Bearbeitung von Geschäftsprozessen und Zahlungsvorgängen\n* Vergleich und Bearbeitung von Verkehrsträgern und Frachtaufträgen\n* Bearbeitung von Speditionsaufträgen im Sammelgut\\- und Systemverkehr\n* Beschaffungsvorgänge\n\nSie haben keinen Abschluss, aber sind berufserfahren und engagiert? Darauf lässt sich aufbauen! Die Externenprüfung ist ein Weg, eine Qualifikationen nachzuholen und eine Ausbildung abzuschließen. Mit einem Berufsabschluss haben Sie die besten Aussichten auf einen sicheren Job und mindern das Risiko von Arbeitslosigkeit. Damit eröffnet das Bestehen der Externenprüfung vielfältige Perspektiven und neue Chancen auf ein erfolgreiches Berufsleben und einen beruflichen Aufstieg.  \n  \nIm Rahmen dieser Maßnahme werden Sie auf die Externenprüfung zum Kaufmann bzw. zur Kauffrau für Spedition und Logistikdienstleistungen vorbereitet.  \n  \nDie individuelle Vorbereitung auf die Abschlussprüfung wird nach einer ausführlichen persönlichen Bildungsberatung für Sie zusammengestellt und richtet sich nach Ihren Vorkenntnissen.',
    'Gasschweißen - Blechschweißer\n\n* Theoretischer Unterricht\n* Schweißen von Kehlnähten an Blechen mit unterschiedlichen Dicken, „nach links“ und „nach rechts“, in den Positionen PA, PB, PD, PF\n* Schweißen von Stirnkehlnähten an Blechen mit unterschiedlichen Dicken, „nach links“ und „nach rechts“, in den Positionen PA, PD, PF\n* Schweißen von Stumpfnähten an Blechen mit unterschiedlichen Dicken, „nach links“ und „nach rechts“, in den Positionen PA, PC, PF\n\nDas Schweißverfahren Gasschweißen wird normalerweise als Teil einer modularen Schweißerausbildung zusammen mit anderen Verfahren erlernt. Das Gasschweißen wird vorwiegend zum Schweißen von unlegierten und niedriglegierten Stählen eingesetzt. Es eignet sich besonders zum Schweißen dünner Bleche und dünnwandiger Rohre sowie zur Durchführung von Reparatur\\- und Auftragsschweißungen. Das Verfahren ist besonders im Heizungs\\-, Installations\\- und Rohrleitungsbau weit verbreitet.\n\nIm Schweißverfahren Gasschweißen \\- Blechschweißen erlernen Sie fachkundliche Kenntnisse und praktische Fertigkeiten im Schweißen von Blechen mit Acetylen\\-Sauerstoff\\-Flamme. Auch erlernen Sie das Schweißen von Kehl\\- und Stumpfnähten an Blechen mit verschiedenen Blechdicken und in unterschiedlichen Schweißpositionen.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 512]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 5,845 training samples
  • Columns: sentence_0 and sentence_1
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1
    type string string
    details
    • min: 4 tokens
    • mean: 82.24 tokens
    • max: 128 tokens
    • min: 64 tokens
    • mean: 127.42 tokens
    • max: 128 tokens
  • Samples:
    sentence_0 sentence_1
    Webseitengestaltung mit (X)HTML und CSS, Basics Webseitengestaltung mit (X)HTML und CSS, Basics

    * Einführung
    * Aufbau eines HTML5-Dokuments
    * Texte strukturieren
    * Farben
    * Hyperlinks
    * Grafiken
    * Listen
    * Formulare
    * Tabellen
    * Unterschiede zu XHTML und HTML4

    HTML ist eine textbasierte Auszeichnungssprache zur inhaltlichen Strukturierung digitaler Dokumente, welche auch Grundlage des World Wide Web sind und von Browsern dargestellt werden. Lernen Sie, wie HTML-Dokumente aufgebaut und Texte organisiert und strukturiert sind und wie Sie Listen, Tabellen und Formulare erstellen. Desweiteren beginnen Sie, mit CSS ein HTML-Dokument auch optisch zu gestalten.
    Fachkraft für Schutz und Sicherheit - Vorbereitung auf Externenprüfung / Externenregelung - umfangreiche Vorkenntnisse - Kompaktkurs (IHK)

    Vorbereitung auf die Abschlussprüfung mit den Schwerpunkten:

    * Schutz und Sicherheit
    * Betriebswirtschaft
    * Sicherheitsdienstleistungen
    * Zusammenarbeit im Betrieb
    Fachkraft für Schutz und Sicherheit - Vorbereitung auf Externenprüfung / Externenregelung - umfangreiche Vorkenntnisse - Kompaktkurs (IHK)

    Vorbereitung auf die Abschlussprüfung mit den Schwerpunkten:

    * Schutz und Sicherheit
    * Betriebswirtschaft
    * Sicherheitsdienstleistungen
    * Zusammenarbeit im Betrieb

    Ein erfolgreicher Berufsabschluss verbessert die Chancen auf dem Arbeitsmarkt und schützt am besten vor Arbeitslosigkeit. Die Externenprüfung bietet eine Möglichkeit, auch ohne klassische Berufsausbildung einen Berufsabschluss zu erreichen: Wer einschlägige Berufserfahrung nachweisen kann, kann als sogenannte Externer von der Kammer zur Abschlussprüfung eines Berufes zugelassen werden, ohne zuvor die Ausbildung/Umschulung zu durchlaufen.

    Das Nachholen des Berufsabschlusses stellt die Externen jedoch oftmals vor besondere Herausforderungen, denn neben praktischen Fähigkeiten werden auch theoretische Inhalte der Ausbildung geprüft, die sie im Rahmen ihrer beruflichen Tätigkeiten i...
    Office Manager für Migranten (m/w/d)

    Bürokommunikation

    * Büroassistenz
    * Kaufmännischer Schriftverkehr
    * Grundlage Datenschutz
    * Anwendung von MS Office-Programmen
    * Begrifflichkeiten Bürodigitalisierung
    * Büromanagement
    * Büroorganisation
    * Berufsfachliche Kommunikation (mündlich / schriftlich)

    Buchführung und Rechnungswesen

    * Grundlagen Buchführung
    * Aufbau Buchführung
    * Steuerliche Grundlagen Deutschland
    * Grundkenntnisse kaufmännischer Software

    Wirtschaftsprozesse

    * Grundlagen Personalwesen inkl. Bewerbungstraining
    * Grundlagen Beschaffung

    Zu allen Inhalten wird das berufsbezogene Fachvokabular mit Übungen und hochwertigen Lerneinheiten trainiert.
    Office Manager für Migranten (m/w/d)

    Bürokommunikation

    * Büroassistenz
    * Kaufmännischer Schriftverkehr
    * Grundlage Datenschutz
    * Anwendung von MS Office-Programmen
    * Begrifflichkeiten Bürodigitalisierung
    * Büromanagement
    * Büroorganisation
    * Berufsfachliche Kommunikation (mündlich / schriftlich)

    Buchführung und Rechnungswesen

    * Grundlagen Buchführung
    * Aufbau Buchführung
    * Steuerliche Grundlagen Deutschland
    * Grundkenntnisse kaufmännischer Software

    Wirtschaftsprozesse

    * Grundlagen Personalwesen inkl. Bewerbungstraining
    * Grundlagen Beschaffung

    Zu allen Inhalten wird das berufsbezogene Fachvokabular mit Übungen und hochwertigen Lerneinheiten trainiert.

    Als Office Manager:in kümmern Sie sich um die Planung und Überwachung von Terminen, organisieren Besprechungen und verwalten wichtige Dokumente und Informationen. Im Unternehmen sind Sie eine wichtige Anlaufstelle für externe & interne Anfragen, daher ist eine sichere und professionelle Kommunikation besonders wichtig.

    In unser...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • tp_size: 0
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin

Training Logs

Epoch Step Training Loss
2.7322 500 0.0179

Framework Versions

  • Python: 3.12.8
  • Sentence Transformers: 3.4.1
  • Transformers: 4.50.3
  • PyTorch: 2.7.1+cu126
  • Accelerate: 0.34.2
  • Datasets: 2.21.0
  • Tokenizers: 0.21.4

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
5
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for philipp-zettl/distiluse-base-multilingual-cased-v2-CEB

Papers for philipp-zettl/distiluse-base-multilingual-cased-v2-CEB