Upload modeling_hf.py

dc694a3 verified about 1 month ago

7.97 kB

	"""
	Collins-RoPE 极简 Embedding 模型（HuggingFace 原生实现）
	架构：Hash Embedding (2-Universal + Sign Hash) -> RoPE -> Transformer Encoder -> Mean Pooling
	目标参数量：~2M
	"""

	import math
	from dataclasses import dataclass
	from typing import Optional

	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	from transformers import PretrainedConfig, PreTrainedModel
	from transformers.modeling_outputs import BaseModelOutput


	class CollinsConfig(PretrainedConfig):
	model_type = "collins"

	def __init__(
	self,
	vocab_size: int = 30522,
	num_buckets: int = 2048,
	hidden_size: int = 256,
	num_hidden_layers: int = 3,
	num_attention_heads: int = 8,
	intermediate_size: int = 1024,
	hidden_dropout_prob: float = 0.1,
	attention_probs_dropout_prob: float = 0.1,
	max_position_embeddings: int = 512,
	# 2-Universal Hash 固定种子（保证 load 后哈希一致）
	hash_seed: int = 42,
	**kwargs,
	):
	super().__init__(**kwargs)
	self.vocab_size = vocab_size
	self.num_buckets = num_buckets
	self.hidden_size = hidden_size
	self.num_hidden_layers = num_hidden_layers
	self.num_attention_heads = num_attention_heads
	self.intermediate_size = intermediate_size
	self.hidden_dropout_prob = hidden_dropout_prob
	self.attention_probs_dropout_prob = attention_probs_dropout_prob
	self.max_position_embeddings = max_position_embeddings
	self.hash_seed = hash_seed


	class CollinsHashEmbedding(nn.Module):
	"""
	2-Universal Hash + Sign Hash 压缩 Embedding。
	哈希参数从 config.hash_seed 确定性生成，保证 save/load 后一致。
	"""

	def __init__(self, config: CollinsConfig):
	super().__init__()
	self.num_buckets = config.num_buckets
	self.hidden_size = config.hidden_size

	self.hash_table = nn.Parameter(
	torch.randn(config.num_buckets, config.hidden_size)
	/ math.sqrt(config.hidden_size)
	)

	prime = 2147483647 # 梅森素数 2^31 - 1
	rng = torch.Generator()
	rng.manual_seed(config.hash_seed)
	a1 = torch.randint(1, prime, (1,), generator=rng, dtype=torch.long)
	b1 = torch.randint(0, prime, (1,), generator=rng, dtype=torch.long)
	a2 = torch.randint(1, prime, (1,), generator=rng, dtype=torch.long)
	b2 = torch.randint(0, prime, (1,), generator=rng, dtype=torch.long)

	self.register_buffer("prime", torch.tensor(prime, dtype=torch.long))
	self.register_buffer("a1", a1)
	self.register_buffer("b1", b1)
	self.register_buffer("a2", a2)
	self.register_buffer("b2", b2)

	def forward(self, input_ids: torch.Tensor) -> torch.Tensor:
	x = input_ids.long()
	bucket_idx = ((x * self.a1 + self.b1) % self.prime) % self.num_buckets
	sign = ((x * self.a2 + self.b2) % self.prime) % 2
	sign = (sign * 2 - 1).float()
	return self.hash_table[bucket_idx] * sign.unsqueeze(-1)


	class CollinsModel(PreTrainedModel):
	"""
	Collins-RoPE Encoder，输出 last_hidden_state 和 pooler_output。
	使用 transformers.models.bert 的 BertEncoder + RoPE 替换 BertEmbeddings。
	"""

	config_class = CollinsConfig
	base_model_prefix = "collins"
	supports_gradient_checkpointing = True

	def __init__(self, config: CollinsConfig):
	super().__init__(config)
	self.config = config

	self.embeddings = CollinsHashEmbedding(config)

	# 直接复用 HF BertEncoder（含 Multi-Head Attention + FFN + LayerNorm）
	from transformers.models.bert.modeling_bert import BertEncoder, BertConfig

	bert_cfg = BertConfig(
	hidden_size=config.hidden_size,
	num_hidden_layers=config.num_hidden_layers,
	num_attention_heads=config.num_attention_heads,
	intermediate_size=config.intermediate_size,
	hidden_dropout_prob=config.hidden_dropout_prob,
	attention_probs_dropout_prob=config.attention_probs_dropout_prob,
	max_position_embeddings=config.max_position_embeddings,
	# 关闭 Bert 自带的位置编码，我们用 RoPE
	position_embedding_type="relative_key_query",
	)
	bert_cfg._attn_implementation = "eager"
	self.encoder = BertEncoder(bert_cfg)

	# RoPE 频率缓冲（无参数）
	dim = config.hidden_size
	inv_freq = 1.0 / (
	10000 ** (torch.arange(0, dim, 2).float() / dim)
	)
	t = torch.arange(config.max_position_embeddings).float()
	freqs = torch.einsum("i,j->ij", t, inv_freq)
	self.register_buffer("rope_cos", freqs.cos())
	self.register_buffer("rope_sin", freqs.sin())

	self.post_init()

	def _apply_rope(self, x: torch.Tensor) -> torch.Tensor:
	seq_len = x.shape[1]
	cos = self.rope_cos[:seq_len].unsqueeze(0)
	sin = self.rope_sin[:seq_len].unsqueeze(0)
	x1, x2 = x[..., 0::2], x[..., 1::2]
	return torch.cat([x1 * cos - x2 * sin, x1 * sin + x2 * cos], dim=-1)

	def get_extended_attention_mask(self, attention_mask: torch.Tensor) -> torch.Tensor:
	# BertEncoder 需要 [B, 1, 1, L] 形式的 mask，0 = 保留，-inf = 忽略
	extended = attention_mask[:, None, None, :]
	extended = (1.0 - extended.float()) * torch.finfo(torch.float32).min
	return extended

	def forward(
	self,
	input_ids: torch.Tensor,
	attention_mask: Optional[torch.Tensor] = None,
	return_dict: bool = True,
	):
	if attention_mask is None:
	attention_mask = torch.ones_like(input_ids)

	x = self.embeddings(input_ids) # [B, L, D]
	x = self._apply_rope(x) # [B, L, D]

	ext_mask = self.get_extended_attention_mask(attention_mask)
	encoder_out = self.encoder(x, attention_mask=ext_mask)
	hidden_states = encoder_out.last_hidden_state # [B, L, D]

	# Mean Pooling
	mask = attention_mask.unsqueeze(-1).float()
	pooled = (hidden_states * mask).sum(1) / mask.sum(1).clamp(min=1e-9)
	pooled = F.normalize(pooled, p=2, dim=-1)

	if not return_dict:
	return (hidden_states, pooled)

	return BaseModelOutput(
	last_hidden_state=hidden_states,
	hidden_states=None,
	attentions=None,
	), pooled


	class CollinsSTWrapper(nn.Module):
	"""
	sentence-transformers 5.x 兼容包装层。
	持有 tokenizer，实现 tokenize() 接口，同时注入 sentence_embedding。
	"""

	def __init__(self, collins_model: CollinsModel, tokenizer_name_or_path: str = "bert-base-uncased", max_seq_length: int = 128):
	super().__init__()
	from transformers import AutoTokenizer
	self.collins_model = collins_model
	self.tokenizer = AutoTokenizer.from_pretrained(tokenizer_name_or_path)
	self.max_seq_length = max_seq_length

	def tokenize(self, texts: list[str], padding: str \| bool = True) -> dict:
	return self.tokenizer(
	texts,
	padding=padding,
	truncation=True,
	max_length=self.max_seq_length,
	return_tensors="pt",
	)

	def forward(self, features: dict) -> dict:
	input_ids = features["input_ids"]
	attention_mask = features.get("attention_mask", None)
	_, pooled = self.collins_model(input_ids, attention_mask)
	features["sentence_embedding"] = pooled
	return features

	def save(self, output_path: str):
	self.collins_model.save_pretrained(output_path)
	self.tokenizer.save_pretrained(output_path)

	@staticmethod
	def load(input_path: str) -> "CollinsSTWrapper":
	model = CollinsModel.from_pretrained(input_path)
	return CollinsSTWrapper(model, tokenizer_name_or_path=input_path)