Upload folder using huggingface_hub

592e96e verified 7 months ago

12.7 kB

	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	from torch.utils.data import Dataset, DataLoader
	import pandas as pd
	import numpy as np
	from sklearn.metrics import roc_auc_score, average_precision_score
	from transformers import BertModel, BertConfig
	import os
	import json
	from collections import defaultdict
	from rdkit import Chem
	from rdkit.Chem import Scaffolds
	import warnings
	warnings.filterwarnings('ignore')
	from transformers import AutoTokenizer

	# Global average pooling function (assuming this exists in your codebase)
	def global_ap(x, dim=1):
	return torch.mean(x, dim=dim)

	class SimSonClassifier(nn.Module):
	def __init__(self, config: BertConfig, max_len: int, num_labels: int, dropout: float = 0.1):
	super(SimSonClassifier, self).__init__()
	self.config = config
	self.max_len = max_len
	self.num_labels = num_labels

	# BERT encoder (same as SimSonEncoder)
	self.bert = BertModel(config, add_pooling_layer=False)
	self.dropout = nn.Dropout(dropout)

	# Classification head
	self.classifier = nn.Linear(config.hidden_size, num_labels)

	def forward(self, input_ids, attention_mask=None):
	if attention_mask is None:
	attention_mask = input_ids.ne(0)

	outputs = self.bert(
	input_ids=input_ids,
	attention_mask=attention_mask
	)

	hidden_states = outputs.last_hidden_state
	hidden_states = self.dropout(hidden_states)

	# Global average pooling
	pooled = global_ap(hidden_states)

	# Classification output
	logits = self.classifier(pooled)

	return logits

	def load_encoder_weights(self, encoder_path):
	"""Load pretrained SimSonEncoder weights into the classifier"""
	encoder_state = torch.load(encoder_path, map_location='cpu')

	# Create mapping from encoder to classifier state dict
	classifier_state = {}
	for key, value in encoder_state.items():
	if key.startswith('bert.') or key.startswith('dropout.'):
	classifier_state[key] = value

	# Load only the matching weights
	self.load_state_dict(classifier_state, strict=False)
	print(f"Loaded encoder weights from {encoder_path}")



	def load_moleculenet_data(dataset_name):
	"""Load MoleculeNet dataset and return SMILES and labels"""
	if dataset_name == 'bbbp':
	df = pd.read_csv('https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/BBBP.csv')
	smiles, labels = df.smiles, df.p_np
	elif dataset_name == 'clintox':
	df = pd.read_csv('https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/clintox.csv.gz', compression='gzip')
	smiles = df.smiles
	labels = df.drop(['smiles'], axis=1)
	elif dataset_name == 'hiv':
	df = pd.read_csv('https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/HIV.csv')
	smiles, labels = df.smiles, df.HIV_active
	elif dataset_name == 'sider':
	df = pd.read_csv('https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/sider.csv.gz', compression='gzip')
	smiles = df.smiles
	labels = df.drop(['smiles'], axis=1)
	elif dataset_name == 'tox21':
	df = pd.read_csv('https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/tox21.csv.gz', compression='gzip')
	df = df.dropna(axis=0, how='any').reset_index(drop=True)
	smiles = df.smiles
	labels = df.drop(['mol_id', 'smiles'], axis=1)
	elif dataset_name == 'bace':
	df = pd.read_csv('https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/bace.csv')
	smiles, labels = df.mol, df.Class
	else:
	raise ValueError(f"Dataset {dataset_name} not supported")

	return smiles, labels

	class MoleculeDataset(Dataset):
	def __init__(self, smiles_list, labels, tokenizer, max_length=512):
	self.smiles = smiles_list
	self.labels = labels
	self.tokenizer = tokenizer
	self.max_length = max_length

	def __len__(self):
	return len(self.smiles)

	def __getitem__(self, idx):
	smiles = self.smiles[idx]

	# Tokenize SMILES
	encoding = self.tokenizer(
	smiles,
	truncation=True,
	padding='max_length',
	max_length=self.max_length,
	return_tensors='pt'
	)

	# Handle labels
	if isinstance(self.labels, pd.Series):
	label = torch.tensor(self.labels.iloc[idx], dtype=torch.float32)
	else: # DataFrame (multi-label)
	label = torch.tensor(self.labels.iloc[idx].values, dtype=torch.float32)

	return {
	'input_ids': encoding['input_ids'].flatten(),
	'attention_mask': encoding['attention_mask'].flatten(),
	'labels': label
	}

	def get_loss_fn(num_labels):
	"""Get appropriate loss function based on number of labels"""
	if num_labels == 1:
	return nn.BCEWithLogitsLoss()
	else:
	return nn.BCEWithLogitsLoss() # Multi-label classification

	def compute_metrics(predictions, labels, num_labels):
	"""Compute ROC-AUC for single or multi-label classification"""
	predictions = torch.sigmoid(predictions).cpu().numpy()
	labels = labels.cpu().numpy()

	if num_labels == 1:
	# Single label
	try:
	auc = roc_auc_score(labels, predictions)
	return {'roc_auc': auc}
	except:
	return {'roc_auc': 0.5}
	else:
	# Multi-label
	aucs = []
	for i in range(num_labels):
	try:
	auc = roc_auc_score(labels[:, i], predictions[:, i])
	aucs.append(auc)
	except:
	aucs.append(0.5)
	return {'roc_auc': np.mean(aucs), 'individual_aucs': aucs}

	def train_epoch(model, dataloader, optimizer, loss_fn, device):
	model.train()
	total_loss = 0

	for batch in dataloader:
	input_ids = batch['input_ids'].to(device)
	attention_mask = batch['attention_mask'].to(device)
	labels = batch['labels'].to(device)

	optimizer.zero_grad()

	outputs = model(input_ids, attention_mask)
	loss = loss_fn(outputs, labels)

	loss.backward()
	optimizer.step()

	total_loss += loss.item()

	return total_loss / len(dataloader)

	def evaluate(model, dataloader, loss_fn, num_labels, device):
	model.eval()
	total_loss = 0
	all_predictions = []
	all_labels = []

	with torch.no_grad():
	for batch in dataloader:
	input_ids = batch['input_ids'].to(device)
	attention_mask = batch['attention_mask'].to(device)
	labels = batch['labels'].to(device)

	outputs = model(input_ids, attention_mask)
	loss = loss_fn(outputs, labels)

	total_loss += loss.item()
	all_predictions.append(outputs)
	all_labels.append(labels)

	all_predictions = torch.cat(all_predictions)
	all_labels = torch.cat(all_labels)

	metrics = compute_metrics(all_predictions, all_labels, num_labels)
	avg_loss = total_loss / len(dataloader)

	return avg_loss, metrics

	def run_experiment(dataset_name, config, tokenizer, encoder_path=None,
	batch_size=32, learning_rate=1e-4, epochs=50, device='cuda'):
	"""Run complete experiment for one dataset"""
	print(f"\n=== Running experiment for {dataset_name.upper()} ===")

	# Load data
	smiles, labels = load_moleculenet_data(dataset_name)
	print(f"Loaded {len(smiles)} samples")

	# Determine number of labels
	if isinstance(labels, pd.Series):
	num_labels = 1
	else:
	num_labels = labels.shape[1]
	print(f"Number of labels: {num_labels}")

	# Scaffold split
	smiles_list = smiles.tolist()
	train_idx, valid_idx, test_idx = scaffold_split(smiles_list)

	print(f"Split sizes - Train: {len(train_idx)}, Valid: {len(valid_idx)}, Test: {len(test_idx)}")
	# Create datasets
	train_smiles = [smiles_list[i] for i in train_idx]
	valid_smiles = [smiles_list[i] for i in valid_idx]
	test_smiles = [smiles_list[i] for i in test_idx]

	if isinstance(labels, pd.Series):
	train_labels = labels.iloc[list(train_idx)]
	valid_labels = labels.iloc[list(valid_idx)]
	test_labels = labels.iloc[list(test_idx)]
	else:
	train_labels = labels.iloc[list(train_idx)]
	valid_labels = labels.iloc[list(valid_idx)]
	test_labels = labels.iloc[list(test_idx)]

	# Create data loaders
	train_dataset = MoleculeDataset(train_smiles, train_labels, tokenizer)
	valid_dataset = MoleculeDataset(valid_smiles, valid_labels, tokenizer)
	test_dataset = MoleculeDataset(test_smiles, test_labels, tokenizer)

	train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
	valid_loader = DataLoader(valid_dataset, batch_size=batch_size, shuffle=False)
	test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)

	# Initialize model
	model = SimSonClassifier(config, max_len=512, num_labels=num_labels).to(device)

	# Load encoder weights if provided
	if encoder_path:
	model.load_encoder_weights(encoder_path)

	# Setup training
	optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)
	loss_fn = get_loss_fn(num_labels)

	best_valid_loss = float('inf')
	best_model_path = f'best_{dataset_name}_model.pth'

	# Training loop
	for epoch in range(epochs):
	train_loss = train_epoch(model, train_loader, optimizer, loss_fn, device)
	valid_loss, valid_metrics = evaluate(model, valid_loader, loss_fn, num_labels, device)

	# Save best model
	if valid_loss < best_valid_loss:
	best_valid_loss = valid_loss
	torch.save(model.state_dict(), best_model_path)

	if epoch % 10 == 0:
	print(f"Epoch {epoch}: Train Loss = {train_loss:.4f}, "
	f"Valid Loss = {valid_loss:.4f}, Valid AUC = {valid_metrics['roc_auc']:.4f}")

	# Load best model and test
	model.load_state_dict(torch.load(best_model_path))
	test_loss, test_metrics = evaluate(model, test_loader, loss_fn, num_labels, device)

	print(f"Final Test Results - Loss: {test_loss:.4f}, ROC-AUC: {test_metrics['roc_auc']:.4f}")

	# Cleanup
	os.remove(best_model_path)

	return {
	'dataset': dataset_name,
	'num_labels': num_labels,
	'test_loss': test_loss,
	'test_roc_auc': test_metrics['roc_auc'],
	'individual_aucs': test_metrics.get('individual_aucs', None)
	}

	def main():
	"""Main function to run all experiments"""
	# Setup
	device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
	print(f"Using device: {device}")

	# Initialize tokenizer and config (you need to provide these)
	# tokenizer = your_tokenizer # Replace with your tokenizer
	# config = BertConfig(...) # Your config from above
	tokenizer_path = 'DeepChem/ChemBERTa-77M-MTR'
	tokenizer = AutoTokenizer.from_pretrained(tokenizer_path)

	# Only the hidden size is slightly larger, everything else is the same
	config = BertConfig(
	vocab_size=tokenizer.vocab_size,
	hidden_size=768,
	num_hidden_layers=4,
	num_attention_heads=12,
	intermediate_size=2048,
	max_position_embeddings=512
	)
	# Datasets to test
	datasets = ['bbbp', 'tox21', 'sider', 'clintox', 'hiv', 'bace']

	# Path to your pretrained encoder (optional)
	encoder_path = 'simson_checkpoints_small/simson_model_single_gpu.bin'

	# Run experiments
	all_results = []
	for dataset in datasets:
	try:
	result = run_experiment(
	dataset,
	config,
	tokenizer,
	encoder_path=encoder_path,
	device=device
	)
	all_results.append(result)
	except Exception as e:
	print(f"Error with {dataset}: {e}")

	# Aggregate and display results
	print("\n" + "="*60)
	print("FINAL RESULTS SUMMARY")
	print("="*60)

	results_df = pd.DataFrame(all_results)
	print(results_df.to_string(index=False))

	# Save results
	results_df.to_csv('moleculenet_results.csv', index=False)
	print(f"\nResults saved to moleculenet_results.csv")

	return results_df

	if __name__ == "__main__":

	results = main()