Spaces:

jersonalvr
/

machinelearning

Paused

JersonRuizAlva

Add application file

97a4bf8 over 1 year ago

39.5 kB

	# prepare.py - Módulo para datos
	import streamlit as st
	import pandas as pd
	import numpy as np
	import plotly.express as px
	from sklearn.preprocessing import StandardScaler, LabelEncoder
	from datetime import datetime
	from ydata_profiling import ProfileReport
	import os

	def show_prepare():
	# Crear un contenedor para mensajes de estado
	status_container = st.empty()

	# Verificar si hay datos cargados
	if 'er_data' not in st.session_state:
	status_container.warning("⚠️ No hay datos cargados. Por favor, carga un dataset en la página Upload primero.")
	return

	try:
	# Usar los datos preparados si existen, si no, usar los datos originales
	if 'temp_prepared_data' in st.session_state:
	prepare = st.session_state.temp_prepared_data.copy()
	else:
	# Si no hay datos temporales, intentar usar datos preparados permanentes
	if 'prepared_data' in st.session_state:
	prepare = st.session_state.prepared_data.copy()
	else:
	prepare = st.session_state.er_data.copy()
	st.session_state.temp_prepared_data = prepare.copy()
	except AttributeError:
	status_container.warning("⚠️ No hay datos cargados o los datos son inválidos.")
	return

	# Análisis de valores únicos por columna
	st.markdown("### Análisis de Valores Únicos por Columna")

	# Selección de columnas para analizar - sin selección por defecto
	all_columns = prepare.columns.tolist()
	selected_columns = st.multiselect(
	"Seleccionar columnas para analizar",
	all_columns,
	default=[], # Sin selección por defecto
	key="unique_values_columns",
	help="Selecciona las columnas que deseas analizar"
	)

	if not selected_columns:
	st.info("👆 Selecciona una o más columnas para ver su análisis detallado.")
	else:
	# Controles para número de valores a mostrar
	col1, col2 = st.columns(2)
	with col1:
	n_first = st.number_input(
	"Número de primeros valores a mostrar",
	min_value=1,
	max_value=20,
	value=5,
	key="n_first_values"
	)
	with col2:
	n_last = st.number_input(
	"Número de últimos valores a mostrar",
	min_value=1,
	max_value=20,
	value=5,
	key="n_last_values"
	)

	# Crear tabs para cada columna seleccionada
	tabs = st.tabs([f"📊 {col}" for col in selected_columns])

	# Análisis por cada columna seleccionada
	for tab, col in zip(tabs, selected_columns):
	with tab:
	try:
	st.markdown(f"### Análisis de {col} ({prepare[col].dtype})")

	# Safely convert column to handle mixed types
	column_data = prepare[col].fillna('Sin valor').astype(str)

	valores_unicos = column_data.unique()
	n_valores = len(valores_unicos)

	# Información general en columnas
	col1, col2, col3 = st.columns([2, 1, 1])
	with col1:
	st.write(f"Total de valores únicos: {n_valores}")
	with col2:
	st.write(f"Valores nulos: {prepare[col].isnull().sum()}")
	with col3:
	st.write(f"% nulos: {(prepare[col].isnull().sum() / len(prepare) * 100).round(2)}%")

	st.markdown("---")

	# Visualización de valores únicos
	if n_valores > (n_first + n_last):
	col1, col2 = st.columns(2)
	with col1:
	st.write("🔼 Primeros valores:")
	for valor in valores_unicos[:n_first]:
	st.write(f"• {str(valor)}")

	with col2:
	st.write("🔽 Últimos valores:")
	for valor in valores_unicos[-n_last:]:
	st.write(f"• {str(valor)}")
	else:
	st.write("📝 Todos los valores únicos:")
	for valor in valores_unicos:
	st.write(f"• '{str(valor)}'")

	st.markdown("---")

	# Distribución de frecuencias
	value_counts = column_data.value_counts()

	# Gráfico de barras con conversión segura
	fig_bar = {
	'data': [{
	'type': 'bar',
	'x': value_counts.index,
	'y': value_counts.values,
	'name': 'Frecuencia'
	}],
	'layout': {
	'title': f'Distribución de valores en {col}',
	'xaxis': {'title': 'Valor'},
	'yaxis': {'title': 'Frecuencia'},
	'height': 400,
	'showlegend': False
	}
	}
	st.plotly_chart(fig_bar, use_container_width=True)

	# Tabla de frecuencias
	freq_df = pd.DataFrame({
	'Valor': value_counts.index,
	'Frecuencia': value_counts.values,
	'Porcentaje': (value_counts.values / len(prepare) * 100).round(2)
	})
	st.dataframe(freq_df, use_container_width=True)

	except Exception as e:
	st.error(f"Error al procesar la columna {col}")
	st.error(str(e))
	st.write(f"Detalles técnicos del error en la columna {col}:", e)

	st.subheader("Preparación de Datos")

	st.subheader("Eliminación de Columnas")

	# Verificar el estado actual de valores nulos
	current_null_count = prepare.isnull().sum().sum()

	all_columns = prepare.columns.tolist()
	columns_to_drop = st.multiselect(
	"Seleccionar columnas a eliminar",
	all_columns,
	key="columns_to_drop"
	)

	if columns_to_drop:
	if st.button("Eliminar columnas seleccionadas", key="drop_columns_button"):
	try:
	# Crear una copia temporal antes de eliminar columnas
	temp_prepare = prepare.copy()

	# Verificar que las columnas existen antes de eliminarlas
	missing_cols = [col for col in columns_to_drop if col not in temp_prepare.columns]
	if missing_cols:
	st.error(f"❌ Las siguientes columnas no existen: {', '.join(missing_cols)}")
	return

	# Eliminar las columnas
	temp_prepare = temp_prepare.drop(columns=columns_to_drop)

	# Verificar valores nulos después de la eliminación
	new_null_count = temp_prepare.isnull().sum().sum()

	if new_null_count <= current_null_count: # Permitir igual o menor cantidad de nulos
	# Actualizar el DataFrame y el estado
	prepare = temp_prepare
	st.session_state.temp_prepared_data = prepare.copy()

	# Mostrar mensaje de éxito
	st.success(f"✅ Columnas eliminadas exitosamente: {', '.join(columns_to_drop)}")

	# Actualizar información sobre valores nulos
	if new_null_count == 0:
	st.success("✅ No hay valores nulos en los datos.")
	else:
	st.warning(f"⚠️ Hay {new_null_count} valores nulos en los datos.")

	# Mostrar resumen de las columnas restantes
	st.write(f"Columnas restantes: {len(prepare.columns)}")
	if st.checkbox("Ver lista de columnas restantes", key="remaining_columns_checkbox"):
	st.write(prepare.columns.tolist())
	else:
	st.error(f"❌ La operación incrementaría los valores nulos de {current_null_count} a {new_null_count}. Operación cancelada.")

	except Exception as e:
	st.error(f"Error durante la eliminación de columnas: {str(e)}")
	st.exception(e)

	# Manejo de valores faltantes
	st.subheader("Manejo de Valores Faltantes")
	missing_values = prepare.isnull().sum()
	missing_percentages = (missing_values / len(prepare) * 100).round(2)

	# Crear DataFrame y ordenar por número de valores faltantes de mayor a menor
	missing_df = pd.DataFrame({
	'Columna': missing_values.index,
	'Valores Faltantes': missing_values.values,
	'Porcentaje': missing_percentages.values,
	'Tipo': prepare[missing_values.index].dtypes
	})
	missing_df = missing_df[missing_df['Valores Faltantes'] > 0].sort_values('Valores Faltantes', ascending=False)

	if not missing_df.empty:
	# Mostrar advertencia si hay columnas de tipo object con valores faltantes
	object_cols = missing_df[missing_df['Tipo'] == 'object']
	if not object_cols.empty:
	st.warning("⚠️ Se detectaron columnas de tipo texto/categórico (object) con valores faltantes. "
	"Se recomienda revisar estos casos con especial atención ya que el método de imputación "
	"podría afectar significativamente el análisis.")

	st.write("Columnas de tipo texto/categórico con valores faltantes:")
	st.dataframe(object_cols)

	st.write("Valores faltantes por columna (ordenados de mayor a menor):")
	st.dataframe(missing_df)

	# Checkbox para manejo especial de columnas object
	handle_objects = st.checkbox("Especificar valor de reemplazo para columnas de texto",
	help="Marca esta opción para especificar un valor personalizado para rellenar "
	"los valores faltantes en columnas de texto/categóricas")

	object_replacement = None
	if handle_objects:
	object_replacement = st.text_input("Valor de reemplazo para columnas de texto:",
	value="MISSING",
	help="Este valor se usará para rellenar los valores faltantes "
	"en todas las columnas de texto/categóricas")

	missing_strategy = st.radio(
	"Selecciona estrategia para valores faltantes:",
	["Eliminar filas", "Rellenar con media", "Rellenar con mediana", "Rellenar con moda"]
	)

	if st.button("Aplicar estrategia de valores faltantes", key="apply_missing_strategy_button"):
	try:
	# Guardar el estado anterior de prepare para verificación
	nulls_before = prepare.isnull().sum().sum()

	if missing_strategy == "Eliminar filas":
	# Guardar el número de filas antes
	rows_before = len(prepare)

	# Crear una copia para no modificar el original
	prepare_cleaned = prepare.copy()

	# Eliminar filas con valores nulos
	prepare_cleaned = prepare_cleaned.dropna(how='any')

	# Verificar que no queden valores nulos
	if prepare_cleaned.isnull().sum().sum() == 0:
	prepare = prepare_cleaned # Actualizar prepare solo si la limpieza fue exitosa
	st.session_state.temp_prepared_data = prepare.copy() # Actualizar el estado temporal
	rows_removed = rows_before - len(prepare)
	st.success(f"Se eliminaron {rows_removed} filas con valores faltantes. No quedan valores nulos.")
	else:
	st.error(f"Error: Aún quedan {prepare_cleaned.isnull().sum().sum()} valores faltantes después de la eliminación.")
	return
	else:
	# Separar columnas numéricas y no numéricas
	numeric_cols = prepare.select_dtypes(include=['int64', 'float64']).columns
	non_numeric_cols = prepare.select_dtypes(exclude=['int64', 'float64']).columns

	# Manejar columnas object primero si se especificó un valor de reemplazo
	if handle_objects and object_replacement is not None:
	object_cols = prepare.select_dtypes(include=['object']).columns
	for col in object_cols:
	prepare[col] = prepare[col].fillna(object_replacement)

	if missing_strategy == "Rellenar con media":
	# Para columnas numéricas usar media
	if len(numeric_cols) > 0:
	prepare[numeric_cols] = prepare[numeric_cols].fillna(prepare[numeric_cols].mean())
	# Para columnas no numéricas sin valor especificado usar moda
	if len(non_numeric_cols) > 0 and not handle_objects:
	for col in non_numeric_cols:
	prepare[col] = prepare[col].fillna(prepare[col].mode()[0] if not prepare[col].mode().empty else 'NA')

	elif missing_strategy == "Rellenar con mediana":
	# Para columnas numéricas usar mediana
	if len(numeric_cols) > 0:
	prepare[numeric_cols] = prepare[numeric_cols].fillna(prepare[numeric_cols].median())
	# Para columnas no numéricas sin valor especificado usar moda
	if len(non_numeric_cols) > 0 and not handle_objects:
	for col in non_numeric_cols:
	prepare[col] = prepare[col].fillna(prepare[col].mode()[0] if not prepare[col].mode().empty else 'NA')

	else: # Rellenar con moda
	# Usar moda para todas las columnas que no son object o no tienen valor especificado
	for col in prepare.columns:
	if prepare[col].dtype in ['object']:
	if handle_objects:
	continue # Ya se manejaron las columnas object
	mode_value = prepare[col].mode()
	prepare[col] = prepare[col].fillna(mode_value[0] if not mode_value.empty else ('NA' if col in non_numeric_cols else 0))

	# Actualizar el estado temporal después de la imputación
	st.session_state.temp_prepared_data = prepare.copy()

	# Verificar los cambios
	nulls_after = prepare.isnull().sum().sum()
	values_filled = nulls_before - nulls_after

	if missing_strategy == "Eliminar filas":
	st.success(f"Se eliminaron {values_filled} filas con valores faltantes")
	else:
	st.success(f"Se rellenaron {values_filled} valores faltantes")

	# Verificar si quedan valores nulos
	remaining_nulls = prepare.isnull().sum()
	remaining_nulls = remaining_nulls[remaining_nulls > 0]

	if not remaining_nulls.empty:
	st.error("⚠️ Error: Aún quedan valores faltantes en las siguientes columnas:")
	for col in remaining_nulls.index:
	st.write(f"- {col}: {remaining_nulls[col]} valores faltantes")
	st.write("Por favor, contacta al equipo de desarrollo para revisar este error.")

	# Mostrar un resumen de los datos actualizados
	st.write("\n### Resumen después del procesamiento:")
	st.write(f"- Total de filas: {len(prepare)}")
	st.write(f"- Total de columnas: {len(prepare.columns)}")
	st.write(f"- Valores faltantes totales: {prepare.isnull().sum().sum()}")

	# Verificación final de valores nulos
	final_null_check = prepare.isnull().sum().sum()
	if final_null_check == 0:
	st.success("✅ ¡No quedan valores faltantes en el dataset!")
	else:
	st.error(f"⚠️ Aún quedan {final_null_check} valores nulos en el dataset.")
	return

	# Actualizar la sesión solo si no hay valores nulos
	if final_null_check == 0:
	st.session_state.prepared_data = prepare.copy()
	st.session_state.temp_prepared_data = prepare.copy()
	# No sobrescribir 'er_data'

	except Exception as e:
	st.error(f"Error al procesar valores faltantes: {str(e)}")
	st.error("Detalles técnicos del error:")
	st.code(str(e))

	# Manejo de fechas
	st.subheader("Manejo de Fechas")
	with st.expander("Procesamiento de Fechas"):
	date_columns = st.multiselect(
	"Seleccionar columnas de fecha",
	prepare.columns,
	key="date_columns"
	)

	if date_columns:
	date_format = st.selectbox(
	"Formato de fecha",
	[
	"yyyy-mm-dd",
	"dd-mm-yyyy",
	"mm-dd-yyyy",
	"yyyy-mm-dd hh:mm",
	"dd-mm-yyyy hh:mm",
	"mm-dd-yyyy hh:mm",
	"yyyy-mm-dd hh:mm:ss",
	"dd-mm-yyyy hh:mm:ss",
	"mm-dd-yyyy hh:mm:ss",
	"hh:mm",
	"hh:mm:ss"
	],
	help="Selecciona el formato que coincida con tus datos de fecha/hora."
	)

	time_format = st.radio(
	"Formato de hora",
	["24 horas", "12 horas (AM/PM)"],
	help="Selecciona si el formato de hora está en 12 o 24 horas"
	)

	# Ajustar las características disponibles según el formato
	if date_format in ["hh:mm", "hh:mm:ss"]:
	available_features = ["Hora del día", "Periodo del día", "Minutos", "Segundos"]
	else:
	if "hh:mm:ss" in date_format:
	available_features = [
	"Año", "Mes", "Día", "Día de la semana", "Trimestre", "Estación",
	"Es fin de semana", "Hora del día", "Periodo del día", "Minutos", "Segundos"
	]
	else:
	available_features = [
	"Año", "Mes", "Día", "Día de la semana", "Trimestre", "Estación",
	"Es fin de semana", "Hora del día", "Periodo del día", "Minutos"
	]

	date_features = st.multiselect(
	"Seleccionar características a extraer",
	available_features
	)

	if st.button("Procesar fechas", key="process_dates_button"):
	for col in date_columns:
	try:
	if date_format in ["hh:mm", "hh:mm:ss"]:
	# Procesar solo tiempo
	if date_format == "hh:mm:ss":
	time_parse_format = '%I:%M:%S %p' if time_format == "12 horas (AM/PM)" else '%H:%M:%S'
	time_with_seconds = True
	else:
	time_parse_format = '%I:%M %p' if time_format == "12 horas (AM/PM)" else '%H:%M'
	time_with_seconds = False

	def convert_time(time_str):
	try:
	time_obj = datetime.strptime(time_str.strip(), time_parse_format)
	if time_with_seconds:
	return time_obj.hour, time_obj.minute, time_obj.second
	else:
	return time_obj.hour, time_obj.minute, None
	except ValueError:
	st.warning(f"⚠️ Formato de hora inesperado en {col}: '{time_str}'")
	return None, None, None if time_with_seconds else None

	# Aplicar la conversión y crear nuevas columnas
	hours_minutes_seconds = prepare[col].apply(convert_time)

	# Depuración: Mostrar una vista previa de la conversión
	st.write(f"Vista previa de la conversión de tiempo para la columna {col}:")
	st.write(hours_minutes_seconds.head())

	if "Hora del día" in date_features:
	prepare[f'{col}_hora'] = hours_minutes_seconds.apply(lambda x: x[0] if x and x[0] is not None else None)
	if "Minutos" in date_features:
	prepare[f'{col}_minutos'] = hours_minutes_seconds.apply(lambda x: x[1] if x and x[1] is not None else None)
	if "Segundos" in date_features and time_with_seconds:
	prepare[f'{col}_segundos'] = hours_minutes_seconds.apply(lambda x: x[2] if x and x[2] is not None else None)

	# Agregar periodo del día si se seleccionó
	if "Periodo del día" in date_features:
	def get_period(hour):
	if hour is None:
	return None
	if 5 <= hour < 12:
	return 'Mañana'
	elif 12 <= hour < 17:
	return 'Tarde'
	elif 17 <= hour < 21:
	return 'Noche'
	else:
	return 'Madrugada'
	prepare[f'{col}_periodo'] = prepare[f'{col}_hora'].apply(get_period)

	else:
	# Definir el formato de parsing según la selección
	if date_format == "yyyy-mm-dd":
	date_parse_format = '%Y-%m-%d'
	elif date_format == "dd-mm-yyyy":
	date_parse_format = '%d-%m-%Y'
	elif date_format == "mm-dd-yyyy":
	date_parse_format = '%m-%d-%Y'
	elif date_format == "yyyy-mm-dd hh:mm":
	date_parse_format = '%Y-%m-%d %H:%M' if time_format == "24 horas" else '%Y-%m-%d %I:%M %p'
	elif date_format == "dd-mm-yyyy hh:mm":
	date_parse_format = '%d-%m-%Y %H:%M' if time_format == "24 horas" else '%d-%m-%Y %I:%M %p'
	elif date_format == "mm-dd-yyyy hh:mm":
	date_parse_format = '%m-%d-%Y %H:%M' if time_format == "24 horas" else '%m-%d-%Y %I:%M %p'
	elif date_format == "yyyy-mm-dd hh:mm:ss":
	date_parse_format = '%Y-%m-%d %H:%M:%S' if time_format == "24 horas" else '%Y-%m-%d %I:%M:%S %p'
	elif date_format == "dd-mm-yyyy hh:mm:ss":
	date_parse_format = '%d-%m-%Y %H:%M:%S' if time_format == "24 horas" else '%d-%m-%Y %I:%M:%S %p'
	elif date_format == "mm-dd-yyyy hh:mm:ss":
	date_parse_format = '%m-%d-%Y %H:%M:%S' if time_format == "24 horas" else '%m-%d-%Y %I:%M:%S %p'
	else:
	st.error(f"Formato de fecha no reconocido: {date_format}")
	continue

	# Convertir a datetime con manejo de errores
	temp_dates = pd.to_datetime(prepare[col], format=date_parse_format, errors='coerce')

	# Depuración: Mostrar una vista previa de las fechas parseadas
	st.write(f"Vista previa de las fechas parseadas para la columna {col}:")
	st.write(temp_dates.head())

	# Manejo de valores que no se pudieron parsear
	if temp_dates.isnull().any():
	st.warning(f"⚠️ Algunas fechas en la columna {col} no pudieron ser parseadas y se asignaron como NaT.")

	# Extraer características según selección
	if "Año" in date_features:
	prepare[f'{col}_año'] = temp_dates.dt.year
	if "Mes" in date_features:
	prepare[f'{col}_mes'] = temp_dates.dt.month
	if "Día" in date_features:
	prepare[f'{col}_dia'] = temp_dates.dt.day
	if "Día de la semana" in date_features:
	prepare[f'{col}_dia_semana'] = temp_dates.dt.dayofweek + 1
	if "Trimestre" in date_features:
	prepare[f'{col}_trimestre'] = temp_dates.dt.quarter
	if "Es fin de semana" in date_features:
	prepare[f'{col}_fin_semana'] = temp_dates.dt.dayofweek.isin([5, 6]).astype(int)
	if "Estación" in date_features:
	def get_season(month):
	if month in [12, 1, 2]:
	return 'Invierno'
	elif month in [3, 4, 5]:
	return 'Primavera'
	elif month in [6, 7, 8]:
	return 'Verano'
	else:
	return 'Otoño'
	prepare[f'{col}_estacion'] = temp_dates.dt.month.apply(get_season)
	if "Hora del día" in date_features and any(sub in date_format for sub in ["hh:mm", "hh:mm:ss"]):
	prepare[f'{col}_hora'] = temp_dates.dt.hour
	if "Minutos" in date_features and any(sub in date_format for sub in ["hh:mm", "hh:mm:ss"]):
	prepare[f'{col}_minutos'] = temp_dates.dt.minute
	if "Segundos" in date_features and "hh:mm:ss" in date_format:
	prepare[f'{col}_segundos'] = temp_dates.dt.second
	if "Periodo del día" in date_features and any(sub in date_format for sub in ["hh:mm", "hh:mm:ss"]):
	def get_period(hour):
	if hour is None:
	return None
	if 5 <= hour < 12:
	return 'Mañana'
	elif 12 <= hour < 17:
	return 'Tarde'
	elif 17 <= hour < 21:
	return 'Noche'
	else:
	return 'Madrugada'
	prepare[f'{col}_periodo'] = temp_dates.dt.hour.apply(get_period)

	# Eliminar la columna original de fecha
	prepare = prepare.drop(columns=[col])
	st.success(f"Columna {col} procesada exitosamente")

	except Exception as e:
	st.error(f"Error procesando {col}: {str(e)}")
	st.exception(e)

	# Actualizar el estado temporal después de procesar fechas
	st.session_state.temp_prepared_data = prepare.copy()

	# Codificación de variables categóricas
	st.subheader("Codificación de Variables Categóricas")
	categorical_columns = prepare.select_dtypes(include=['object']).columns

	if len(categorical_columns) > 0:
	encoding_method = st.radio(
	"Método de codificación:",
	["Label Encoding", "One-Hot Encoding"]
	)

	cols_to_encode = st.multiselect(
	"Seleccionar columnas para codificar",
	categorical_columns,
	key="cols_to_encode"
	)

	if st.button("Aplicar codificación", key="apply_encoding_button"):
	if encoding_method == "Label Encoding":
	le = LabelEncoder()
	for col in cols_to_encode:
	try:
	prepare[col] = le.fit_transform(prepare[col].astype(str))
	st.success(f"✅ Label Encoding aplicado a la columna '{col}'")
	except Exception as e:
	st.error(f"Error al codificar la columna {col} con Label Encoding: {str(e)}")
	# Actualizar el estado temporal después de la codificación
	st.session_state.temp_prepared_data = prepare.copy()
	else: # One-Hot Encoding
	try:
	prepare = pd.get_dummies(prepare, columns=cols_to_encode)
	st.success("✅ One-Hot Encoding aplicado")
	# Actualizar el estado temporal después de la codificación
	st.session_state.temp_prepared_data = prepare.copy()
	except Exception as e:
	st.error(f"Error al aplicar One-Hot Encoding: {str(e)}")

	# Normalización de variables numéricas
	st.subheader("Normalización de Variables Numéricas")
	numeric_columns = prepare.select_dtypes(include=['int64', 'float64']).columns

	if len(numeric_columns) > 0:
	cols_to_normalize = st.multiselect(
	"Seleccionar columnas para normalizar",
	numeric_columns,
	key="cols_to_normalize"
	)

	if cols_to_normalize and st.button("Aplicar normalización", key="apply_normalization_button"):
	try:
	scaler = StandardScaler()
	prepare[cols_to_normalize] = scaler.fit_transform(prepare[cols_to_normalize])
	st.success("✅ Normalización aplicada")
	# Actualizar el estado temporal después de la normalización
	st.session_state.temp_prepared_data = prepare.copy()
	except Exception as e:
	st.error(f"Error al aplicar normalización: {str(e)}")

	# Guardar datos preparados y mostrar matriz de correlación
	st.write("### Vista previa de los datos:")
	st.dataframe(prepare.head())

	# Información sobre valores nulos
	null_count = prepare.isnull().sum().sum()
	if null_count > 0:
	st.warning(f"⚠️ Hay {null_count} valores nulos en los datos.")
	else:
	st.success("✅ No hay valores nulos en los datos.")

	# Matriz de correlación
	st.subheader("Matriz de Correlación")
	numerical_columns = prepare.select_dtypes(include=['int64', 'float64']).columns.tolist()

	if len(numerical_columns) > 1:
	corr_variables = st.multiselect(
	"Selecciona las variables para incluir en la matriz de correlación",
	options=numerical_columns,
	default=numerical_columns[:min(5, len(numerical_columns))] # Seleccionar hasta 5 columnas por defecto
	)

	if corr_variables:
	try:
	# -------------------------------------------
	# NUEVO: Detección de Outliers y Visualización
	# -------------------------------------------
	for var in corr_variables:
	# Cálculo de Q1, Q3 e IQR
	Q1 = prepare[var].quantile(0.25)
	Q3 = prepare[var].quantile(0.75)
	IQR = Q3 - Q1
	lower_bound = Q1 - 1.5 * IQR
	upper_bound = Q3 + 1.5 * IQR

	# Identificación de outliers
	outliers = prepare[(prepare[var] < lower_bound) \| (prepare[var] > upper_bound)][var]
	num_outliers = outliers.shape[0]

	# Mostrar advertencia si hay outliers
	if num_outliers > 0:
	st.warning(f"⚠️ La variable {var} tiene {num_outliers} datos atípicos (outliers) detectados.")

	# Mostrar boxplot usando Plotly
	fig_box = px.box(prepare, y=var, title=f'Boxplot de {var}')
	st.plotly_chart(fig_box, use_container_width=True)

	# Calcular y mostrar la matriz de correlación
	corr_matrix = prepare[corr_variables].corr(method='pearson')

	# Mapa de calor de correlación
	fig_corr = px.imshow(
	corr_matrix,
	text_auto=True,
	aspect="auto",
	color_continuous_scale='RdBu_r',
	title='Matriz de Correlación de Pearson'
	)
	st.plotly_chart(fig_corr, use_container_width=True)

	# Botón de descarga
	csv_corr = corr_matrix.to_csv(index=True).encode('utf-8')
	st.download_button(
	label="Descargar Matriz de Correlación como CSV",
	data=csv_corr,
	file_name='matriz_correlacion.csv',
	mime='text/csv',
	)

	# Análisis de correlaciones significativas
	st.write("### Análisis de Correlaciones Significativas")
	threshold = st.slider(
	"Selecciona el umbral mínimo de correlación para considerar significativa",
	min_value=0.0,
	max_value=1.0,
	value=0.5,
	step=0.05
	)

	# Obtener y mostrar correlaciones significativas
	corr_pairs = corr_matrix.unstack()
	significant_corr = corr_pairs[
	(abs(corr_pairs) >= threshold) &
	(abs(corr_pairs) < 1)
	].drop_duplicates().sort_values(ascending=False)

	if not significant_corr.empty:
	st.write(f"Correlaciones significativas (\|correlación\| ≥ {threshold}):")
	for (var1, var2), corr_value in significant_corr.items():
	st.write(f"- {var1} y {var2}: correlación de {corr_value:.2f}")
	else:
	st.write("No se encontraron correlaciones significativas con el umbral seleccionado.")

	except Exception as e:
	st.error(f"Error al calcular la matriz de correlación: {str(e)}")
	else:
	st.warning("Por favor, selecciona al menos una variable para mostrar la matriz de correlación.")
	else:
	st.warning("No hay suficientes variables numéricas para calcular correlaciones.")

	# Button para guardar datos preparados
	if st.button("Guardar datos preparados", key="save_prepared_data_button"):
	try:
	null_count = prepare.isnull().sum().sum()
	if null_count == 0:
	st.session_state.prepared_data = prepare.copy()
	st.session_state.temp_prepared_data = prepare.copy()
	st.session_state.data_saved = True
	st.success("✅ Datos preparados guardados exitosamente")

	# Generar reporte
	progress_container = st.empty()
	with progress_container:
	with st.spinner('Generando reporte del dataset...'):
	profile = ProfileReport(prepare, title="Dataset Report", explorative=True)
	st.session_state.report_html = profile.to_html()
	st.success("¡Reporte generado exitosamente!")
	else:
	st.error(f"❌ No se pueden guardar los datos. Aún hay {null_count} valores nulos.")
	st.warning("Por favor, aplica una estrategia de manejo de valores faltantes antes de guardar.")
	except Exception as e:
	st.error(f"Error al guardar los datos preparados: {str(e)}")

	# Botones de descarga fuera del bloque principal
	if 'data_saved' in st.session_state and st.session_state.data_saved:
	col1, col2 = st.columns(2)

	with col1:
	csv = st.session_state.prepared_data.to_csv(index=False).encode('utf-8')
	st.download_button(
	label="Descargar Dataset Preparado",
	data=csv,
	file_name="prepared_dataset.csv",
	mime="text/csv"
	)

	with col2:
	st.download_button(
	label="Descargar Reporte del Dataset",
	data=st.session_state.report_html,
	file_name="dataset_report.html",
	mime="text/html"
	)

	st.info("👆 No te olvides de guardar los datos preparados antes de continuar con el análisis en la página Training o Test.")