| - Terminar de correr todo hasta ahora |
| - Para DBPedia, comparar DPCal con LoRA en función de la cantidad de muestras entrenando con un conjunto limitado de datos. Repetir para cuando el modelo fue previamente fine-tuneado con datos out-of-domain. Graficar Zero-shot. Ver plot dbpedia_nce. Debería verse que en algún momento LoRA supera a DPCal pero para pocas muestras, debería funcionar bien DPCal. |
|
|
| DPCal helps on non-finetuned and fine-tuned-on-matched-data models: |
| Zero-shot/Few-shot/LoraMatchedAns/LoraMatchedFS/BERT + DPCal/HistBinning/VectorScaling/etc |
|
|
| You can choose DPCal if you have limited budget of data: |
| Zero-shot/LoramatchedAns/LoraMatchedFS/DPCal vs number of samples |
|
|
| If you have other data, calibrate after train: |
| LoraMismatchedAns/LoraMismatchedFS/Instruct/InstructFewShot + DPCal (use zero-shot/zero-shot+dpcal as baseline) |
|
|
|
|
| sin es con 100 deberia dar mejor que con 70 |
| el mejor deberia ser sin es calibrado en el 30 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| instruct base |
| instruc + dpcal en todos |
| instruct + 70-30 lora |
| instruct + 70-30 lora + dpcal |
| instruc + 100 lora (no es) |
| instruct + 100 lora (con steps de lora70-30) |
|
|
|
|
|
|
| Data split: |
| - Set 1: first p% of the data |
| - Set 2: last 100-p% of the data |
| - Set 3: 100% of the data |
|
|
| Methods: |
| 1. No Adaptation (baseline): Do not use training data |
| 2. Calibration: Use Set 3 for calibration |
|
|
| 3. LoRA p%: Use Set 1 for training LoRA and Set 2 for validation |
| 4. LoRA 100%: Use Set 3 for training LoRA with number of steps used in method 3. |
|
|
| 5. LoRA p% without ES: Use Set 1 for training LoRA without Early Stopping |
| 6. LoRA 100% without ES: Use Set 3 for training LoRA without Early Stopping |
|
|
| 7. LoRA p% + Cal: Method 3 plus calibration on Set 2. |
| 8. LoRA 100% + Cal: Method 4 plus calibration with parameters of method 7. |
|
|
| 9. LoRA p% without ES + Cal: Method 5 plus calibration on Set 2. |
| 10. LoRA 100% without ES + Cal: Method 6 plus calibration with parameters of method 9. |
|
|
| * = No ES |
| x = ES |
|
|
| Red = LoRA p |
| Green = LoRA 100 |
|
|
| Solid (-) = No calibration |
| Dashed (--) = Temp Scaling |
| Dotted (:) = DP Calibration |
|
|
|
|
|
|
| icen laboratorio |
| cerca del RR, tambien hay bus a la universidad |
| estacion de orsay |
| qualcum |
|
|
|
|
|
|
|
|
|
|
| Cosas para el paper: |
|
|
| - Hay que argumentar que un modelo robusto es un modelo que puede clasificar bien para cualquier set de respuestas que se le presente |
| - Capaz podemos venderlo como un framework alternativo a prompt engineering en donde elgís las posibles respuestas y se las das como answers en lugar de en el prompt. |
|
|
| - Métodos PEFTs son efectivos: https: |
| - Ejemplo de catastrofic forgeting en medical domain: https: |
| - Otro ejemplo de catastrofic forgeting: https: |
| - Mixture of Prompts: https: |
| - Filtrado de muestras para hacer in domain finetuning: https: |
| - Blog que habla sobre catastrofic forgetting: https: |
| - Synthetic generation: https: |
| - Training budget guide: https: |
| - Prompt engineering: https: |
| - Paper de continual pretraining: https: |
|
|
|
|
|
|
|
|
| No tiene que ver con el paper pero sí con el proyecto de pablo: https: |
|
|
| Mostrar NER y NCE con todos los métodos de adaptación |
| otro plot con LoRA p=1.0 no ES con calibracion |
| en dbpedia, comparar distribuciones en pocas mustras del sin calibrar y del calibrado. |
|
|
|
|
|
|
| TODO: |
| - Hacer y agregar plots de la primera sección de resultados |
| - Hacer y agregar plots de la segunda sección de resultados |
| - Análisis de las posteriors de las clases |
| - Análisis de las posteriors por fuera de la distribución de tokens de interés |
| - Escribir la primera parte de la sección de entrenamiento (descripción de LoRA y fine-tuning) |
| - Agregar related works |
| - Escribir el experimental setup |
| - agregar las referencias al .bib |
| - Terminar de correr Qwen y agregar al apéndice |
| <!-- - Ver intervalos y ver si agrego muestras al test |
| - Ver si tengo que correr más seeds --> |
| <!-- - Correr / buscar en resultados viejos para muchas muestras en Llama3.2 y todos los datasets, y agregar calibración: |
| - Base model |
| - Instruct model |
| - Base trained on mismatched data |
| - Instruct trained on mismatched data |
| - LoRA p=1.0 con early stopping en Base |
| - LoRA p=1.0 con early stopping en Instruct --> |
|
|
|
|
|
|
|
|