sangwon1472 commited on
Commit
b7b9673
ยท
1 Parent(s): 49871e2

Add dataset guide and model card links

Browse files
Files changed (2) hide show
  1. DATASET_GUIDE.md +387 -0
  2. README.md +8 -0
DATASET_GUIDE.md ADDED
@@ -0,0 +1,387 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # Dataset Guide
2
+
3
+ ์ด ๋ฌธ์„œ๋Š” `gemma4-e2b-mud` ์ €์žฅ์†Œ์— ํ•จ๊ป˜ ๋“ค์–ด ์žˆ๋Š” ๋ฐ์ดํ„ฐ์…‹ ๋ฌถ์Œ์„ ์„ค๋ช…ํ•œ๋‹ค.
4
+ ๋ชฉํ‘œ๋Š” ๋‹จ์ˆœํžˆ โ€œ์–ด๋–ค ํŒŒ์ผ์ด ์žˆ๋‹คโ€๋ฅผ ๋„˜์–ด์„œ, **๊ฐ ํŒŒ์ผ์ด ์–ด๋–ค ์—ญํ• ์„ ํ•˜๋Š”์ง€**, **์–ด๋–ป๊ฒŒ ์ •๋ฆฌ๋˜์—ˆ๋Š”์ง€**, **๋น„์Šทํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒˆ๋กœ ๋งŒ๋“ค๋ ค๋ฉด ๋ฌด์—‡์„ ์ง€์ผœ์•ผ ํ•˜๋Š”์ง€**๋ฅผ ํ•œ ๋ฒˆ์— ์ดํ•ดํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.
5
+
6
+ ์ด ์ €์žฅ์†Œ๋Š” ๋ชจ๋ธ ์ €์žฅ์†Œ์ด๋ฏ€๋กœ, ์—ฌ๊ธฐ์˜ ๋ฐ์ดํ„ฐ์…‹์€ ์—„๋ฐ€ํ•œ ๋…๋ฆฝ dataset repo ๋ผ๊ธฐ๋ณด๋‹ค **์žฌํ˜„๊ณผ ํ™•์žฅ ์‹คํ—˜์„ ์œ„ํ•œ companion dataset bundle** ์— ๊ฐ€๊น๋‹ค.
7
+ ์ฆ‰, ๋ชจ๋ธ์„ ์ดํ•ดํ•˜๊ณ  ๋‹ค์‹œ ํ•™์Šตํ•˜๊ฑฐ๋‚˜ ๋ณ€ํ˜•ํ•˜๊ณ  ์‹ถ์€ ์‚ฌ๋žŒ์—๊ฒŒ ์‹ค์šฉ์ ์ธ ์ถœ๋ฐœ์ ์„ ์ œ๊ณตํ•˜๋Š” ๋ฐ ์ดˆ์ ์„ ๋‘”๋‹ค.
8
+
9
+ ## ํ•œ๋ˆˆ์— ๋ณด๊ธฐ
10
+
11
+ ํฌํ•จ๋œ ๋Œ€ํ‘œ ํŒŒ์ผ์€ ์•„๋ž˜ ๋„ค ๊ฐ€์ง€๋‹ค.
12
+
13
+ - `gemma-mud-colab-starter/dataset/combined_1000.jsonl`
14
+ - `gemma-mud-colab-starter/dataset/combined_1000.unsloth_chatml_dedup.jsonl`
15
+ - `gemma-mud-colab-starter/dataset/combined_1000.unsloth_gemma4_messages_dedup.jsonl`
16
+ - `gemma-mud-colab-starter/dataset/gemma4_mud_alpaca_100.jsonl`
17
+
18
+ ์—ญํ• ์„ ์š”์•ฝํ•˜๋ฉด:
19
+
20
+ - `combined_1000.jsonl`
21
+ ์›๋ณธ์— ๊ฐ€๊นŒ์šด 1000ํ–‰ ๋ฉ”์‹œ์ง€ ๋ฐ์ดํ„ฐ
22
+ - `combined_1000.unsloth_chatml_dedup.jsonl`
23
+ ์ •ํ™• ์ค‘๋ณต ์ œ๊ฑฐ ํ›„ ChatML ์Šคํƒ€์ผ๋กœ ์ •๋ฆฌํ•œ 963ํ–‰ ํ•™์Šต๋ณธ
24
+ - `combined_1000.unsloth_gemma4_messages_dedup.jsonl`
25
+ ์œ„์™€ ๊ฐ™์€ ๋‚ด์šฉ์ด์ง€๋งŒ Gemma 4 / Unsloth ์ชฝ์—์„œ ๋” ์•ˆ์ „ํ•˜๊ฒŒ ์“ฐ๊ธฐ ์œ„ํ•œ typed text messages ๋ฒ„์ „
26
+ - `gemma4_mud_alpaca_100.jsonl`
27
+ ๊ฐ€์žฅ ์ž‘์€ ์˜ˆ์‹œ์šฉ 100ํ–‰ Alpaca ๊ณ„์—ด ๋ฐ์ดํ„ฐ
28
+
29
+ ## ์‹ค์ œ ํฌํ•จ ์ˆ˜๋Ÿ‰
30
+
31
+ ํ˜„์žฌ ์ €์žฅ์†Œ์— ํฌํ•จ๋œ ํŒŒ์ผ ๊ธฐ์ค€:
32
+
33
+ - `combined_1000.jsonl`: `1000` ํ–‰
34
+ - `combined_1000.unsloth_chatml_dedup.jsonl`: `963` ํ–‰
35
+ - `combined_1000.unsloth_gemma4_messages_dedup.jsonl`: `963` ํ–‰
36
+ - `gemma4_mud_alpaca_100.jsonl`: `100` ํ–‰
37
+
38
+ ์ฆ‰, ์›๋ณธ `1000` ํ–‰์—์„œ **์ •ํ™• ์ค‘๋ณต 37ํ–‰์ด ์ œ๊ฑฐ๋œ ์ •๋ฆฌ๋ณธ**์ด ํ˜„์žฌ ํ•™์Šต์šฉ ๊ธฐ์ค€๋ณธ์œผ๋กœ ์“ฐ์ธ๋‹ค.
39
+
40
+ ## ๋ฐ์ดํ„ฐ ํ˜•์‹
41
+
42
+ ## 1. `messages` ํ˜•์‹ ๋ฐ์ดํ„ฐ
43
+
44
+ `combined_1000.jsonl` ์™€ dedup ๋ฒ„์ „ 2์ข…์€ ๋ชจ๋‘ ๊ธฐ๋ณธ์ ์œผ๋กœ `messages` ๊ตฌ์กฐ๋ฅผ ๋”ฐ๋ฅธ๋‹ค.
45
+
46
+ ๊ฐœ๋ณ„ ์ƒ˜ํ”Œ์€ ๋ณดํ†ต ์•„๋ž˜ 3ํ„ด์œผ๋กœ ์ด๋ฃจ์–ด์ง„๋‹ค.
47
+
48
+ 1. `system`
49
+ 2. `user`
50
+ 3. `assistant`
51
+
52
+ ์˜ˆ:
53
+
54
+ ```json
55
+ {
56
+ "messages": [
57
+ {
58
+ "role": "system",
59
+ "content": "๋‹น์‹ ์€ ์šฐ์ฃผํ•ญํ–‰ ํ…์ŠคํŠธ MUD์˜ ํ•ญ๋กœ ์•ˆ๋‚ด์ž์ด์ž ์„ธ๊ณ„๊ด€ ํ•ด์„ค์ž๋‹ค. ๋‹ต๋ณ€์€ ํ•œ๊ตญ์–ด๋กœ ํ•˜๋ฉฐ, ์„œ์ •์„ฑ๊ณผ ์‹ค์šฉ์„ฑ์„ ํ•จ๊ป˜ ์ง€๋‹Œ๋‹ค. ํ”Œ๋ ˆ์ด์— ๋„์›€์ด ๋˜๋Š” ์ •๋ณด์™€ ๋ถ„์œ„๊ธฐ ๋ฌ˜์‚ฌ๋ฅผ ํ•จ๊ป˜ ์ค€๋‹ค."
60
+ },
61
+ {
62
+ "role": "user",
63
+ "content": "First Fire Horizon์ด ์–ด๋–ค ๊ณณ์ธ์ง€ ์„ค๋ช…ํ•ด์ค˜."
64
+ },
65
+ {
66
+ "role": "assistant",
67
+ "content": "First Fire Horizon์€ ์‹œ์ž‘ ๊ฑฐ์ ์œผ๋กœ, ๋ถ‰์€ ์ž”๊ด‘๊ณผ ์˜ค๋ž˜๋œ ๊ธฐ๋™์Œ์ด ๋‚จ์•„ ์žˆ๋Š” ์ถœํ•ญ์˜ ๋ถ„์œ„๊ธฐ๊ฐ€ ๊ฐ๋„๋Š” ์žฅ์†Œ๋‹ค."
68
+ }
69
+ ]
70
+ }
71
+ ```
72
+
73
+ ### Typed text messages ๋ฒ„์ „
74
+
75
+ `combined_1000.unsloth_gemma4_messages_dedup.jsonl` ์—์„œ๋Š” `content` ๊ฐ€ ๋‹จ์ˆœ ๋ฌธ์ž์—ด์ด ์•„๋‹ˆ๋ผ ์•„๋ž˜์ฒ˜๋Ÿผ ๋“ค์–ด๊ฐ„๋‹ค.
76
+
77
+ ```json
78
+ {
79
+ "role": "user",
80
+ "content": [
81
+ {
82
+ "type": "text",
83
+ "text": "First Fire Horizon์ด ์–ด๋–ค ๊ณณ์ธ์ง€ ์„ค๋ช…ํ•ด์ค˜."
84
+ }
85
+ ]
86
+ }
87
+ ```
88
+
89
+ ์ด ๋ฒ„์ „์€ Gemma 4 ๊ณ„์—ด์˜ ํ…œํ”Œ๋ฆฟ/processor ๊ฒฝ๋กœ์—์„œ `content` ํƒ€์ž… ํ•ด์„์ด ๋” ๋ช…ํ™•ํ•ด์ง€๋„๋ก ์ค€๋น„ํ•œ ํŒŒ์ผ์ด๋‹ค.
90
+
91
+ ## 2. Alpaca ๊ณ„์—ด ์˜ˆ์‹œ ๋ฐ์ดํ„ฐ
92
+
93
+ `gemma4_mud_alpaca_100.jsonl` ์€ ์•„๋ž˜ ํ•„๋“œ๋ฅผ ๊ฐ€์ง„ ์†Œํ˜• ์˜ˆ์‹œ ๋ฐ์ดํ„ฐ๋‹ค.
94
+
95
+ - `instruction`
96
+ - `input`
97
+ - `output`
98
+ - `text`
99
+
100
+ ์˜ˆ:
101
+
102
+ ```json
103
+ {
104
+ "instruction": "look",
105
+ "input": "",
106
+ "output": "๋‹น์‹ ์€ ์ฒซ ๋ถˆ์˜ ์ง€ํ‰์˜ ๊ด€์ธก ๊ฐ‘ํŒ์— ์„œ ์žˆ๋‹ค. ..."
107
+ }
108
+ ```
109
+
110
+ ์ด ํŒŒ์ผ์€ ๊ตฌ์กฐ๊ฐ€ ๋‹จ์ˆœํ•ด์„œ ์„ค๋ช…๊ณผ ์ฒซ ์‹คํ—˜์—๋Š” ์ข‹์ง€๋งŒ, Gemma 4 / Unsloth ๊ธฐ์ค€์˜ ์‹ค์ œ ์šด์˜ ์‹คํ—˜์—์„œ๋Š” `messages` ํ˜•์‹ ์ชฝ์ด ๋” ์ž์—ฐ์Šค๋Ÿฝ๋‹ค.
111
+
112
+ ## ๋ฐ์ดํ„ฐ์˜ ๊ฒฐ
113
+
114
+ ํ˜„์žฌ `combined_1000.unsloth_chatml_dedup.jsonl` ๊ธฐ์ค€์˜ ๊ด€์ฐฐ๊ฐ’์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค.
115
+
116
+ - ์ด ํ–‰ ์ˆ˜: `963`
117
+ - ์—ญํ•  ์ˆ˜:
118
+ - `system`: `963`
119
+ - `user`: `963`
120
+ - `assistant`: `963`
121
+ - ํ‰๊ท  user ๊ธธ์ด: ์•ฝ `33.0` ๋ฌธ์ž
122
+ - ํ‰๊ท  assistant ๊ธธ์ด: ์•ฝ `114.6` ๋ฌธ์ž
123
+ - ์ตœ๋Œ€ user ๊ธธ์ด: `60`
124
+ - ์ตœ๋Œ€ assistant ๊ธธ์ด: `362`
125
+ - ๊ณ ์œ  system prompt ์ˆ˜: `4`
126
+
127
+ ์ฆ‰, ์ด ๋ฐ์ดํ„ฐ์…‹์€ ๊ธธ๊ณ  ๋ณต์žกํ•œ multi-turn ๋Œ€ํ™”๊ฐ€ ์•„๋‹ˆ๋ผ, **์งง์€ ๋‹จ์ผ ์š”์ฒญ -> ๋น„๊ต์  ์งง์€ ๋Œ€๋‹ต** ๊ตฌ์กฐ๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ํ•œ๋‹ค.
128
+
129
+ ## system prompt ๋ถ„ํฌ
130
+
131
+ ์ •๋ฆฌ๋ณธ ๊ธฐ์ค€์œผ๋กœ system prompt ๋Š” 4์ข…์ด๋‹ค.
132
+
133
+ 1. ํ•ญ๋กœ ์•ˆ๋‚ด์ž / ์„ธ๊ณ„๊ด€ ํ•ด์„ค์ž: `250`
134
+ 2. NPC ๋Œ€์‚ฌ ์ž‘์„ฑ์ž: `250`
135
+ 3. ํ€˜์ŠคํŠธ ๋ฐ ์‹œ์Šคํ…œ ๋ฉ”์‹œ์ง€ ์ž‘์„ฑ์ž: `250`
136
+ 4. ํ™˜๊ฒฝ ์„œ์ˆ ๊ฐ€: `213`
137
+
138
+ ์ด ๋ถ„ํฌ๋ฅผ ๋ณด๋ฉด ๋ฐ์ดํ„ฐ์…‹์ด ๋‹จ์ผ ๋ฌธ์ฒด๋งŒ ๋ฐ€์–ด๋ถ™์ด๋Š” ํ˜•ํƒœ๋Š” ์•„๋‹ˆ๋‹ค.
139
+ ๋Œ€์‹  ์•„๋ž˜ ๋„ค ์ธต์„ ํ•จ๊ป˜ ํ•™์Šตํ•˜๋„๋ก ์„ค๊ณ„๋˜์–ด ์žˆ๋‹ค.
140
+
141
+ - lore / setting explanation
142
+ - NPC voice
143
+ - quest / system flavor text
144
+ - environment / look / scan narration
145
+
146
+ ## ์‚ฌ์šฉ์ž ์ž…๋ ฅ ๊ฒฝํ–ฅ
147
+
148
+ ์ •๋ฆฌ๋ณธ์—์„œ ์ž์ฃผ ๋ณด์ด๋Š” ์ž…๏ฟฝ๏ฟฝ ํ‚ค์›Œ๋“œ ์˜ˆ์‹œ๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค.
149
+
150
+ - `์‹ ํ˜ธ`: `60`
151
+ - `ํ€˜์ŠคํŠธ`: `50`
152
+ - `์†Œ๋ฌธ`: `50`
153
+ - `์—ฐ๋ฃŒ`: `48`
154
+ - `ํ•ญ๋กœ`: `33`
155
+ - `ํ‘œ์ง€๋“ฑ`: `22`
156
+ - `๋„ํ‚น`: `20`
157
+ - `ํ‰ํŒ`: `18`
158
+ - `์ˆ˜๋ฆฌ`: `14`
159
+ - `๊ฑฐ๋ž˜`: `14`
160
+ - `์ „ํˆฌ`: `10`
161
+
162
+ ์ด ๋ถ„ํฌ๋Š” ์ด ๋ฐ์ดํ„ฐ์…‹์ด ๋‹จ์ง€ โ€œ๋กœ์–ด ์„ค๋ช…โ€๋งŒ ๋ชจ์•„๋‘” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์‹ค์ œ ํ…์ŠคํŠธ MUD์—์„œ ์ž์ฃผ ๋‚˜์˜ค๋Š” ์•„๋ž˜ ์ž…๋ ฅ๊ตฐ์„ ํ•จ๊ป˜ ํฌํ•จํ•œ๋‹ค๋Š” ๋œป์ด๋‹ค.
163
+
164
+ - ์žฅ์†Œ ์„ค๋ช…
165
+ - ์‹ ํ˜ธ/์Šค์บ”
166
+ - ํ€˜์ŠคํŠธ์™€ ์‹œ์Šคํ…œ ํ…์ŠคํŠธ
167
+ - ํ•ญ๋กœ/๋„ํ‚น/์—ฐ๋ฃŒ ๊ฐ™์€ ํ”Œ๋ ˆ์ด ๊ด€๋ จ ํ‘œํ˜„
168
+ - ํ‰ํŒ/์†Œ๋ฌธ/๊ฑฐ๋ž˜ ๋“ฑ ์„ธ๊ณ„ ์ƒํ˜ธ์ž‘์šฉ
169
+
170
+ ## ์ด ๋ฐ์ดํ„ฐ์…‹์ด ์ž˜ํ•˜๋Š” ๊ฒƒ
171
+
172
+ - ์งง๊ณ  ๋ถ„์œ„๊ธฐ ์žˆ๋Š” ์‘๋‹ต
173
+ - ํ•œ๊ตญ์–ด ์„ธ๊ณ„๊ด€ ์„ค๋ช…
174
+ - MUD ํ†ค์˜ NPC ๋Œ€ํ™”
175
+ - room look / signal / rumor ๊ฐ™์€ ์งง์€ ๋ช…๋ น ๋ฐ˜์‘
176
+ - ์„ค์ • ๋ฌธ์žฅ๊ณผ ๊ธฐ๋Šฅ ์„ค๋ช…์ด ์„ž์ธ ํ…์ŠคํŠธ
177
+
178
+ ## ์ด ๋ฐ์ดํ„ฐ์…‹๋งŒ์œผ๋กœ๋Š” ๋ถ€์กฑํ•œ ๊ฒƒ
179
+
180
+ ์ด ๋ฐ์ดํ„ฐ์…‹์€ โ€œ์—”์ง„ ๋Œ€์ฒดโ€๊ฐ€ ์•„๋‹ˆ๋ผ โ€œ์„œ์‚ฌ ๋ ˆ์ด์–ด ๋ณด๊ฐ•โ€์„ ๋ชฉํ‘œ๋กœ ํ•˜๋ฏ€๋กœ, ์•„๋ž˜๋Š” ์˜๋„์ ์œผ๋กœ ์•ฝํ•˜๊ฑฐ๋‚˜ ๋น„์›Œ์ ธ ์žˆ๋Š” ์˜์—ญ์ด๋‹ค.
181
+
182
+ - ์ •๋ฐ€ํ•œ ์ƒํƒœ ์ถ”์ 
183
+ - ์ˆ˜์น˜ ๊ธฐ๋ฐ˜ ์ „ํˆฌ ๊ทœ์น™
184
+ - ๋ณด์ƒ ๊ณ„์‚ฐ
185
+ - ํ€˜์ŠคํŠธ ์™„๋ฃŒ ํŒ์ •
186
+ - ์žฅ๊ธฐ multi-turn ๋ฉ”๋ชจ๋ฆฌ
187
+ - ์ผ๋ฐ˜ ์ƒ์‹ QA
188
+
189
+ ์ฆ‰, ๋ชจ๋ธ์ด ์•„๋ž˜๋ฅผ ์ž˜ํ•˜๊ฒŒ ํ•˜๊ณ  ์‹ถ๋‹ค๋ฉด ๋ณ„๋„ ๋ฐ์ดํ„ฐ๊ฐ€ ๋” ํ•„์š”ํ•˜๋‹ค.
190
+
191
+ - ์žฅ๊ธฐ ๋Œ€ํ™”
192
+ - ์ƒ์„ธ ์„ธ๊ณ„ ๊ทœ์น™ ์ค€์ˆ˜
193
+ - ์—„๊ฒฉํ•œ JSON ์ถœ๋ ฅ
194
+ - ํˆด ํ˜ธ์ถœ / ํ•จ์ˆ˜ ํ˜ธ์ถœ
195
+ - ์ „ํˆฌ ๋กœ๊ทธ ํ•ด์„ค
196
+
197
+ ## ์™œ dedup ๋ฒ„์ „์ด ํ•„์š”ํ•œ๊ฐ€
198
+
199
+ ์›๋ณธ `1000` ํ–‰์„ ๊ทธ๋Œ€๋กœ ์“ฐ๋ฉด, ์ •ํ™•ํžˆ ๊ฐ™์€ ์ค„์ด ๋ฐ˜๋ณต๋˜๋Š” ์ƒ˜ํ”Œ์ด ๋“ค์–ด๊ฐ€ ์žˆ๋‹ค.
200
+ ์ ์€ ๊ทœ๋ชจ์˜ ๋ฏธ์„ธ์กฐ์ •์—์„œ๋Š” ์ด๋Ÿฐ ์ค‘๋ณต์ด ํŠน์ • ํ‘œํ˜„์„ ๊ณผํ•˜๊ฒŒ ๊ฐ•ํ™”ํ•ด์„œ, ๋ชจ๋ธ์ด ์‹ค์ œ๋ณด๋‹ค ๋” ์ข์€ ๋ฌธ์ฒด๋ฅผ ๋‚ด๋„๋ก ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค.
201
+
202
+ ๊ทธ๋ž˜์„œ ์ •๋ฆฌ๋ณธ์—์„œ๋Š”:
203
+
204
+ - exact duplicate ์ œ๊ฑฐ
205
+ - ๊ณต๋ฐฑ/์ค„๋ฐ”๊ฟˆ ์ •๋ฆฌ
206
+ - role/content ๊ตฌ์กฐ ๊ฒ€์ฆ
207
+ - Gemma 4์šฉ typed text messages ๋ฒ„์ „ ์ถ”๊ฐ€
208
+
209
+ ๋ฅผ ๊ฑฐ์นœ `963` ํ–‰์„ ๊ธฐ์ค€๋ณธ์œผ๋กœ ์‚ผ์•˜๋‹ค.
210
+
211
+ ## ์™œ ChatML ๋ฒ„์ „๊ณผ Gemma 4 typed ๋ฒ„์ „์„ ๋‘˜ ๋‹ค ๋‘๋Š”๊ฐ€
212
+
213
+ ๋‘˜์˜ ๋‚ด์šฉ์€ ์‚ฌ์‹ค์ƒ ๊ฐ™์ง€๋งŒ, ์šฉ๋„๊ฐ€ ๋‹ค๋ฅด๋‹ค.
214
+
215
+ ### `combined_1000.unsloth_chatml_dedup.jsonl`
216
+
217
+ - ์‚ฌ๋žŒ์ด ์ฝ๊ธฐ ํŽธํ•˜๋‹ค
218
+ - ์ผ๋ฐ˜์ ์ธ chat fine-tuning ํฌ๋งท๊ณผ ๊ฐ€๊น๋‹ค
219
+ - ๋””๋ฒ„๊น…์ด ์‰ฝ๋‹ค
220
+
221
+ ### `combined_1000.unsloth_gemma4_messages_dedup.jsonl`
222
+
223
+ - Gemma 4 processor/template ๊ฒฝ๋กœ์—์„œ ๋” ์•ˆ์ „ํ•˜๋‹ค
224
+ - `content: [{type: "text", text: ...}]` ๊ตฌ์กฐ๋ฅผ ๊ฐ•์ œํ•  ์ˆ˜ ์žˆ๋‹ค
225
+ - multimodal ๊ณ„์—ด ํ…œํ”Œ๋ฆฟ๊ณผ์˜ ์ถฉ๋Œ์„ ์ค„์ด๊ธฐ ์‰ฝ๋‹ค
226
+
227
+ ์‹ค์ „์—์„œ๋Š” typed messages ๋ฒ„์ „์„ ๊ธฐ์ค€์œผ๋กœ ๋‘๊ณ , ํ•„์š”ํ•˜๋ฉด ์ตœ์ข… `text` ์ปฌ๋Ÿผ์„ ๋งŒ๋“ค์–ด ํ•™์Šตํ•˜๋Š” ํŽธ์ด ์•ˆ์ •์ ์ด๋‹ค.
228
+
229
+ ## ์ด ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์ƒˆ ์ƒ˜ํ”Œ์„ ๋งŒ๋“ค ๋•Œ์˜ ๊ทœ์น™
230
+
231
+ ์ƒˆ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”๊ฐ€ํ•  ๋•Œ๋Š” ์•„๋ž˜ ๊ทœ์น™์„ ์ถ”์ฒœํ•œ๋‹ค.
232
+
233
+ ### 1. ๊ธฐ๋ณธ ๋‹จ์œ„๋Š” 1์ƒ˜ํ”Œ = 1system + 1user + 1assistant
234
+
235
+ ๊ฐ€๋Šฅํ•˜๋ฉด ์•„๋ž˜ 3ํ„ด ๊ตฌ์กฐ๋ฅผ ์œ ์ง€ํ•œ๋‹ค.
236
+
237
+ - `system`: ์—ญํ• ๊ณผ ๋งํˆฌ
238
+ - `user`: ์งง๊ณ  ๋ช…ํ™•ํ•œ ์ž…๋ ฅ
239
+ - `assistant`: ์งง๊ณ  ํ†ค์ด ์‚ด์•„ ์žˆ๋Š” ๋‹ต๋ณ€
240
+
241
+ ### 2. user๋Š” ์งง๊ฒŒ, assistant๋Š” ์‘์ถ•๋˜๊ฒŒ
242
+
243
+ ์ด ๋ฐ์ดํ„ฐ์…‹์˜ ๊ฐ•์ ์€ โ€œ์งง์€ ์ž…๋ ฅ์— ์งง๊ณ  ์„ ๋ช…ํ•œ ์ถœ๋ ฅโ€์ด๋‹ค.
244
+ ๋”ฐ๋ผ์„œ ์ƒˆ ์ƒ˜ํ”Œ๋„ ์•„๋ž˜ ๊ฒฐ์„ ์œ ์ง€ํ•˜๋Š” ํŽธ์ด ์ข‹๋‹ค.
245
+
246
+ - user: ์งง์€ ๋ช…๋ น, ์งง์€ ์š”์ฒญ, ํ•œ ๋ฌธ์žฅ ์งˆ๋ฌธ
247
+ - assistant: ๋‘์„ธ ๋ฌธ๋‹จ ์ดํ•˜, ๊ฐ€๋Šฅํ•˜๋ฉด ์งง์€ ์„œ์ˆ  ์ค‘์‹ฌ
248
+
249
+ ### 3. ์‹œ์Šคํ…œ ์—ญํ• ์„ ์„ž์–ด๋ผ
250
+
251
+ ํ˜„์žฌ ๋ถ„ํฌ์ฒ˜๋Ÿผ ์•„๋ž˜ ๋„ค ์—ญํ• ์„ ๊ณ ๋ฅด๊ฒŒ ์„ž๋Š” ํŽธ์ด ์ข‹๋‹ค.
252
+
253
+ - ์„ธ๊ณ„๊ด€ ํ•ด์„ค์ž
254
+ - NPC ๋Œ€์‚ฌ ์ž‘์„ฑ์ž
255
+ - ํ€˜์ŠคํŠธ/์‹œ์Šคํ…œ ๋ฉ”์‹œ์ง€ ์ž‘์„ฑ์ž
256
+ - ํ™˜๊ฒฝ ์„œ์ˆ ๊ฐ€
257
+
258
+ ํ•œ ์—ญํ• ๋งŒ ๋ชฐ์•„ ๋„ฃ์œผ๋ฉด ๋ฌธ์ฒด๊ฐ€ ํ•œ์ชฝ์œผ๋กœ๋งŒ ์ ๋ฆฌ๊ธฐ ์‰ฝ๋‹ค.
259
+
260
+ ### 4. ์—”์ง„ ํŒ์ •์€ ์ง์ ‘ ์„ ์–ธํ•˜์ง€ ๋ง๋ผ
261
+
262
+ ๋ชจ๋ธ์ด ์•„๋ž˜๋ฅผ ์ง์ ‘ ์„ ์–ธํ•˜๋Š” ์ƒ˜ํ”Œ์€ ๊ฐ€๊ธ‰์  ํ”ผํ•œ๋‹ค.
263
+
264
+ - ํ€˜์ŠคํŠธ ์™„๋ฃŒ
265
+ - ๋ณด์ƒ ํš๋“
266
+ - ๋ฌธ ์—ด๋ฆผ
267
+ - ์ „ํˆฌ ์Šน๋ฆฌ ํ™•์ •
268
+
269
+ ์ด๋Ÿฐ ๋ฌธ์žฅ์€ ๋‚˜์ค‘์— ๋ชจ๋ธ์ด ๊ฒŒ์ž„ ์—”์ง„ ์—ญํ• ๊นŒ์ง€ ๋„˜๋ณด๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค.
270
+
271
+ ### 5. ํ˜„์‹ค ์ƒ์‹ ๊ฐ•์˜๋ณด๋‹ค ์„ธ๊ณ„ ์•ˆ์˜ ๋ฐ˜์‘์„ ์šฐ์„ ํ•˜๋ผ
272
+
273
+ ์ด ๋ฐ์ดํ„ฐ์…‹์˜ ๋ชฉ์ ์€ ๋ฒ”์šฉ ๋ฐฑ๊ณผ์‚ฌ์ „ QA๊ฐ€ ์•„๋‹ˆ๋‹ค.
274
+ ๋”ฐ๋ผ์„œ `Oracle`, `signal`, `route` ๊ฐ™์€ ๋‹จ์–ด๊ฐ€ ๋‚˜์™€๋„ ํ˜„์‹ค ๊ธฐ์ˆ  ๋ฌธ์„œํ’ ์„ค๋ช…์ด ์•„๋‹ˆ๋ผ **์„ธ๊ณ„๊ด€ ๋‚ด๋ถ€ ๋ฐ˜์‘**์ด ๋‚˜์˜ค๋„๋ก ์ž‘์„ฑํ•˜๋Š” ํŽธ์ด ์ข‹๋‹ค.
275
+
276
+ ## ์ถ”์ฒœ ์ž‘์„ฑ ํ…œํ”Œ๋ฆฟ
277
+
278
+ ๊ฐ€์žฅ ๋ฌด๋‚œํ•œ ์ž‘์„ฑ ํ…œํ”Œ๋ฆฟ์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค.
279
+
280
+ ```json
281
+ {
282
+ "messages": [
283
+ {
284
+ "role": "system",
285
+ "content": "๋‹น์‹ ์€ ์šฐ์ฃผํ•ญํ–‰ ํ…์ŠคํŠธ MUD์˜ ํ™˜๊ฒฝ ์„œ์ˆ ๊ฐ€๋‹ค. ๋‹ต๋ณ€์€ ํ•œ๊ตญ์–ด๋กœ ํ•˜๋ฉฐ, room look, scan, ์ด๋™ ๋ฉ”์‹œ์ง€, ์œ„ํ—˜ ๊ฒฝ๊ณ ๋ฅผ ์„ ๋ช…ํ•˜๊ณ  ํ”Œ๋ ˆ์ด ์นœํ™”์ ์œผ๋กœ ์ž‘์„ฑํ•œ๋‹ค."
286
+ },
287
+ {
288
+ "role": "user",
289
+ "content": "scan signal"
290
+ },
291
+ {
292
+ "role": "assistant",
293
+ "content": "์ˆ˜์‹ ๊ธฐ์—๋Š” ๋ถ€์„œ์ง„ ๋งฅ๋™ ํ•˜๋‚˜๊ฐ€ ๋‚ฎ๊ฒŒ ๊ฑธ๋ฆฐ๋‹ค. ์‹ ํ˜ธ๋Š” ์˜ค๋ž˜์ „์— ๋Š๊ฒผ์ง€๋งŒ, ๋์ž๋ฝ์—๋Š” ์•„์ง๋„ ๋ˆ„๊ตฐ๊ฐ€์˜ ํ˜ธ์ถœ ์Šต๊ด€ ๊ฐ™์€ ๊ทœ์น™์ด ๋‚จ์•„ ์žˆ๋‹ค."
294
+ }
295
+ ]
296
+ }
297
+ ```
298
+
299
+ Gemma 4 typed messages ๋ฒ„์ „์œผ๋กœ ๋ฐ”๋กœ ๋งŒ๋“ค๊ณ  ์‹ถ์œผ๋ฉด:
300
+
301
+ ```json
302
+ {
303
+ "messages": [
304
+ {
305
+ "role": "system",
306
+ "content": [{"type": "text", "text": "๋‹น์‹ ์€ ์šฐ์ฃผํ•ญํ–‰ ํ…์ŠคํŠธ MUD์˜ NPC ๋Œ€์‚ฌ ์ž‘์„ฑ์ž๋‹ค. ๋‹ต๋ณ€์€ ํ•œ๊ตญ์–ด๋กœ ํ•˜๋ฉฐ, ์—ญํ• ์— ๋งž๋Š” ๊ฐœ์„ฑ๊ณผ ๊ฒŒ์ž„ ํ”Œ๋ ˆ์ด ๋‹จ์„œ๋ฅผ ํ•จ๊ป˜ ๋‹ด๋Š”๋‹ค."}]
307
+ },
308
+ {
309
+ "role": "user",
310
+ "content": [{"type": "text", "text": "talk oracle"}]
311
+ },
312
+ {
313
+ "role": "assistant",
314
+ "content": [{"type": "text", "text": "์˜ˆ์–ธ์ž๋Š” ์ˆจ์„ ๊ณ ๋ฅธ ๋’ค ๋‚ฎ๊ฒŒ ๋งํ•œ๋‹ค. ์ฒซ ๋ถˆ์€ ๊ธธ์„ ๋ฐํžˆ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋Œ์•„์˜ฌ ์ž๋ฆฌ๋ฅผ ๊ธฐ์–ตํ•˜๊ฒŒ ๋งŒ๋“ ๋‹ค."}]
315
+ }
316
+ ]
317
+ }
318
+ ```
319
+
320
+ ## ์ถ”์ฒœ ์ œ์ž‘ ์ˆœ์„œ
321
+
322
+ ์ƒˆ ๋ฐ์ดํ„ฐ์…‹์„ ๋งŒ๋“ค ๋•Œ๋Š” ์•„๋ž˜ ์ˆœ์„œ๋ฅผ ๊ถŒํ•œ๋‹ค.
323
+
324
+ 1. ์—ญํ• ๊ตฐ์„ ๋จผ์ € ๋‚˜๋ˆˆ๋‹ค
325
+ - lore / NPC / quest-system / environment
326
+ 2. user ์ž…๋ ฅ๊ตฐ์„ ๋จผ์ € ์ •ํ•œ๋‹ค
327
+ - ๋ช…๋ นํ˜•, ์„ค๋ช…ํ˜•, ํžŒํŠธํ˜•
328
+ 3. assistant ๊ธธ์ด๋ฅผ ์ œํ•œํ•œ๋‹ค
329
+ - ๋„ˆ๋ฌด ๊ธธ์–ด์ง€์ง€ ์•Š๊ฒŒ
330
+ 4. exact duplicate ๋ฅผ ์ œ๊ฑฐํ•œ๋‹ค
331
+ 5. ChatML ๋ฒ„์ „๊ณผ Gemma 4 typed ๋ฒ„์ „์„ ๋ชจ๋‘ ๋งŒ๋“ ๋‹ค
332
+ 6. ์‹ค์ œ ์ถ”๋ก  ํ…Œ์ŠคํŠธ๋ฅผ ๋จผ์ € ํ•ด๋ณธ๋‹ค
333
+ - `talk oracle`
334
+ - `look`
335
+ - `scan signal`
336
+ - `First Fire Horizon์ด ์–ด๋–ค ๊ณณ์ธ์ง€ ์„ค๋ช…ํ•ด์ค˜.`
337
+
338
+ ## ํ’ˆ์งˆ ์ ๊ฒ€ ์ฒดํฌ๋ฆฌ์ŠคํŠธ
339
+
340
+ ๋ฐ์ดํ„ฐ์…‹์„ ์ถ”๊ฐ€ํ•˜๊ฑฐ๋‚˜ ์ˆ˜์ •ํ•  ๋•Œ๋Š” ์•„๋ž˜๋ฅผ ๋ณด๋Š” ๊ฒƒ์ด ์ข‹๋‹ค.
341
+
342
+ - ํ•œ๊ตญ์–ด ํ†ค์ด ์ผ๊ด€์ ์ธ๊ฐ€
343
+ - system ์—ญํ• ์ด ๋„ˆ๋ฌด ํ•œ์ชฝ์œผ๋กœ ์ ๋ฆฌ์ง€ ์•Š๋Š”๊ฐ€
344
+ - user ์ž…๋ ฅ์ด ์ง€๋‚˜์น˜๊ฒŒ ๊ธธ์ง€ ์•Š์€๊ฐ€
345
+ - assistant ๋‹ต๋ณ€์ด ์žฅํ™ฉํ•ด์ง€์ง€ ์•Š๋Š”๊ฐ€
346
+ - ํ˜„์‹ค ์ƒ์‹ ๊ฐ•์˜๋กœ ์ƒˆ๋Š” ์ƒ˜ํ”Œ์ด ์„ž์ด์ง€ ์•Š์•˜๋Š”๊ฐ€
347
+ - ๊ฒŒ์ž„ ์—”์ง„ ํŒ์ • ๋ฌธ์žฅ์ด ๋“ค์–ด๊ฐ€ ์žˆ์ง€ ์•Š์€๊ฐ€
348
+ - exact duplicate ๊ฐ€ ๋‚จ์•„ ์žˆ์ง€ ์•Š์€๊ฐ€
349
+ - Gemma 4 ํ…œํ”Œ๋ฆฟ ๊ฒฝ๋กœ์—์„œ `content` ํƒ€์ž… ์ถฉ๋Œ์ด ์—†๋Š”๊ฐ€
350
+
351
+ ## ์ด ์ €์žฅ์†Œ์—์„œ ์‹ค์ œ๋กœ ์“ฐ๋Š” ์ค€๋น„ ์Šคํฌ๋ฆฝํŠธ
352
+
353
+ starter package ์•ˆ์—๋Š” ๋ฐ์ดํ„ฐ ์ค€๋น„ ์Šคํฌ๋ฆฝํŠธ๋„ ํฌํ•จ๋˜์–ด ์žˆ๋‹ค.
354
+
355
+ - [`gemma-mud-colab-starter/scripts/prepare_unsloth_gemma4_dataset.py`](./gemma-mud-colab-starter/scripts/prepare_unsloth_gemma4_dataset.py)
356
+
357
+ ์ด ์Šคํฌ๋ฆฝํŠธ๋Š” ๋ฉ”์‹œ์ง€ ์ •๋ฆฌ, dedup, Unsloth/Gemma 4์šฉ ํฌ๋งท ์ƒ์„ฑ ๊ฐ™์€ ๋ฐ˜๋ณต ์ž‘์—…์„ ๋‹ค์‹œ ํ•˜๊ธฐ ์‰ฝ๊ฒŒ ๋‚จ๊ฒจ ๋‘” ๊ฒƒ์ด๋‹ค.
358
+
359
+ ## ์•ž์œผ๋กœ ํ™•์žฅํ•˜๋ ค๋ฉด
360
+
361
+ ์ง€๊ธˆ ๋ฐ์ดํ„ฐ์…‹์€ โ€œ์Šคํƒ€์ผ๊ณผ ๊ตฌ์กฐ๋ฅผ ์ตํžˆ๋Š” ์ฒซ ๋ฌถ์Œโ€์œผ๋กœ๋Š” ์ถฉ๋ถ„ํ•˜์ง€๋งŒ, ๋” ๋†’์€ ํ’ˆ์งˆ์„ ์›ํ•˜๋ฉด ์•„๋ž˜ ๋ฐฉํ–ฅ์ด ์ข‹๋‹ค.
362
+
363
+ - NPC๋ณ„ ์ „์šฉ ๋ฐ์ดํ„ฐ์…‹ ๋ถ„๋ฆฌ
364
+ - ์ง€์—ญ/๊ฑฐ์ ๋ณ„ ์„ธ๊ณ„๊ด€ ์‚ฌ์ „ ํ™•์žฅ
365
+ - quest-system ๋ฉ”์‹œ์ง€ ๋ถ„๋ฆฌ
366
+ - `look` / `rumor` / `scan` ๊ณ„์—ด์„ ๋” ๋งŽ์ด ํ™•๋ณด
367
+ - ์žฅ๊ธฐ ๋Œ€ํ™”ํ˜• ๋ฐ์ดํ„ฐ ์ถ”๊ฐ€
368
+ - ์—”์ง„ ํ›„์ฒ˜๋ฆฌ ๊ทœ์น™๊ณผ ํ•จ๊ป˜ ํ‰๊ฐ€
369
+
370
+ ## ๋ชจ๋ธ ์นด๋“œ์—์„œ ์ด ๋ฌธ์„œ๋ฅผ ์™œ ๋”ฐ๋กœ ๋‘๋Š”๊ฐ€
371
+
372
+ ๋ชจ๋ธ ์นด๋“œ๋Š” ๋ณดํ†ต ์•„๋ž˜๋ฅผ ๋น ๋ฅด๊ฒŒ ๋ณด์—ฌ ์ค˜์•ผ ํ•œ๋‹ค.
373
+
374
+ - ๋ฌด์—‡์„ ํ•˜๋Š” ๋ชจ๋ธ์ธ๊ฐ€
375
+ - ์–ด๋–ป๊ฒŒ ์“ฐ๋Š”๊ฐ€
376
+ - ์–ด๋–ค ํŒŒ์ผ์ด ์žˆ๋Š”๊ฐ€
377
+
378
+ ๋ฐ˜๋ฉด ๋ฐ์ดํ„ฐ์…‹ ๋ถ„์„์€ ์•„๋ž˜๊ฐ€ ํ•„์š”ํ•˜๋‹ค.
379
+
380
+ - ์ •์ œ ๊ณผ์ •
381
+ - ํฌ๋งท ์ฐจ์ด
382
+ - ์ค‘๋ณต ์ œ๊ฑฐ ์ด์œ 
383
+ - ์ž‘์„ฑ ๊ทœ์น™
384
+ - ํ™•์žฅ ๋ฐฉํ–ฅ
385
+
386
+ ๋‘˜์„ ํ•œ ๋ฌธ์„œ์— ๋ชจ๋‘ ๋ฐ€์–ด ๋„ฃ์œผ๋ฉด ๋ชจ๋ธ ์นด๋“œ๊ฐ€ ์ง€๋‚˜์น˜๊ฒŒ ๊ธธ์–ด์ง€๊ณ , ํ•ต์‹ฌ ์‚ฌ์šฉ์ž๊ฐ€ ๋นจ๋ฆฌ ์ •๋ณด๋ฅผ ์ฐพ๊ธฐ ์–ด๋ ค์›Œ์ง„๋‹ค.
387
+ ๊ทธ๋ž˜์„œ ์ด ์ €์žฅ์†Œ๋Š” **๋ชจ๋ธ ์นด๋“œ์™€ ๋ฐ์ดํ„ฐ์…‹ ๊ฐ€์ด๋“œ๋ฅผ ๋ถ„๋ฆฌ**ํ•˜๋Š” ์ชฝ์ด ๋” ์ ํ•ฉํ•˜๋‹ค.
README.md CHANGED
@@ -80,6 +80,10 @@ LM Studio / llama.cpp ์— ๋ฐ”๋กœ ๊ฐ€์ ธ๊ฐˆ ์ˆ˜ ์žˆ๋„๋ก ๋‹ค์Œ GGUF ํŒŒ์ผ์„
80
 
81
  ์ฆ‰ ์ด ์ €์žฅ์†Œ๋Š” โ€œ๋ชจ๋ธ๋งŒ ๋˜์ ธ ๋†“์€ ํ˜•ํƒœโ€๊ฐ€ ์•„๋‹ˆ๋ผ, **์‹คํ—˜๊ณผ ๋ฐฐํฌ๊นŒ์ง€ ์ด์–ด์ง€๋Š” ํŒจํ‚ค์ง€ํ˜• ์ €์žฅ์†Œ**๋ฅผ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค.
82
 
 
 
 
 
83
  ## ๋ชจ๋ธ ๊ฐœ์š”
84
 
85
  ์ด ๋ชจ๋ธ์€ **Gemma 4 E2B instruct ๊ณ„์—ด์„ ํ…์ŠคํŠธ MUD ํ†ค์— ๋งž๊ฒŒ ๋‹ค๋“ฌ์€ ํŒŒ์ƒ ๋ชจ๋ธ**์ด๋‹ค.
@@ -274,6 +278,10 @@ Gemma 4 ๊ณ„์—ด์€ ๊ณต์‹/์‹ค์ „ ์‚ฌ์šฉ์—์„œ ์•„๋ž˜ ๊ฐ’์ด ๋ฌด๋‚œํ•œ ์ถœ๋ฐœ์ 
274
  - `combined_1000.unsloth_gemma4_messages_dedup.jsonl` : 963ํ–‰ Gemma 4 messages ์ •๋ฆฌ๋ณธ
275
  - `gemma4_mud_alpaca_100.jsonl` : 100ํ–‰ ์†Œํ˜• ์˜ˆ์‹œ
276
 
 
 
 
 
277
  ์ค‘์š”:
278
 
279
  - ์œ„ ๋ฐ์ดํ„ฐ์…‹์€ **starter/retraining/example ์šฉ๋„**๋กœ ํ•จ๊ป˜ ๋„ฃ์–ด ๋‘” ๊ฒƒ์ด๋‹ค.
 
80
 
81
  ์ฆ‰ ์ด ์ €์žฅ์†Œ๋Š” โ€œ๋ชจ๋ธ๋งŒ ๋˜์ ธ ๋†“์€ ํ˜•ํƒœโ€๊ฐ€ ์•„๋‹ˆ๋ผ, **์‹คํ—˜๊ณผ ๋ฐฐํฌ๊นŒ์ง€ ์ด์–ด์ง€๋Š” ํŒจํ‚ค์ง€ํ˜• ์ €์žฅ์†Œ**๋ฅผ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค.
82
 
83
+ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์กฐ์™€ ์ œ์ž‘ ๋ฐฉ๋ฒ•์€ ๋ณ„๋„ ๋ฌธ์„œ์— ์ •๋ฆฌํ•ด ๋‘์—ˆ๋‹ค.
84
+
85
+ - [`DATASET_GUIDE.md`](./DATASET_GUIDE.md)
86
+
87
  ## ๋ชจ๋ธ ๊ฐœ์š”
88
 
89
  ์ด ๋ชจ๋ธ์€ **Gemma 4 E2B instruct ๊ณ„์—ด์„ ํ…์ŠคํŠธ MUD ํ†ค์— ๋งž๊ฒŒ ๋‹ค๋“ฌ์€ ํŒŒ์ƒ ๋ชจ๋ธ**์ด๋‹ค.
 
278
  - `combined_1000.unsloth_gemma4_messages_dedup.jsonl` : 963ํ–‰ Gemma 4 messages ์ •๋ฆฌ๋ณธ
279
  - `gemma4_mud_alpaca_100.jsonl` : 100ํ–‰ ์†Œํ˜• ์˜ˆ์‹œ
280
 
281
+ ๋ฐ์ดํ„ฐ์…‹์˜ ๊ตฌ์กฐ, ๋ถ„ํฌ, ์ •์ œ ๋ฐฉ์‹, ์ƒˆ ์ƒ˜ํ”Œ ์ž‘์„ฑ ๊ทœ์น™์€ ๋ณ„๋„ ๋ฌธ์„œ์—์„œ ์ž์„ธํžˆ ๋‹ค๋ฃฌ๋‹ค.
282
+
283
+ - [`DATASET_GUIDE.md`](./DATASET_GUIDE.md)
284
+
285
  ์ค‘์š”:
286
 
287
  - ์œ„ ๋ฐ์ดํ„ฐ์…‹์€ **starter/retraining/example ์šฉ๋„**๋กœ ํ•จ๊ป˜ ๋„ฃ์–ด ๋‘” ๊ฒƒ์ด๋‹ค.