ÇѾç´ëÇб³ °ø°ú´ëÇÐ

´ëÇѹα¹ ±â¼ú Çö½ÇÈ­ÀÇ »ê½Ç

ȨÀ¸·Î °ø°ú´ëÇÐ ¼Ò½Ä±³¼ö

±³¼ö

°Ô½Ã¹° »ó¼¼³»¿ë
ÇѾç´ë, ´ë±Ô¸ð ¾ð¾î ¸ðµ¨ À§ÇÑ ÃÊÀúÁ¤¹Ðµµ ¡®¾çÀÚÈ­ ÀÎ½Ä Áö½Ä Áõ·ù ÇнÀ ±â¼ú¡¯ °³¹ß
ÀÛ¼ºÀÚ : ÇѾç´ëÇб³ °ø°ú´ëÇÐ(help@hanyang.ac.kr)   ÀÛ¼ºÀÏ : 23.12.01   Á¶È¸¼ö : 80

ÇѾç´ëÇб³ À¶ÇÕÀüÀÚ°øÇкΠÃÖÁ¤¿í ±³¼ö ¿¬±¸ÆÀÀÌ »ý¼ºÇü ¾ð¾î ¸ðµ¨ Ãß·Ð ºñ¿ëÀ» Å©°Ô ÁÙÀÏ ¼ö ÀÖ´Â ÃÊÀúÁ¤¹Ðµµ(»ïÁø ¾çÀÚÈ­) ¾ð¾î ¸ðµ¨ ¾çÀÚÈ­ ÀÎ½Ä ÈÆ·ÃÀ» À§ÇÑ Áö½Ä Áõ·ù ±â¹ý ¾Ë°í¸®ÁòÀ» °³¹ßÇß´Ù°í, ÇѾç´ë°¡ 23ÀÏ ¹àÇû´Ù.

 

»ý¼ºÇü ¾ð¾î ¸ðµ¨Àº Ãֱ٠ê GPT ¸¦ ºñ·ÔÇÏ¿© ´Ù¾çÇÑ ºÐ¾ß¿¡¼­ »ç¶÷ÀÇ ´É·Â¿¡ ¹ö±Ý°¡´Â ¼º´ÉÀ» º¸¿©Áָ鼭 ¸¹Àº °ü½ÉÀ» ¾ò°í ÀÖ´Ù. ÇÏÁö¸¸, »ý¼ºÇü ¾ð¾î ¸ðµ¨ÀÇ Ãß·Ð ¿¬»êÀ» ÇÒ ¶§, ¸·´ëÇÑ ÀúÀå °ø°£ ¹× ¿¬»ê ºñ¿ëÀÌ ÇÊ¿äÇϸç, À̸¦ ÇØ°áÇϱâ À§ÇØ »ý¼ºÇü ¾ð¾î ¸ðµ¨À» À§ÇÑ ¸ðµ¨ ¾ÐÃà ±â¹ýÀÌ Á¦¾ÈµÇ°í ÀÖ´Ù.

 

±× Áß, °¡ÁßÄ¡ ¾çÀÚÈ­ ¹æ½Ä(Weight Quantization) ÀÇ ¾ÐÃà ±â¹ýÀº ¾ð¾î ¸ðµ¨ÀÇ ±¸Á¶¸¦ À¯Áö ½ÃÅ°¸é¼­ ¸ðµ¨ °¡ÁßÄ¡¸¦ ÀúÀåÇϴµ¥ »ç¿ëµÇ´Â µ¥ÀÌÅÍÀÇ Á¤¹Ðµµ¸¦ ³·Ãß´Â ¹æ½ÄÀÌ´Ù. ÀÌ Áß 3Áø ¾çÀÚÈ­(Ternary Quantization) ¹æ½ÄÀº ¸ðµ¨ÀÇ °¡ÁßÄ¡¸¦ -1, 0, ±×¸®°í 1±îÁö ÃÑ 3°¡Áö °ªÀ¸·Î¸¸ ³ªÅ¸³»´Â ¹æ½ÄÀÌ´Ù.

 

ÇÏÁö¸¸ 3Áø ¾çÀÚÈ­ ¹æ¹ýÀÇ ÇÑ°è´Â ¸ðµ¨ÀÌ °¡Áö°í ÀÖ´Â º»·¡ÀÇ ¼º´ÉÀÌ Å©°Ô ¶³¾îÁø´Ù´Â Á¡ÀÌ ÀÖ´Ù. À̸¦ º¸¿ÏÇϱâ À§ÇØ, 16ºñÆ® ºÎµ¿¼Ò¼öÁ¡À¸·Î ÀÌ·ç¾îÁø ¿ø·¡ÀÇ ¸ðµ¨À» ¡®¼±»ý´Ô ¸ðµ¨¡¯·Î »ï¾Æ, ¾çÀÚÈ­¸¦ Àû¿ëÇÑ ¡®Çлý ¸ðµ¨¡¯¿¡ Áö½Ä Áõ·ù (Knowledge Distillation) ±â¹ýÀ» »ç¿ëÇÏ¿©, ¾çÀÚÈ­ ÀÎ½Ä ÇнÀÀ» Àû¿ëÇÏ´Â ¹æ¹ýÀÌ È°¹ßÈ÷ ¿¬±¸µÇ°í ÀÖ´Ù. ÇÏÁö¸¸, °ü·ÃµÈ ÃֽŠ±â¹ýÀ» »ç¿ëÇصµ Á¤È®µµ Ç϶ôÀÌ ½ÉÇÑ »óȲÀÌ´Ù.

 

ÃÖÁ¤¿í ±³¼ö ¿¬±¸ÆÀÀÌ °³¹ßÇÑ ¡®3Áø ¾çÀÚÈ­ ÀÎ½Ä ÇнÀÀ» À§ÇÑ ÅäÅ« ´ÜÀ§ Áö½Ä Áõ·ù ±â¼ú¡¯Àº »ý¼ºÇü ¾ð¾î ¸ðµ¨ÀÌ ¾çÀÚÈ­¿¡ º¸À̴ Ư¼ºÀ» ±â¹ÝÀ¸·Î Á¦¾ÈµÇ¾ú°í, ¾çÀÚÈ­·Î ÀÎÇØ ¼º´É Ç϶ôÀ¸·Î À̾îÁö´Â ¿µÇâÀ» ÃÖ¼ÒÈ­ÇÑ ±â¼úÀÌ´Ù. À̸¦ ÅëÇØ ±âÁ¸ Áö½Ä Áõ·ù ±â¼ú ´ëºñ ´õ ³ôÀº ¼º´É Çâ»óÀ» ²ø¾î³¾ ¼ö ÀÖ¾ú´Ù.

 

»ý¼ºÇü ¾ð¾î ¸ðµ¨µéÀº ÇнÀ °úÁ¤¿¡¼­ ÀÔ·Â ¹®ÀåÀÇ °¢°¢ÀÇ ´Ü¾î ´ÙÀ½ ¹ø° ³ª¿Ã ´Ü¾î¸¦ ¿¹ÃøÇÏ´Â ÀÛ¾÷À» ¼öÇàÇÑ´Ù. À̶§ ƯÁ¤ ´Ü¾î¿¡ ´ëÇÑ ¿¹Ãø °á°ú¸¦ È®·ü ºÐÆ÷¸¦ ÅëÇØ °üÂûÇßÀ» ¶§, ƯÁ¤ ´Ü¾î´Â ¿¹ÃøÇÏ´Â ´Ü¾î¿¡ ´ëÇÑ È®·ü°ªÀÌ ³·À¸¸é¼­ ´Ù¸¥ ´Ù¾çÇÑ ´Ü¾î¿¡ ´ëÇÑ ¿¹Ãø È®·ü°ªÀ» ³ô°Ô °¡Áö°í ÀÖ´Â ÆÐÅÏÀ» º¸ÀδÙ.

 

¿¬±¸ÆÀÀº ÀÌ·¯ÇÑ ÆÐÅÏÀ» °í·ÁÇÏ¿© ·ÎÁþ(logit) ±â¹Ý Áö½Ä Áõ·ù ¹æ½Ä¿¡¼­ ÅäÅ« º°·Î Áö½Ä Áõ·ù°¡ µÇ´Â Á¤µµ¸¦ ´ÙÀ̳»¹ÍÇÏ°Ô Á¶ÀýÇÏ´Â ÅäÅ« ´ÜÀ§ÀÇ ·ÎÁþ Áõ·ù ±â¹ý (Token-Scaled Logit Distillation, TSLD)À» Á¦¾ÈÇß´Ù. TSLD ±â¹ýÀ» Àû¿ëÇϸé 3Áø ¾çÀÚÈ­ ÀÎ½Ä ÈƷÿ¡¼­ °úÀûÇÕÀ» ¹æÁöÇÒ ¼ö ÀÖÀ¸¸ç, ÃÖÁ¾ÀûÀ¸·Î ¾çÀÚÈ­ ¸ðµ¨ÀÌ ´õ ³ôÀº ¼º´ÉÀ» ±â·ÏÇÒ ¼ö ÀÖ´Â °ÍÀ¸·Î ³ªÅ¸³µ´Ù.

 

¿¬±¸ÆÀÀº ´Ù¾çÇÑ »ý¼ºÇü ¾ð¾î ¸ðµ¨¿¡ ´ëÇؼ­ ¾ð¾î ¸ðµ¨¸µ ¹× »ó½Ä Ãß·Ð ¼öÇà ÀÛ¾÷À» ÅëÇØ TSLD ¹æ¹ý·ÐÀ» °ËÁõÇß´Ù. ±× °á°ú, 3Áø ¾çÀÚÈ­¸¦ Àû¿ëÇÑ ¸ðµ¨ÀÌ ºÎµ¿ ¼Ò¼öÁ¡ ¸ðµ¨°ú ºñ±³ÇßÀ» ¶§, 1 ¹Ì¸¸ÀÇ Á¤È®µµ Ç϶ôÀÌ ³ªÅ¸³ª´Â ÃÖ°í ¼º´ÉÀ» ±â·ÏÇß°í, ´Ù¾çÇÑ ¸ðµ¨ Á¾·ù ¹× Å©±â¿¡¼­ ÀÏ°üµÈ ³ôÀº ¼º´ÉÀ» ´Þ¼ºÇß´Ù.

 

ÇѾç´ë ´ëÇпø À¶ÇÕÀüÀÚ°øÇаú ±è¹Î¼ö(Á¦1ÀúÀÚ) ¹Ú»ç°úÁ¤ Çлý°ú ÇѾç´ëÇб³ À̽ÃÈ­, ÀÌÀåȯ, È«¼®Áø ¹Ú»ç°úÁ¤ Çлý ¹× KT ÀåµÎ¼º »ó¹«, ¼­¿ï´ëÇб³ ¼º¿ø¿ë ±³¼ö°¡ ÇÔ²² Âü¿©ÇÑ À̹ø ¿¬±¸(³í¹®¸í : Token-Scaled Logit Distillation for Ternary Weight Generative Language Models)´Â ÃÖ°í ±ÇÀ§ ±¹Á¦Çмú´ëȸ ¡®½Å°æÁ¤º¸Ã³¸®½Ã½ºÅÛÇÐȸ(NeurIPS) 2023¡¯ ¿¡¼­ 12¿ù¿¡ ¹ßÇ¥µÉ ¿¹Á¤ÀÌ´Ù.

 

[»çÁøÀÚ·á1] ÃÖÁ¤¿í ±³¼ö

[»çÁøÀÚ·á1] ÃÖÁ¤¿í ±³¼ö

 

[»çÁøÀÚ·á2] ¿¬±¸°á°ú ¸ð½Äµµ

[»çÁøÀÚ·á2] ¿¬±¸°á°ú ¸ð½Äµµ

ÀÌÀü±Û ¼±¾ç±¹ ±³¼ö, °úÇбâÀÚÇù '¿ÃÇØÀÇ °úÇÐÀÚ»ó' ¼ö»óÀÚ ¼±Á¤
´ÙÀ½±Û ÇѾç´ë ¼±¾ç±¹ ±³¼ö, ¸®Æ¬¹èÅ͸®¿ë ÃÊ°ÝÂ÷ ¾ç±Ø¼ÒÀç ±â¼ú °³¹ß
¸®½ºÆ®