ÇѾç´ëÇб³ °ø°ú´ëÇÐ
´ëÇѹα¹ ±â¼ú Çö½ÇÈÀÇ »ê½Ç°ø°ú´ëÇÐ ¼Ò½Ä±³¼ö
ÇѾç´ë, ´ë±Ô¸ð ¾ð¾î ¸ðµ¨ À§ÇÑ ÃÊÀúÁ¤¹Ðµµ ¡®¾çÀÚÈ ÀÎ½Ä Áö½Ä Áõ·ù ÇнÀ ±â¼ú¡¯ °³¹ß | |
---|---|
ÀÛ¼ºÀÚ : ÇѾç´ëÇб³ °ø°ú´ëÇÐ(help@hanyang.ac.kr) ÀÛ¼ºÀÏ : 23.12.01 Á¶È¸¼ö : 80 | |
ÇѾç´ëÇб³ À¶ÇÕÀüÀÚ°øÇкΠÃÖÁ¤¿í ±³¼ö ¿¬±¸ÆÀÀÌ »ý¼ºÇü ¾ð¾î ¸ðµ¨ Ãß·Ð ºñ¿ëÀ» Å©°Ô ÁÙÀÏ ¼ö ÀÖ´Â ÃÊÀúÁ¤¹Ðµµ(»ïÁø ¾çÀÚÈ) ¾ð¾î ¸ðµ¨ ¾çÀÚÈ ÀÎ½Ä ÈÆ·ÃÀ» À§ÇÑ Áö½Ä Áõ·ù ±â¹ý ¾Ë°í¸®ÁòÀ» °³¹ßÇß´Ù°í, ÇѾç´ë°¡ 23ÀÏ ¹àÇû´Ù. »ý¼ºÇü ¾ð¾î ¸ðµ¨Àº Ãֱ٠ê GPT ¸¦ ºñ·ÔÇÏ¿© ´Ù¾çÇÑ ºÐ¾ß¿¡¼ »ç¶÷ÀÇ ´É·Â¿¡ ¹ö±Ý°¡´Â ¼º´ÉÀ» º¸¿©ÁÖ¸é¼ ¸¹Àº °ü½ÉÀ» ¾ò°í ÀÖ´Ù. ÇÏÁö¸¸, »ý¼ºÇü ¾ð¾î ¸ðµ¨ÀÇ Ãß·Ð ¿¬»êÀ» ÇÒ ¶§, ¸·´ëÇÑ ÀúÀå °ø°£ ¹× ¿¬»ê ºñ¿ëÀÌ ÇÊ¿äÇϸç, À̸¦ ÇØ°áÇϱâ À§ÇØ »ý¼ºÇü ¾ð¾î ¸ðµ¨À» À§ÇÑ ¸ðµ¨ ¾ÐÃà ±â¹ýÀÌ Á¦¾ÈµÇ°í ÀÖ´Ù. ±× Áß, °¡ÁßÄ¡ ¾çÀÚÈ ¹æ½Ä(Weight Quantization) ÀÇ ¾ÐÃà ±â¹ýÀº ¾ð¾î ¸ðµ¨ÀÇ ±¸Á¶¸¦ À¯Áö ½ÃÅ°¸é¼ ¸ðµ¨ °¡ÁßÄ¡¸¦ ÀúÀåÇϴµ¥ »ç¿ëµÇ´Â µ¥ÀÌÅÍÀÇ Á¤¹Ðµµ¸¦ ³·Ãß´Â ¹æ½ÄÀÌ´Ù. ÀÌ Áß 3Áø ¾çÀÚÈ(Ternary Quantization) ¹æ½ÄÀº ¸ðµ¨ÀÇ °¡ÁßÄ¡¸¦ -1, 0, ±×¸®°í 1±îÁö ÃÑ 3°¡Áö °ªÀ¸·Î¸¸ ³ªÅ¸³»´Â ¹æ½ÄÀÌ´Ù. ÇÏÁö¸¸ 3Áø ¾çÀÚÈ ¹æ¹ýÀÇ ÇÑ°è´Â ¸ðµ¨ÀÌ °¡Áö°í ÀÖ´Â º»·¡ÀÇ ¼º´ÉÀÌ Å©°Ô ¶³¾îÁø´Ù´Â Á¡ÀÌ ÀÖ´Ù. À̸¦ º¸¿ÏÇϱâ À§ÇØ, 16ºñÆ® ºÎµ¿¼Ò¼öÁ¡À¸·Î ÀÌ·ç¾îÁø ¿ø·¡ÀÇ ¸ðµ¨À» ¡®¼±»ý´Ô ¸ðµ¨¡¯·Î »ï¾Æ, ¾çÀÚȸ¦ Àû¿ëÇÑ ¡®Çлý ¸ðµ¨¡¯¿¡ Áö½Ä Áõ·ù (Knowledge Distillation) ±â¹ýÀ» »ç¿ëÇÏ¿©, ¾çÀÚÈ ÀÎ½Ä ÇнÀÀ» Àû¿ëÇÏ´Â ¹æ¹ýÀÌ È°¹ßÈ÷ ¿¬±¸µÇ°í ÀÖ´Ù. ÇÏÁö¸¸, °ü·ÃµÈ ÃֽŠ±â¹ýÀ» »ç¿ëÇصµ Á¤È®µµ Ç϶ôÀÌ ½ÉÇÑ »óȲÀÌ´Ù. ÃÖÁ¤¿í ±³¼ö ¿¬±¸ÆÀÀÌ °³¹ßÇÑ ¡®3Áø ¾çÀÚÈ ÀÎ½Ä ÇнÀÀ» À§ÇÑ ÅäÅ« ´ÜÀ§ Áö½Ä Áõ·ù ±â¼ú¡¯Àº »ý¼ºÇü ¾ð¾î ¸ðµ¨ÀÌ ¾çÀÚÈ¿¡ º¸À̴ Ư¼ºÀ» ±â¹ÝÀ¸·Î Á¦¾ÈµÇ¾ú°í, ¾çÀÚÈ·Î ÀÎÇØ ¼º´É Ç϶ôÀ¸·Î À̾îÁö´Â ¿µÇâÀ» ÃÖ¼ÒÈÇÑ ±â¼úÀÌ´Ù. À̸¦ ÅëÇØ ±âÁ¸ Áö½Ä Áõ·ù ±â¼ú ´ëºñ ´õ ³ôÀº ¼º´É Çâ»óÀ» ²ø¾î³¾ ¼ö ÀÖ¾ú´Ù. »ý¼ºÇü ¾ð¾î ¸ðµ¨µéÀº ÇнÀ °úÁ¤¿¡¼ ÀÔ·Â ¹®ÀåÀÇ °¢°¢ÀÇ ´Ü¾î ´ÙÀ½ ¹ø° ³ª¿Ã ´Ü¾î¸¦ ¿¹ÃøÇÏ´Â ÀÛ¾÷À» ¼öÇàÇÑ´Ù. À̶§ ƯÁ¤ ´Ü¾î¿¡ ´ëÇÑ ¿¹Ãø °á°ú¸¦ È®·ü ºÐÆ÷¸¦ ÅëÇØ °üÂûÇßÀ» ¶§, ƯÁ¤ ´Ü¾î´Â ¿¹ÃøÇÏ´Â ´Ü¾î¿¡ ´ëÇÑ È®·ü°ªÀÌ ³·À¸¸é¼ ´Ù¸¥ ´Ù¾çÇÑ ´Ü¾î¿¡ ´ëÇÑ ¿¹Ãø È®·ü°ªÀ» ³ô°Ô °¡Áö°í ÀÖ´Â ÆÐÅÏÀ» º¸ÀδÙ. ¿¬±¸ÆÀÀº ÀÌ·¯ÇÑ ÆÐÅÏÀ» °í·ÁÇÏ¿© ·ÎÁþ(logit) ±â¹Ý Áö½Ä Áõ·ù ¹æ½Ä¿¡¼ ÅäÅ« º°·Î Áö½Ä Áõ·ù°¡ µÇ´Â Á¤µµ¸¦ ´ÙÀ̳»¹ÍÇÏ°Ô Á¶ÀýÇÏ´Â ÅäÅ« ´ÜÀ§ÀÇ ·ÎÁþ Áõ·ù ±â¹ý (Token-Scaled Logit Distillation, TSLD)À» Á¦¾ÈÇß´Ù. TSLD ±â¹ýÀ» Àû¿ëÇϸé 3Áø ¾çÀÚÈ ÀÎ½Ä ÈƷÿ¡¼ °úÀûÇÕÀ» ¹æÁöÇÒ ¼ö ÀÖÀ¸¸ç, ÃÖÁ¾ÀûÀ¸·Î ¾çÀÚÈ ¸ðµ¨ÀÌ ´õ ³ôÀº ¼º´ÉÀ» ±â·ÏÇÒ ¼ö ÀÖ´Â °ÍÀ¸·Î ³ªÅ¸³µ´Ù. ¿¬±¸ÆÀÀº ´Ù¾çÇÑ »ý¼ºÇü ¾ð¾î ¸ðµ¨¿¡ ´ëÇؼ ¾ð¾î ¸ðµ¨¸µ ¹× »ó½Ä Ãß·Ð ¼öÇà ÀÛ¾÷À» ÅëÇØ TSLD ¹æ¹ý·ÐÀ» °ËÁõÇß´Ù. ±× °á°ú, 3Áø ¾çÀÚȸ¦ Àû¿ëÇÑ ¸ðµ¨ÀÌ ºÎµ¿ ¼Ò¼öÁ¡ ¸ðµ¨°ú ºñ±³ÇßÀ» ¶§, 1 ¹Ì¸¸ÀÇ Á¤È®µµ Ç϶ôÀÌ ³ªÅ¸³ª´Â ÃÖ°í ¼º´ÉÀ» ±â·ÏÇß°í, ´Ù¾çÇÑ ¸ðµ¨ Á¾·ù ¹× Å©±â¿¡¼ ÀÏ°üµÈ ³ôÀº ¼º´ÉÀ» ´Þ¼ºÇß´Ù.
ÇѾç´ë ´ëÇпø À¶ÇÕÀüÀÚ°øÇаú ±è¹Î¼ö(Á¦1ÀúÀÚ) ¹Ú»ç°úÁ¤ Çлý°ú ÇѾç´ëÇб³ À̽ÃÈ, ÀÌÀåȯ, È«¼®Áø ¹Ú»ç°úÁ¤ Çлý ¹× KT ÀåµÎ¼º »ó¹«, ¼¿ï´ëÇб³ ¼º¿ø¿ë ±³¼ö°¡ ÇÔ²² Âü¿©ÇÑ À̹ø ¿¬±¸(³í¹®¸í : Token-Scaled Logit Distillation for Ternary Weight Generative Language Models)´Â ÃÖ°í ±ÇÀ§ ±¹Á¦Çмú´ëȸ ¡®½Å°æÁ¤º¸Ã³¸®½Ã½ºÅÛÇÐȸ(NeurIPS) 2023¡¯ ¿¡¼ 12¿ù¿¡ ¹ßÇ¥µÉ ¿¹Á¤ÀÌ´Ù.
[»çÁøÀÚ·á1] ÃÖÁ¤¿í ±³¼ö
[»çÁøÀÚ·á2] ¿¬±¸°á°ú ¸ð½Äµµ |
|
ÀÌÀü±Û | ¼±¾ç±¹ ±³¼ö, °úÇбâÀÚÇù '¿ÃÇØÀÇ °úÇÐÀÚ»ó' ¼ö»óÀÚ ¼±Á¤ |
´ÙÀ½±Û | ÇѾç´ë ¼±¾ç±¹ ±³¼ö, ¸®Æ¬¹èÅ͸®¿ë ÃÊ°ÝÂ÷ ¾ç±Ø¼ÒÀç ±â¼ú °³¹ß |
|