翻譯|大數據新聞|編輯:況魚杰|2020-12-17 15:28:31.300|閱讀 226 次
概述:據一些人估計,訓練一個人工智能模型所產生的碳排放,相當于制造和駕駛五輛汽車在其一生中所需要的碳排放。本文作者是一名研究和開發AI模型的研究人員,對AI研究中暴漲的能源和財務成本非常熟悉。為什么AI模型會變得如此耗電,與傳統的數據中心計算有什么不同?本文將會探討一下。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
本月,谷歌逼走了一位著名的人工智能倫理研究人員,因為她對公司讓她撤回一篇研究論文表示不滿。該論文指出了語言處理人工智能的風險,這種人工智能用于谷歌搜索和其他文本分析產品中。其中的風險包括開發這類人工智能技術所帶來的巨大碳足跡。據一些人估計,訓練一個人工智能模型所產生的碳排放,相當于制造和駕駛五輛汽車在其一生中所需要的碳排放。
本文作者是一名研究和開發AI模型的研究人員,對AI研究中暴漲的能源和財務成本非常熟悉。為什么AI模型會變得如此耗電,與傳統的數據中心計算有什么不同?本文將會探討一下。
在數據中心完成的傳統數據處理工作包括視頻流、電子郵件和社交媒體。AI的計算量更大,因為它需要閱讀大量的數據,直到學會理解這些數據。與人的學習方式相比,這種訓練的效率非常低。現代人工智能使用的是人工神經網絡,它是模擬人腦神經元的數學計算。每個神經元與鄰居的連接強度是網絡的一個參數,稱為權重。為了學習如何理解語言,網絡從隨機權重開始,并調整它們,直到輸出與正確答案一致。
訓練語言網絡的一個常見方法是,從維基百科和新聞機構等網站上給它輸入大量的文本,其中一些單詞被掩蓋掉,然后讓它猜測被掩蓋掉的單詞。一個例子是 "我的狗很可愛","可愛 "這個詞被掩蓋掉了。一開始,模型會把它們全部弄錯,但是,經過多輪調整后,連接權重開始變化,并在數據中發現了模式,網絡最終變得準確。
最近的一個名為 "變形金剛雙向編碼器表示"(BERT)的模型使用了33億個英文書籍和維基百科文章中的單詞。而且,在訓練過程中,BERT對這個數據集的閱讀不是一次,而是40次。相比之下,一個普通的學說話的孩子在5歲前可能會聽到4500萬個單詞,比BERT少3000倍。
讓語言模型的構建成本更高的是,這個訓練過程在開發過程中會發生很多次。這是因為研究人員希望找到網絡的最佳結構--有多少神經元,神經元之間有多少連接,學習過程中參數的變化速度應該有多快等等。他們嘗試的組合越多,網絡達到高精度的機會就越大。相比之下,人類的大腦不需要找到一個最佳結構--它們自帶一個經過進化磨練的預建結構。
隨著公司和學術界在人工智能領域的競爭,人們面臨的壓力是如何在技術狀態上進行改進。即使在機器翻譯等困難任務上實現1%的準確性改進,也被認為是重要的,并會帶來良好的宣傳和更好的產品。但為了獲得這1%的改進,一個研究者可能要對模型進行數千次訓練,每次都用不同的結構,直到找到最好的模型。
馬薩諸塞大學阿默斯特分校的研究人員通過測量訓練過程中常用硬件的功耗,估算了開發人工智能語言模型的能源成本。他們發現,訓練一次 BERT 的碳足跡相當于一名乘客在紐約和舊金山之間飛一個來回。然而,通過使用不同的結構進行搜索--也就是說,通過使用略微不同數量的神經元、連接和其他參數對數據進行多次訓練,成本變成了相當于315名乘客,或者整架747飛機的成本。
AI模型也比它們需要的大得多,而且每年都在增長。一個類似于 BERT 的最新語言模型,叫做 GPT-2,它的網絡中有 15 億個權重。GPT-3,今年因為其高準確度而引起轟動,它有1750億個權重。
研究人員發現,擁有更大的網絡會帶來更好的準確性,即使最終只有一小部分網絡是有用的。類似的事情也發生在兒童的大腦中,當神經元連接首先被添加,然后減少,但生物大腦比計算機更節能
AI模型是在專門的硬件上進行訓練的,比如圖形處理器單元,它們比傳統的CPU消耗更多的電力。如果你擁有一臺游戲筆記本電腦,它可能有一個這樣的圖形處理器單元,以創建高級圖形,例如,玩Minecraft RTX。你可能也會注意到,它們產生的熱量比普通筆記本電腦多得多。
所有這些都意味著,開發高級人工智能模型正在增加大量的碳足跡。除非我們改用100%的可再生能源,否則人工智能的進步可能會與減少溫室氣體排放和減緩氣候變化的目標背道而馳。開發的財務成本也變得如此之高,以至于只有少數選定的實驗室能夠負擔得起,而他們將成為制定什么樣的人工智能模型得到開發的議程的人。
這對人工智能研究的未來意味著什么?事情可能并不像看起來那么暗淡。隨著更高效的訓練方法被發明出來,訓練的成本可能會下降。同樣,雖然數據中心的能源使用被預測會在近幾年爆炸式增長,但由于數據中心效率的提高,更高效的硬件和冷卻,這種情況并沒有發生。
訓練模型的成本和使用模型的成本之間也有一個權衡,所以在訓練的時候花費更多的精力來得出一個更小的模型,實際上可能會讓使用模型的成本更低。因為一個模型在它的一生中會被使用很多次,這就會增加大量的能源節約。
在實驗室的研究中,我們一直在研究如何通過共享權重,或者在網絡的多個部分使用相同的權重來使AI模型變得更小。我們稱這些網絡為shapshifter網絡,因為一組小的權重可以被重新配置成任何形狀或結構的大網絡。其他研究人員已經表明,在相同的訓練時間內,權重共享具有更好的性能。
展望未來,人工智能界應該在開發節能的訓練方案上投入更多。否則,就有可能讓人工智能被少數有能力設定議程的人所主導,包括開發什么樣的模型,用什么樣的數據來訓練它們,以及模型的用途。
慧都大數據分析平臺,將學習、推理、思考、預測、規劃等能力賦予企業數據,讓數據驅動決策,創造最高業務價值。
歡迎撥打慧都熱線023-68661681或咨詢,我們將幫您轉接大數據專業團隊,并發送相關資料給您!
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自:govtech