過去十年對于人工智能(AI)領(lǐng)域來說是一段激動人心的多事之秋。對深度學(xué)習(xí)潛力的適度探索變成了一個領(lǐng)域的爆炸性擴散,現(xiàn)在包括從電子商務(wù)中的推薦系統(tǒng)到自動駕駛汽車的對象檢測以及可以創(chuàng)建從逼真的圖像到連貫文本的所有內(nèi)容的生成模型。
在本文中,我們將沿著記憶之路漫步,并重新審視使我們走到今天這一步的一些關(guān)鍵突破。無論您是經(jīng)驗豐富的AI從業(yè)者,還是只是對該領(lǐng)域的最新發(fā)展感興趣,本文都將為您提供有關(guān)使AI成為家喻戶曉的顯著進展的全面概述。
2013年:AlexNet和變分自動編碼器
2013年被廣泛認(rèn)為是深度學(xué)習(xí)的“成年”,由計算機視覺的重大進步發(fā)起。根據(jù)Geoffrey Hinton最近的采訪,到2013年,“幾乎所有的計算機視覺研究都轉(zhuǎn)向了神經(jīng)網(wǎng)絡(luò)”。這一繁榮主要是由一年前圖像識別方面相當(dāng)令人驚訝的突破推動的。
2012 年 5 月,深度卷積神經(jīng)網(wǎng)絡(luò) (CNN) AlexNet 在 ImageNet 大規(guī)模視覺識別挑戰(zhàn)賽 (ILSVRC) 中取得了破紀(jì)錄的表現(xiàn),展示了深度學(xué)習(xí)在圖像識別任務(wù)中的潛力。它實現(xiàn)了15.3%的前10名錯誤,比最接近的競爭對手低9.<>%。
這一成功背后的技術(shù)改進有助于人工智能的未來發(fā)展軌跡,并極大地改變了人們對深度學(xué)習(xí)的看法。
首先,作者應(yīng)用了一個由五個卷積層和三個全連接線性層組成的深度CNN——這種架構(gòu)設(shè)計在當(dāng)時被許多人認(rèn)為是不切實際的。此外,由于網(wǎng)絡(luò)深度產(chǎn)生的大量參數(shù),訓(xùn)練是在兩個圖形處理單元(GPU)上并行完成的,展示了顯著加速大型數(shù)據(jù)集訓(xùn)練的能力。通過將傳統(tǒng)的激活函數(shù)(如 sigmoid 和 tanh)換成更高效的整流線性單元 (ReLU),進一步縮短了訓(xùn)練時間。
這些共同導(dǎo)致了AlexNet成功的進步標(biāo)志著人工智能歷史上的一個轉(zhuǎn)折點,并引發(fā)了學(xué)術(shù)界和技術(shù)界對深度學(xué)習(xí)的興趣激增。因此,2013年被許多人認(rèn)為是深度學(xué)習(xí)真正開始起飛的拐點。
同樣發(fā)生在2013年的,盡管有點被AlexNet的噪音淹沒了,但變分自動編碼器(VAE)的發(fā)展 - 可以學(xué)習(xí)表示和生成圖像和聲音等數(shù)據(jù)的生成模型。它們通過在低維空間(稱為潛在空間)中學(xué)習(xí)輸入數(shù)據(jù)的壓縮表示來工作。這允許他們通過從這個學(xué)習(xí)到的潛在空間中采樣來生成新數(shù)據(jù)。后來,VAE為生成建模和數(shù)據(jù)生成開辟了新的途徑,在藝術(shù)、設(shè)計和游戲等領(lǐng)域都有應(yīng)用。
2014年:生成對抗網(wǎng)絡(luò)
第二年,即2014年<>月,隨著Ian Goodfellow及其同事引入生成對抗網(wǎng)絡(luò)(GAN),深度學(xué)習(xí)領(lǐng)域見證了另一項重大進展。
GAN 是一種神經(jīng)網(wǎng)絡(luò),能夠生成類似于訓(xùn)練集的新數(shù)據(jù)樣本。本質(zhì)上,兩個網(wǎng)絡(luò)同時訓(xùn)練:(1)生成器網(wǎng)絡(luò)生成假的或合成的樣本,(2)鑒別器網(wǎng)絡(luò)評估它們的真實性。這種訓(xùn)練是在類似游戲的設(shè)置中進行的,生成器試圖創(chuàng)建欺騙鑒別器的樣本,而鑒別器試圖正確調(diào)用假樣本。
當(dāng)時,GAN 代表了一種強大而新穎的數(shù)據(jù)生成工具,不僅用于生成圖像和視頻,還用于生成音樂和藝術(shù)。他們還通過展示在不依賴顯式標(biāo)簽的情況下生成高質(zhì)量數(shù)據(jù)樣本的可能性,為無監(jiān)督學(xué)習(xí)的進步做出了貢獻,這個領(lǐng)域在很大程度上被認(rèn)為是不發(fā)達和具有挑戰(zhàn)性的。
2015年:ResNets和NLP突破
2015年,人工智能領(lǐng)域在計算機視覺和自然語言處理(NLP)方面取得了相當(dāng)大的進步。
Kaim He及其同事發(fā)表了一篇題為“圖像識別的深度殘差學(xué)習(xí)”的論文,其中他們介紹了殘差神經(jīng)網(wǎng)絡(luò)或ResNets的概念 - 通過添加快捷方式使信息更容易地流經(jīng)網(wǎng)絡(luò)的架構(gòu)。與常規(guī)神經(jīng)網(wǎng)絡(luò)不同,在常規(guī)神經(jīng)網(wǎng)絡(luò)中,每一層都將前一層的輸出作為輸入,而在 ResNet 中,添加了額外的殘差連接,這些連接跳過一個或多個層并直接連接到網(wǎng)絡(luò)中的更深層。
結(jié)果,ResNets能夠解決梯度消失的問題,這使得訓(xùn)練更深層次的神經(jīng)網(wǎng)絡(luò)超出了當(dāng)時的預(yù)期。這反過來又導(dǎo)致了圖像分類和對象識別任務(wù)的顯著改進。
大約在同一時間,研究人員在遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和長短期記憶(LSTM)模型的開發(fā)方面取得了相當(dāng)大的進展。盡管這些模型自 1990 年代以來一直存在,但直到 2015 年左右才開始引起一些轟動,主要是由于以下因素:(1) 更大、更多樣化的數(shù)據(jù)集可用于訓(xùn)練,(2) 計算能力和硬件的改進,這使得訓(xùn)練更深入、更復(fù)雜的模型成為可能,以及 (3) 在此過程中進行的修改, 例如更復(fù)雜的門控機制。
因此,這些架構(gòu)使語言模型能夠更好地理解文本的上下文和含義,從而在語言翻譯、文本生成和情感分析等任務(wù)方面取得了巨大的改進。當(dāng)時RNN和LSTM的成功為我們今天看到的大型語言模型(LLM)的發(fā)展鋪平了道路。
2016: 阿爾法圍棋 (電影)
在1997年加里·卡斯帕羅夫(Garry Kasparov)被IBM的深藍(Deep Blue)擊敗后,另一場人與機器的戰(zhàn)斗在2016年給游戲界帶來了沖擊波:谷歌的AlphaGo擊敗了圍棋的世界冠軍李世石(Lee Sedol)。
世石的失敗標(biāo)志著人工智能發(fā)展軌跡上的另一個重要里程碑:它表明,在一個曾經(jīng)被認(rèn)為過于復(fù)雜以至于計算機無法處理的游戲中,機器甚至可以勝過最熟練的人類玩家。AlphaGo結(jié)合了深度強化學(xué)習(xí)和蒙特卡洛樹搜索,分析了以前游戲中的數(shù)百萬個位置,并評估了最佳可能的行動——在這種情況下,這種策略遠(yuǎn)遠(yuǎn)超過了人類的決策。
2017年:轉(zhuǎn)換器體系結(jié)構(gòu)和語言模型
可以說,2017年是最關(guān)鍵的一年,為我們今天目睹的生成AI的突破奠定了基礎(chǔ)。
2017年<>月,Vaswani及其同事發(fā)布了基礎(chǔ)論文“注意力就是你所需要的一切”,該論文介紹了利用自我注意的概念來處理順序輸入數(shù)據(jù)的轉(zhuǎn)換器架構(gòu)。這允許更有效地處理遠(yuǎn)程依賴關(guān)系,這在以前是傳統(tǒng)RNN架構(gòu)的挑戰(zhàn)。
變壓器由兩個基本組件組成:編碼器和解碼器。編碼器負(fù)責(zé)對輸入數(shù)據(jù)進行編碼,例如,輸入數(shù)據(jù)可以是單詞序列。然后,它采用輸入序列并應(yīng)用多層自我注意和前饋神經(jīng)網(wǎng)絡(luò)來捕獲句子中的關(guān)系和特征,并學(xué)習(xí)有意義的表示。
從本質(zhì)上講,自我注意允許模型理解句子中不同單詞之間的關(guān)系。與以固定順序處理單詞的傳統(tǒng)模型不同,轉(zhuǎn)換器實際上一次檢查所有單詞。他們根據(jù)每個單詞與句子中其他單詞的相關(guān)性為每個單詞分配稱為注意力分?jǐn)?shù)的東西。
另一方面,解碼器從編碼器獲取編碼表示并生成輸出序列。在機器翻譯或文本生成等任務(wù)中,解碼器根據(jù)從編碼器接收的輸入生成翻譯后的序列。與編碼器類似,解碼器也由多層自我注意和前饋神經(jīng)網(wǎng)絡(luò)組成。但是,它包括一個額外的注意力機制,使其能夠?qū)W⒂诰幋a器的輸出。然后,這允許解碼器在生成輸出時考慮來自輸入序列的相關(guān)信息。
此后,轉(zhuǎn)換器架構(gòu)已成為LLM開發(fā)的關(guān)鍵組件,并在整個NLP領(lǐng)域帶來了重大改進,例如機器翻譯,語言建模和問答。
2018年:GPT-1,BERT和圖形神經(jīng)網(wǎng)絡(luò)
在Vaswani等人發(fā)表他們的基礎(chǔ)論文幾個月后,OpenAI于1年2018月推出了Generative P再訓(xùn)練Transformer或GPT-1,它利用轉(zhuǎn)換器架構(gòu)有效地捕獲文本中的長期依賴關(guān)系。GPT-<> 是最早證明無監(jiān)督預(yù)訓(xùn)練有效性的模型之一,然后對特定的 NLP 任務(wù)進行微調(diào)。
谷歌也利用了仍然相當(dāng)新穎的變壓器架構(gòu),它在2018年底發(fā)布并開源了他們自己的預(yù)訓(xùn)練方法,稱為Bidirectional Encoder R來自Transformers或BERT的演示。與以前以單向方式處理文本的模型(包括 GPT-1)不同,BERT 同時考慮每個單詞在兩個方向上的上下文。為了說明這一點,作者提供了一個非常直觀的示例:
。在句子“我訪問了銀行賬戶”中,單向上下文模型將表示 基于“我訪問了”而不是“賬戶”的“銀行”。但是,BERT 使用其上一個和下一個上下文表示“銀行”——“我訪問了......帳戶“——從深度神經(jīng)網(wǎng)絡(luò)的最底部開始,使其深度雙向。
雙向性的概念是如此強大,以至于它使BERT在各種基準(zhǔn)任務(wù)上優(yōu)于最先進的NLP系統(tǒng)。
除了GPT-1和BERT,圖神經(jīng)網(wǎng)絡(luò)或GNNs在那一年也引起了一些轟動。它們屬于專門設(shè)計用于處理圖形數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)類別。GNN 利用消息傳遞算法在圖形的節(jié)點和邊緣之間傳播信息。這使網(wǎng)絡(luò)能夠以更直觀的方式學(xué)習(xí)數(shù)據(jù)的結(jié)構(gòu)和關(guān)系。
這項工作允許從數(shù)據(jù)中提取更深入的見解,從而擴大了深度學(xué)習(xí)可以應(yīng)用于的問題范圍。有了GNN,在社交網(wǎng)絡(luò)分析、推薦系統(tǒng)和藥物發(fā)現(xiàn)等領(lǐng)域取得了重大進展。
2019 年:GPT-2 和改進的生成模型
2019 年標(biāo)志著生成模型的幾項顯著進步,尤其是 GPT-2 的引入。該模型在許多NLP任務(wù)中實現(xiàn)了最先進的性能,并且能夠生成高度逼真的文本,事后看來,這確實使同行望而卻步。
該領(lǐng)域的其他改進包括DeepMind的BigGAN和NVIDIA的StyleGAN,它可以生成與真實圖像幾乎無法區(qū)分的高質(zhì)量圖像,以及NVIDIA的StyleGAN,它可以更好地控制這些生成的圖像的外觀。
總的來說,現(xiàn)在被稱為生成人工智能的這些進步進一步推動了這一領(lǐng)域的界限,而且......
2020 年:GPT-3 和自監(jiān)督學(xué)習(xí)
...不久之后,另一種模型誕生了,即使在技術(shù)社區(qū)之外,它也已成為家喻戶曉的名字:GPT-3。該模型代表了LLM的規(guī)模和能力的重大飛躍。為了將事情放在上下文中,GPT-1 具有可憐的 117.1 億個參數(shù)。GPT-5 的這一數(shù)字上升到 2 億,GPT-175 的這一數(shù)字上升到 3 億。
大量的參數(shù)空間使 GPT-3 能夠在各種提示和任務(wù)中生成非常連貫的文本。它還在各種NLP任務(wù)中表現(xiàn)出令人印象深刻的表現(xiàn),例如文本完成,問答,甚至創(chuàng)意寫作。
此外,GPT-3 再次強調(diào)了使用自監(jiān)督學(xué)習(xí)的潛力,它允許在大量未標(biāo)記的數(shù)據(jù)上訓(xùn)練模型。這樣做的好處是,這些模型可以獲得對語言的廣泛理解,而無需進行廣泛的特定于任務(wù)的訓(xùn)練,這使得它更加經(jīng)濟。
從蛋白質(zhì)折疊到圖像生成和自動編碼輔助,2021 年是多事之秋,這要歸功于 AlphaFold 2、DALL·E和GitHub Copilot。
AlphaFold 2被譽為數(shù)十年來的蛋白質(zhì)折疊問題的長期解決方案。DeepMind的研究人員擴展了變壓器架構(gòu),以創(chuàng)建evoformer塊 - 利用進化策略進行模型優(yōu)化的架構(gòu) - 以構(gòu)建能夠根據(jù)其3D氨基酸序列預(yù)測蛋白質(zhì)1D結(jié)構(gòu)的模型。這一突破具有巨大的潛力,可以徹底改變藥物發(fā)現(xiàn)、生物工程等領(lǐng)域,以及我們對生物系統(tǒng)的理解。
OpenAI今年也再次登上新聞,發(fā)布了DALL·E. 從本質(zhì)上講,該模型結(jié)合了 GPT 樣式語言模型和圖像生成的概念,以便從文本描述中創(chuàng)建高質(zhì)量的圖像。
為了說明這個模型有多強大,請考慮下面的圖像,它是在提示“飛行汽車的未來世界油畫”下生成的。
最后,GitHub發(fā)布了后來成為每個開發(fā)人員最好的朋友的東西:Copilot。這是與OpenAI合作實現(xiàn)的,OpenAI提供了底層語言模型Codex,該模型在大量公開可用的代碼語料庫上進行訓(xùn)練,進而學(xué)會了理解和生成各種編程語言的代碼。開發(fā)人員只需提供代碼注釋即可使用Copilot,說明他們試圖解決的問題,然后模型將建議代碼來實現(xiàn)解決方案。其他功能包括用自然語言描述輸入代碼以及在編程語言之間翻譯代碼的能力。
2022 年:聊天GPT 和穩(wěn)定擴散
人工智能在過去十年中的快速發(fā)展最終帶來了突破性的進步:OpenAI 的 ChatGPT,這是一款聊天機器人,于 2022 年 <> 月發(fā)布到野外。該工具代表了NLP領(lǐng)域的一項前沿成就,能夠?qū)Ω鞣N查詢和提示生成連貫且上下文相關(guān)的響應(yīng)。此外,它可以參與對話,提供解釋,提供創(chuàng)造性建議,協(xié)助解決問題,編寫和解釋代碼,甚至模擬不同的個性或?qū)懽黠L(fēng)格。
人們可以與機器人交互的簡單直觀的界面也刺激了可用性的急劇上升。以前,主要是技術(shù)社區(qū)會玩弄最新的基于人工智能的發(fā)明。然而,如今,人工智能工具幾乎滲透到每個專業(yè)領(lǐng)域,從軟件工程師到作家、音樂家和廣告商。許多公司還使用該模型來自動化服務(wù),例如客戶支持、語言翻譯或回答常見問題解答。事實上,我們看到的自動化浪潮重新引發(fā)了一些擔(dān)憂,并激發(fā)了關(guān)于哪些工作可能面臨自動化風(fēng)險的討論。
盡管 ChatGPT 在 2022 年占據(jù)了大部分風(fēng)頭,但在圖像生成方面也取得了重大進展。穩(wěn)定擴散是一種潛在的文本到圖像擴散模型,能夠從文本描述中生成逼真的圖像,由Stability AI發(fā)布。
穩(wěn)定擴散是傳統(tǒng)擴散模型的擴展,傳統(tǒng)擴散模型的工作原理是迭代地向圖像添加噪聲,然后逆轉(zhuǎn)恢復(fù)數(shù)據(jù)的過程。它旨在通過不直接在輸入圖像上操作,而是在它們的低維表示或潛在空間上操作來加速此過程。此外,通過將變壓器嵌入的文本提示從用戶添加到網(wǎng)絡(luò)來修改擴散過程,使其能夠在每次迭代中指導(dǎo)圖像生成過程。
總體而言,2022 年 ChatGPT 和穩(wěn)定擴散的發(fā)布凸顯了多模式、生成式 AI 的潛力,并引發(fā)了該領(lǐng)域進一步發(fā)展和投資的巨大推動力。
2023年:法學(xué)碩士和機器人
毫無疑問,今年已成為LLM和聊天機器人的一年。越來越多的模型正在以快速增長的速度開發(fā)和發(fā)布。
例如,24 月 3 日,Meta AI 發(fā)布了 LLaMA——盡管參數(shù)數(shù)量要少得多,但在大多數(shù)基準(zhǔn)測試中性能優(yōu)于 GPT-14 的 LLM。不到一個月后,即 4 月 3 日,OpenAI 發(fā)布了 GPT-4——GPT-<> 的更大、功能更強大、多模式版本。雖然 GPT-<> 的確切參數(shù)數(shù)量未知,但據(jù)推測為數(shù)萬億。
15月21日,斯坦福大學(xué)的研究人員發(fā)布了Alpaca,這是一種輕量級語言模型,由LLaMA在教學(xué)演示中進行了微調(diào)。幾天后,在2月10日,谷歌推出了ChatGPT的競爭對手:巴德。谷歌也剛剛在本月<>月<>日早些時候發(fā)布了最新的LLM,PaLM-<>。隨著該領(lǐng)域無情的發(fā)展步伐,在您閱讀本文時,很可能已經(jīng)出現(xiàn)了另一種模型。
我們也看到越來越多的公司將這些模型整合到他們的產(chǎn)品中。例如,Duolingo宣布了其GPT-4驅(qū)動的Duolingo Max,這是一個新的訂閱層,旨在為每個人提供量身定制的語言課程。Slack還推出了一個名為Slack GPT的人工智能助手,它可以做一些事情,比如起草回復(fù)或總結(jié)線程。此外,Shopify在公司的Shop應(yīng)用程序中引入了一個由ChatGPT驅(qū)動的助手,該應(yīng)用程序可以幫助客戶使用各種提示來識別所需的產(chǎn)品。
有趣的是,人工智能聊天機器人現(xiàn)在甚至被認(rèn)為是人類治療師的替代品。例如,美國聊天機器人應(yīng)用程序Replika為用戶提供了一個“關(guān)心的AI伴侶,總是在這里傾聽和交談,總是站在你身邊”。其創(chuàng)始人尤金妮婭·庫伊達(Eugenia Kuyda)表示,該應(yīng)用程序擁有各種各樣的客戶,從自閉癥兒童,他們將其作為“在人類互動之前熱身”的一種方式,到孤獨的成年人,他們只是需要朋友。
在我們結(jié)束之前,我想強調(diào)一下過去十年人工智能發(fā)展的高潮:人們實際上正在使用Bing!今年早些時候,微軟推出了其GPT-4驅(qū)動的“網(wǎng)絡(luò)副駕駛”,該副駕駛已針對搜索進行了定制,并且首次在...永遠(yuǎn)(?)已經(jīng)成為谷歌在搜索業(yè)務(wù)中長期統(tǒng)治地位的有力競爭者。
回顧和展望
當(dāng)我們回顧過去十年的人工智能發(fā)展時,很明顯,我們一直在見證一種轉(zhuǎn)變,這對我們的工作、業(yè)務(wù)和互動方式產(chǎn)生了深遠(yuǎn)的影響。最近在生成模型,特別是LLM方面取得的大多數(shù)重大進展似乎都堅持“越大越好”的普遍信念,指的是模型的參數(shù)空間。這在 GPT 系列中尤其明顯,它從 117.1 億個參數(shù) (GPT-4) 開始,在每個連續(xù)模型增加大約一個數(shù)量級后,最終產(chǎn)生具有潛在數(shù)萬億個參數(shù)的 GPT-<>。
然而,根據(jù)最近的一次采訪,OpenAI首席執(zhí)行官Sam Altman認(rèn)為,我們已經(jīng)走到了“越大越好”時代的盡頭。展望未來,他仍然認(rèn)為參數(shù)計數(shù)將呈上升趨勢,但未來模型改進的主要重點將是提高模型的能力、實用性和安全性。
后者特別重要??紤]到這些強大的人工智能工具現(xiàn)在掌握在公眾手中,不再局限于研究實驗室的受控環(huán)境,現(xiàn)在比以往任何時候都更加重要的是,我們要謹(jǐn)慎行事,確保這些工具是安全的,并符合人類的最佳利益。希望我們能看到人工智能安全方面的發(fā)展和投資,就像我們在其他領(lǐng)域看到的那樣。
本文標(biāo)題: 回顧往昔 看人工智能十年發(fā)展
本文地址: http://www.eat023.com/brand/news-f5ua685e2.html
內(nèi)容均來源于網(wǎng)絡(luò),錯誤糾正或刪除請發(fā)郵件,收件郵箱kefu@huangye88.com
2009-2024 黃頁88版權(quán)所有 京ICP備2023012932號-1 │ 京公網(wǎng)安備 11010802023561號 京ICP證100626
內(nèi)容均來源于網(wǎng)絡(luò),錯誤糾正或刪除請發(fā)郵件,收件郵箱kefu@huangye88.com