人工智能語(yǔ)料庫(kù)是什么？

互聯(lián)網(wǎng)時(shí)間： 2023-07-07 15:04:20

比爾·蓋茨（Bill Gates）、Reddit 首席執(zhí)行官和其他科技領(lǐng)袖越來(lái)越多地談?wù)摗罢Z(yǔ)料庫(kù)”，現(xiàn)在是時(shí)候了解它是“何方神圣”了。本文帶你深度揭秘語(yǔ)料庫(kù)以及它如何影響人工智能平臺(tái)的運(yùn)行。文章來(lái)自翻譯，希望能對(duì)你有所啟示。

得益于 ChatGPT 和類似人工智能平臺(tái)的問世與飛速發(fā)展，人工智能的崛起一直是 2023 年最引人注目的話題之一。每天都會(huì)有關(guān)于人工智能技術(shù)如何影響創(chuàng)新、工作或人類生活的新文章出現(xiàn)。

如果你一直在關(guān)注人工智能領(lǐng)域，你可能會(huì)注意到最近科技高管們經(jīng)常談?wù)摰囊粋€(gè)詞：“語(yǔ)料庫(kù)” (corpus)。Reddit（美國(guó)社交新聞?wù)军c(diǎn)）CEO、維基百科的創(chuàng)始人吉米·威爾士（Jimmy Wales）以及微軟創(chuàng)始人比爾·蓋茨都提到過。

以下是語(yǔ)料庫(kù)的含義，以及為什么它對(duì)于理解 ChatGPT 和 Midjourney 等人工智能平臺(tái)的運(yùn)行至關(guān)重要。

什么是人工智能語(yǔ)料庫(kù)？

學(xué)過拉丁語(yǔ)的人都知道“corpus”是“身體”的意思，現(xiàn)代英語(yǔ)里的“corpse”被譯為“尸體”，源自拉丁語(yǔ)“corpus”。其他人可能也認(rèn)識(shí) corpus 這個(gè)詞，因?yàn)樗诮裉烊匀贿m用于現(xiàn)存法律機(jī)制中，被譯為：人身保護(hù)令。這句話的字面意思是“你擁有人身自由權(quán)”，它確保任何被逮捕的人都有權(quán)出庭，以確定逮捕是否合法。

但當(dāng)其用于人工智能領(lǐng)域時(shí)，“語(yǔ)料庫(kù)”一詞根本不是指身體。相反，它指的是用于訓(xùn)練人工智能的文本庫(kù)或數(shù)據(jù)集合。這個(gè)語(yǔ)料庫(kù)是人工智能審查的材料，以使其在設(shè)計(jì)時(shí)變得智能。

每個(gè)人工智能平臺(tái)的語(yǔ)料庫(kù)都是不同的，因?yàn)槭侨祟悰Q定他們想要用什么樣的數(shù)據(jù)來(lái)訓(xùn)練 AI，而人類決定訓(xùn)練人工智能的語(yǔ)料庫(kù)將取決于他們希望人工智能精通哪些方面或是解決什么問題。

語(yǔ)料庫(kù)類型

語(yǔ)料庫(kù)的類型沒有限制，人工智能語(yǔ)料庫(kù)的構(gòu)成取決于人類創(chuàng)造者想讓它做什么。

以 Midjourney 為例，Midjourney（一款 2022 年 3 月面世的 AI 繪畫工具）是一個(gè)流行的生成藝術(shù)平臺(tái)，用于使用 AI 創(chuàng)建圖像。由于 Midjourney 只允許用戶使用文本提示創(chuàng)建圖像，因此它需要接受一系列圖像和相關(guān)文本描述的訓(xùn)練。例如，為了讓 Midjounry 生成瀑布的圖像，它的語(yǔ)料庫(kù)必須包含瀑布的圖像以及描述瀑布的相關(guān)文本。

還有 ChatGPT 等人工智能平臺(tái)，一種被稱為大型語(yǔ)言模型（large language model，簡(jiǎn)稱 LLM）的人工智能平臺(tái)。強(qiáng)大的 LLM 有能力基于文本數(shù)據(jù)與人類進(jìn)行對(duì)話聊天——前提是他們的語(yǔ)料庫(kù)足夠大且足夠豐富。LLM 模型可以處理多種自然語(yǔ)言任務(wù)，根據(jù)其語(yǔ)料庫(kù)所包含的內(nèi)容，它可以回答復(fù)雜的問題，甚至能夠生成原創(chuàng)作品，如短篇小說或創(chuàng)建太空射擊游戲代碼。LLM 模型的能力僅僅取決于用于訓(xùn)練人工智能的語(yǔ)料庫(kù)文本數(shù)據(jù)，它基于大量文本數(shù)據(jù)進(jìn)行訓(xùn)練以能夠理解文本的含義，并給出相應(yīng)答案。

我想知道 ChatGPT 的語(yǔ)料庫(kù)是由什么組成的，所以我直接問了它?！癈hatGPT 語(yǔ)料庫(kù)是由大量互聯(lián)網(wǎng)文本數(shù)據(jù)組成，包括網(wǎng)站、書籍、文章和其他公開來(lái)源。”它回答說。由于不滿足于這個(gè)相當(dāng)模糊的答案，我要求 ChatGPT 詳細(xì)說明其語(yǔ)料庫(kù)中的數(shù)據(jù)類型，這次 ChatGPT 的回答更加詳細(xì)了：

網(wǎng)站：來(lái)自不同領(lǐng)域和主題的網(wǎng)站文本。

書籍：涵蓋各種類型和主題的書籍文本。

文章：來(lái)自新聞文章、雜志特寫和博客文章的相關(guān)文本。

研究論文：來(lái)自科學(xué)論文和出版物的相關(guān)文本。

會(huì)話數(shù)據(jù)：來(lái)自對(duì)話和互動(dòng)的多回合文本。

社交媒體：來(lái)自 Twitter、Reddit 和其他在線論壇等平臺(tái)的文本。

維基百科：維基百科文章中涵蓋眾多主題的文本。

注意 ChatGPT 語(yǔ)料庫(kù)并不包括圖像，其不具備圖像處理能力。這是因?yàn)?ChaptGPT 是一個(gè)基于文本的 AI 生成器，它不能生成圖像，因?yàn)樗恼Z(yǔ)料庫(kù)從來(lái)沒有包含任何可以訓(xùn)練圖像的文本數(shù)據(jù)。

Midjourney 和 ChatGPT 的文本數(shù)據(jù)只是構(gòu)成語(yǔ)料庫(kù)的兩個(gè)例子，實(shí)際上語(yǔ)料庫(kù)可以由任何類型的數(shù)據(jù)組成。例如，如果你想制作一個(gè)可以創(chuàng)作音樂的 AI 平臺(tái)，你只需要在它的語(yǔ)料庫(kù)中介入音頻歌曲相關(guān)的文本數(shù)據(jù)即可。或者，如果你想要一個(gè)能夠以海明威風(fēng)格寫小說的人工智能，你可以使用一個(gè)只包含海明威書面作品的語(yǔ)料庫(kù)。

語(yǔ)料庫(kù)是否合法？

如果你沒有一個(gè)語(yǔ)料庫(kù)來(lái)訓(xùn)練 AI，AI 就無(wú)法學(xué)習(xí)。你的語(yǔ)料庫(kù)越大，AI 就會(huì)變得越熟練、越智能。但是，當(dāng)涉及到版權(quán)和知識(shí)產(chǎn)權(quán)法時(shí)，人工智能語(yǔ)料庫(kù)可能就會(huì)存在很大的漏洞。

用受版權(quán)保護(hù)的內(nèi)容數(shù)據(jù)訓(xùn)練人工智能，這樣的做法是否違反法律呢？例如，如果我創(chuàng)造了一個(gè)可以生成類似 Banksy（注：英國(guó)著名藝術(shù)家）藝術(shù)品的人工智能平臺(tái)，該平臺(tái)基于 Banksy 的作品語(yǔ)料庫(kù)來(lái)訓(xùn)練 AI，這是否侵犯了 Banksy 的版權(quán)或知識(shí)產(chǎn)權(quán)？我所創(chuàng)造的 AI 并沒有直接“盜用”他的作品，只是復(fù)制他的風(fēng)格，所以這是否仍然構(gòu)成侵權(quán)呢？再比如，假設(shè)我創(chuàng)建了一個(gè)包含蕾哈娜歌曲語(yǔ)料庫(kù)的 AI 程序平臺(tái)，它可以使用蕾哈娜的聲音或與之接近的聲音生成全新的原創(chuàng)歌曲，這合法嗎？

今年早些時(shí)候，由 AI 生成的模仿加拿大歌手德雷克（Drake）和歌手“盆栽”（The Weeknd）創(chuàng)作的新歌“Heart On My Sleeve”爆火并傳播到了多個(gè)平臺(tái)后，環(huán)球音樂集團(tuán)（Universal Music Group）發(fā)表聲明嚴(yán)厲譴責(zé)這首歌是“用生成式人工智能創(chuàng)作的侵權(quán)內(nèi)容”。但使用人工智能工具的創(chuàng)作者可能并不這樣認(rèn)為。最終，無(wú)論是人工智能生成的音頻、視頻還是基于文本的媒體，隨著 ChatGPT 和 Midjourney 等生成式人工智能程序越來(lái)越普及，“AI 是否侵權(quán)”這個(gè)問題很可能會(huì)在未來(lái)幾年仍然需要進(jìn)一步的探討和研究。

與此同時(shí)，各國(guó)政府已經(jīng)在計(jì)劃立法來(lái)監(jiān)管生成人工智能模型。例如，歐盟正在提議一項(xiàng)法律，要求人工智能所有者披露人工智能語(yǔ)料庫(kù)是否包含受版權(quán)保護(hù)的內(nèi)容。這種透明度將使版權(quán)持有人更容易識(shí)別自己的作品被用于哪些語(yǔ)料庫(kù)，從而尋求賠償。

在美國(guó)，國(guó)會(huì)研究服務(wù)處（Congressional Research Service）最近向國(guó)會(huì)建議，在更新版權(quán)立法之前，它可能更希望采取“采取觀望態(tài)度”，建議國(guó)會(huì)監(jiān)測(cè)法院在未來(lái)幾年關(guān)于人工智能印發(fā)的版權(quán)案件的反應(yīng)。

將出售語(yǔ)料庫(kù)作為收入來(lái)源

當(dāng)然，無(wú)論如何，一些內(nèi)容創(chuàng)作者會(huì)選擇接受人工智能為其提供的創(chuàng)收機(jī)會(huì)。比方說，一位在世的畫家想賺些外快，她可非常容易地將自己的作品集打包在一個(gè)語(yǔ)料庫(kù)中，并將其使用權(quán)出售給生成式人工智能公司。正如歌手格萊姆斯（Grimes）已經(jīng)提出的那樣，作家可以出售他們的小說集；雜志出版商可以出售過期雜志；歌手可以出售他們的人聲語(yǔ)料庫(kù)，或者要求 AI 基于他們的語(yǔ)料庫(kù)生成的作品中獲得一部分抽成。

如果埃隆·馬斯克（Elon Musk）想為日漸走下坡路的 Twitter 帶來(lái)新的收入來(lái)源，他可能會(huì)考慮將該平臺(tái)上的所有推文打包成一個(gè)語(yǔ)料庫(kù)，出售給人工智能初創(chuàng)公司。Meta 的 Facebook 也將從中找到新的收入來(lái)源，前提是 Twitter 和 Meta 可以聲稱擁有帖子的所有權(quán)。事實(shí)上，Reddit 的用戶帖子語(yǔ)料庫(kù)已經(jīng)被用來(lái)幫助訓(xùn)練 ChatGPT 了，在最近接受《紐約時(shí)報(bào)》采訪時(shí)，Reddit 首席執(zhí)行官史蒂夫·霍夫曼（Steve Huffman）表示，他知道這個(gè)語(yǔ)料庫(kù)的價(jià)值?！癛eddit 的數(shù)據(jù)庫(kù)非常有價(jià)值，但我們不需要把所有這些價(jià)值免費(fèi)提供給世界上一些知名的公司?！被舴蚵f道。

從這個(gè)意義上說，隨著越來(lái)越多的公司向人工智能領(lǐng)域擴(kuò)張，強(qiáng)大的預(yù)包裝語(yǔ)料庫(kù)在科技界的地位可能會(huì)變得與淘金熱礦工的鎬一樣重要，一個(gè)全新的語(yǔ)料庫(kù)銷售產(chǎn)業(yè)可能會(huì)隨之誕生。

如果是這樣的話，在未來(lái)的幾個(gè)月和幾年里， “語(yǔ)料庫(kù)”將成為人工智能領(lǐng)域的常談話題。

上一頁(yè)： SteamVR 1.26版，可自動(dòng)重新綁定游戲控制器

：下一頁(yè) AI 伴侶將至你準(zhǔn)備好了嗎？

本文標(biāo)題：人工智能語(yǔ)料庫(kù)是什么？

本文地址： http://www.eat023.com/brand/news-f228k067ce.html

內(nèi)容均來(lái)源于網(wǎng)絡(luò)，錯(cuò)誤糾正或刪除請(qǐng)發(fā)郵件，收件郵箱kefu@huangye88.com