
Stability AI CTO Tom Mason 認為,AIGC 的下一波浪潮將是音視頻和 3D
整整一年,AI 繪畫的話題熱度不減。人們驚異于大模型做起了「畫師」,這讓 AIGC(AI 生成內容)成為了熱門的資本賽道?!赶乱徊ɡ顺笨隙ㄊ且曨l、音頻和 3D 內容,」Stability AI 的 CTO Tom Mason 堅定地認為,他們目前正在全力研究生成視頻和音頻的相關模型。
將 AI 繪畫推向高潮的是 Stable Diffusion,一個前所未有的開源模型,對所有人開放、能夠又快又好地生成圖畫。它的誕生路徑也與眾不同:源于開源社區,而非大公司。它的主要推動者是 Stability AI。公司將自己作為社區的貢獻者之一,并希望探索出一條開源、AI 模型、社區共同前進的道路。
Stability AI 成立于 2019 年,不到三年已經成為估值超 10 億美元的獨角獸。Stability AI 專注于生成模型,認為它在未來會成為互聯網的重要組成部分。如果說上一代 AI 算法帶來的是廣告推薦,那么「生成式 AI 正在做的,就是讓消費者成為創作者,給他們創作他們自己消費的媒體內容的能力」。
今年的 IF 2023,極客公園邀請了 Stability AI 的 CTO(首席技術官)Tom Mason,他以自己的視角分享了 AIGC 從默默無聞到突然爆發的全過程,并對 AIGC 未來影響世界的方式給出了自己的預測。以下是他在大會上的分享實錄,經極客公園整理發布。
(在極客公園創新大會 IF 2023 現場,極客公園創新業務總監 Ashley 對 Tom Mason 的訪談視頻進行解讀。)
01
開源是 Stability AI
的根基所在
極客公園:請簡單介紹一下,在來到 Stability AI 之前,你都有怎樣的經歷?
Tom Mason:我之前有 15 年的時間都在倫敦經營著一家科技公司,為大型汽車公司開發了很多不同的平臺,也為很多創業公司提供技術支持。在接觸 AI 和 Stability AI 之前,我從事過很多領域。
大概 2 年前,我開始和一個開源社區一起,開發一個叫做 Disco Diffusion 的 Python Notebook,用來生成動畫和圖像。那是一個很棒的社區,我和他們共事了好幾個月,一起打造了給非技術用戶使用的新工具。Python Notebook 和一個同時開發的產品,后來成為了 Dream Studio,通過這段經歷,我發現了 Stability AI,也就是現在我所在的公司。
極客公園:Stability AI 是一個怎樣的公司?
Tom Mason:Stability AI 非常堅持開源,某種程度上也是我們的根基所在。我們協助支持了大概 8 個開源社區,共計超過 10 萬名成員,他們專攻不同的模態,從語言到圖像、到音頻 、視頻和 3D。
我們會提供算力支持,并會資助一部分研究人員,我們擁有非常大的計算集群,現在我們在 AWS 上有 4000 個 A100 節點,在其他地方還有 1500 個節點。這些計算集群正在以非??斓乃俣仍黾?,我們會將資源開放給研究員們,以便他們訓練模型,這些模型最終會開源。所以可以說 Stability AI 是一個基礎平臺,它的支柱其實是這些開源社區。
同時我們內部有團隊也會給他們提供支持,建設 HPC 超算、管理這些計算集群;數據團隊會提供數據上的幫助;跨職能團隊(負責)跨社區的一些協助工作。
另外我們還有一個非常大的基礎設施部門,他們的工作主要是開發 API 和產品。我們會通過平臺網站向全世界發布 API 和我們自己打造的產品。
極客公園:開源為什么至關重要?
Tom Mason:我因為開源 AI 技術開啟了這段旅程。于我而言,開源 AI 令人驚喜到難以置信。從我自己的家里,我可以登陸開源社區,與一個包含了所有完整信息的模型交互,并使用它做一些更酷的事,在它的基礎上創建工具,這就像一次飛躍。所有這些推進了人類歷史的進程,我們正生活在這樣一個無比奇妙的時刻。這些(開源)賜予人類的,讓我們能夠去創造更美好、更偉大的事業,我也真的非常榮幸能參與到這個進程里,成為這個公司的一員,見證這個時刻的發生。
比如 Stable Diffusion 的發布,我覺得開放一個如此大規模如此復雜的模型,并不是那么一件容易想到、做到的事情,(但它真的發生了)并且帶來了創造力的爆發。
每天早上醒來,我都可以在網上看到 10 個不同的新項目,有很多人都在做一些了不起的事情,每一個小項目都有可能成為一家新公司,成為一個新的開源社區。
極客公園:Stability AI會成為像 OpenAI 一樣的機構嗎?
Tom Mason:Open AI 非常專注于 AGI(通用人工智能)。但這絕對不是我們的目標,我們想建立好的生成模型。因為生成式 AI 很有可能會產生更大的影響力。目前已經有很多理論在討論它將如何實現,特別是通過語言模型和視頻模型,以及其他的帶有時序信息的模型。
現在 AGI 不是我們關注的重點。我們只專注于構建不同模態的、好用的生成模型,用大型數據集支持這些模型的定制化,以及支持開源。這就是我們和 OpenAI 的主要區別。我們絕對百分百地致力于讓我們的模型開源,并將這項技術公開,讓全世界的人都可以不受任何限制地使用它。這絕對是一件非常重要的事情,因為這項技術是如此具有革命性。
Stable Diffusion 最新的版本公開|來源:stability AI 官網
02
AIGC 讓
消費者成為創作者
極客公園:AIGC 在這一年受到了前所未有的關注,在你看來,爆發前有哪些重要的時刻?
Tom Mason:我認為 AI 領域其中一個重要轉折點是 2017 年關于 Transformer 的論文,《Attention Is All You Need》發表。論文介紹了注意力機制的概念,這使得神經網絡變得更加普及;緊接著,基于 Transformer 網絡,圖像生成領域出現了很多研究,其中出現了擴散模型。最開始是 Latent Diffusion,現在有了 Stable Diffusion,它最初是由 CompVis 團隊開發的。
極客公園:在這個過程中,Stable Diffusion 是怎么誕生的?
Tom Mason:接下來兩個重要的轉折點,分別是數據集和算力。我們支持的其中一個項目 LAION,就專注于收集和建立海量的數據集,他們現在有 50 億圖文匹配的多語種數據集,其中 20 億是有英文標注的圖片。
在這 20 億的基礎上,我們篩選出大約 10 億數據集用于 Stable Diffusion,數據集的工作開始于 2、3 年前,每年規模都在增長,數據集的規模是非常重要的。除了 LAION 以外,并沒有其他可用的數據集擁有這樣的規模。所以當 CompVis 團隊和 LAION 團隊開始合作,這個神經網絡就誕生了。
第三個關鍵要素是算力的滿足,在這之前,學術研究人員,開源研究者們必須通過大學的網絡,或者其他提供算力資源的公司,申請算力資源。而目前 Stability AI 擁有世界上第十或第十一大的自用的超算。我們將這些資源提供給有需要的開源研究員,所以他們現在有能力訓練世界上最大的模型,與任何其他公司相競爭。這對社區的幫助非常大。讓他們能夠有資源去做研究和開發,
也因此帶來了現在發布的這些超棒的模型,我相信這個趨勢還會增長。隨著來到 2023 年,這里會涉及更多其他模態,比如視頻,模型會越來越大,數據集會越來越大,所以這個趨勢大概率會持續下去。
(Tom Mason 在 IF 2023 大會現場的分享。)
極客公園:今年,通過文字生成圖像非常引人注目,在這之后,內容生產領域還會有怎樣的變化?
Tom Mason:下一波浪潮肯定是視頻、音頻和 3D。語言模型和圖像模型的爆發和流行,實際上源于數據集的開放。我們能夠從互聯網上提取大量的文字,用它來訓練圖像模型。這其實是過去幾年,圖像和語言模型能夠爆發性發展的一個重要原因。視頻模型已經開始出現,它們同樣依賴于大規模、有標注的整潔數據集,這樣模型才能進行高效的訓練。
這是我們現在主攻的領域,音頻也是類似的。我們有一個叫 Harmonai 的團隊,正在主攻文字和音頻?,F階段通過訓練的模型輸出的結果已經非常出色,且是能夠通過文字輸入生成的,所以這是一個非常令人興奮的領域,我個人的熱情在于視頻和動畫,我在加入 Stability 之前就一直在做這方面的事情。
互聯網上并沒有足夠大量的視頻數據集和音頻數據集,這是我們的當務之急。我們應該會通過合作的形式來完成(數據集搭建)。語言模型和圖像模型的爆發和流行,實際上源于數據集的開放。我們能夠從互聯網上提取大量的文字,用它來訓練圖像模型。這其實是過去幾年,圖像和語言模型能夠爆發性發展的一個重要原因。
大量的視頻內容,是被大型電影公司和流媒體公司版權所有的,所以幫助那些公司使用他們的數據集,開發新的視頻模型,對我們來說很重要,這是我們的核心策略之一,就是讓數據變得更智能,去更好地利用好那些大多時候沒有被妥善使用的大型數據集。
極客公園:視頻內容的生成的模型什么時候會發布?
Tom Mason:毫無疑問是明年。我們現在已經有正在訓練的視頻模型了,我們也跟那些我前面提到的大數據集所有者建立了合作關系,我覺得模型的架構還需要優化,不過我們已經有了一些有趣的可選方案。
我非常期待明年年中,我們能夠做出一個不錯的視頻模型,當然是短視頻,然后慢慢向長視頻(發展),這可能需要用到多模型組合。同時,還要優化好場景融合和其他的相關技術。
我們的一個工具 Dream Studio,就是用來編輯和制作動畫的,我們其實正在研究動畫生成的 API,讓人們只用一張圖片就可以生成動畫,使用一種 2D 轉 3D 的深度估計方法。這是一個非??岬募夹g,跟視頻擴散有一點區別,我們會在明年早些時候發布,讓用戶體驗。視頻擴散則會在明年晚些時候發布。
我非常期待有一天,我們能夠打造出動畫和視頻擴散(模型)的工具。3D 也是,明年會成為一個熱門領域。我們已經看到很多包含 NeRF(注:一種將 2D 圖像轉 3D 模型)的管線,允許我們創建 3D 模型和資產。通過文本管線、文生圖、2D 轉 3D,或者攝影作品里的環境通過 NeRF 轉換成 3D 模型。這些管線目前(生成速度)還非常慢,但他們正在快速地提升效率。
極客公園:視頻、3D 的生產模型會給人們帶來怎樣的全新體驗?
Tom Mason:用戶應該很快就可以通過這些生成式管線,在 VR 或游戲場景里創建 3D 資產了。這會是一件很重要的事情,它幾乎會立刻讓你想到元宇宙。在里面可以創建你自己的環境,玩家只要口述他們希望沉浸在什么樣的游戲資產或環境中就可以了。這會非常令人興奮。
我想我們中很多人都想象過。在 VR 里,圍繞我們的整個環境都是(自動)生成的。玩家能夠完全掌控音樂、3D 資產和環境氛圍,這樣你就能完全掌控你的體驗。這與當下行業里生成式 AI 取得的進展非常契合。生成式 AI 正在做的,就是讓消費者成為創作者,給他們創作他們自己消費的媒體內容的能力。它會是一個非常令人興奮的時刻。
極客公園:目前,生成 3D 內容有哪些挑戰?
Tom Mason:就當下的 3D(內容生成)而言,我覺得挑戰主要是生成的時間,以及分辨率。這二者是相關聯的,NeRF 模型越精確,跑起來就越慢,如果考慮什么是圖像模型最令人驚艷的進展,就是生成時間(縮短)。
一年前,生成一張高分辨率的圖片可能會需要幾分鐘,2、3 分鐘或者 4 分鐘才能生成完成。但比如通過跑在我們 API 上的 Stable Diffusion,只需要差不多 2-3 秒的時間,所以在性能表現上有成數量級的進步。這也就是為什么,這個模型可以如此成功,因為它足夠小,生成得可以足夠快。因此它能夠跑在本地的 GPU 上,同時速度也更快。
所以我們需要看到,在 3D 內容生成領域也需要有類似這樣的突破,通過一張照片生成一個還不錯的網格模型,現在大概需要 10 分鐘左右,對想要將其嵌入創作體驗的普通用戶來說太慢了,人們想要的是能夠快速響應的創作工具。
所以我覺得我們需要專注解決這個問題。
極客公園:那視頻生成模型的技術成熟度如何?
Tom Mason:我有信心它的進展會快很多。我們已經看到一些新的采樣技術和模型架構,能大大縮短推理時間。圖像模型構成了視頻模型的核心。某種程度上,視頻模型是在圖像模型基礎上增加了時序信息,所以只要我們把圖像模型做得更小,那么視頻模型也可以變得更高效,這是視頻領域研究比較明確的方向。
我覺得我們有挺大概率在明年年底實現視頻實時(生成)。我能看到視頻的圖像推理時間在明年很快就可以達到至少 1 秒 1 幀的速度,然后到年底的時候達到實時輸出的流暢度,3D 就會相對遙遠一些,這取決于技術的迭代情況。但毫無疑問,我們會與包括英偉達在內的很多公司,共同在 3D 內容生成領域持續堅定地投入。
Stability AI 官網
03
Stability AI
是社區的一員
極客公園:你提到 Stability AI堅持開源,支持了 8 個開源社區,開源社區的運作是怎樣的?
Tom Mason:我們開源社區的運作模式,與 Linux 以及其他大家熟悉的開源項目是類似的,唯才是用。通過 Git 管理(社區成員)對代碼庫的貢獻,社區成員互相審核代碼,一旦審核通過,就可以合并到主干。
對于我們支持的開源社區,我們資助了一些能夠帶領社區的研究人員,這也使他們能夠全職地參與到項目里。許多從事這些項目的人都是利用業余時間做的,又或者是在攻讀大學學位或博士學位時做的。他們中的許多人即使想全職投入項目的工作,但現實也無法讓他們做到。我們資助了一些項目核心研究人員,讓他們能夠完全把精力投入到這個項目中。
當然,我們也是在非常確定這個人是對社區至關重要的情況下才這么做。這些人要么是在創造社區方面發揮了重要作用,要么他們能夠將社員聚集在一起,總有一部分人在組織里不可或缺,扮演著粘合劑的角色。對于這些人,我們會去盡力地支持他們。
極客公園:StabilityAI 在社區里扮演怎樣的角色?
Tom Mason:我認為關鍵是,我們與社區里的其他成員并無區別。作為一家企業,我們只是社區中的一員。我們并沒有掌控它,我們只是一個貢獻者。
我想我們所有人都是這樣認為的。除此之外,我們并不想扮演其他更多的角色。作為一家企業,我們只想以積極開放的方式做出貢獻,并推動生態的改善。我想大家都很認同這一點。并且我們也希望自己能做出更多積極的貢獻。
極客公園:你們希望自己的模型能夠影響 10 億人,這會怎樣發生?
Tom Mason:一個令人激動的事實是,我們正在用大量不同的語言來訓練模型?,F在并沒有大規模的多語言生成模型,但多語言數據集出現后就不一樣了。
當下大家對于這項技術的認知并不多。我們看到模型覆蓋范圍的統計數據,它在全球的覆蓋范圍依然非常小。所以在未來的一兩年里,我們將用不同的語言來訓練模型,并讓 Stable Diffusion 兼容更多語言。我們希望可以與全球的合作伙伴一起,對我們而言與不同國家的機構合作非常重要。我們可以一起用不同語言訓練這些模型。
這并不需要把技術重新開發一遍,這實際上是對現有程序的重新應用。既然我們擁有了這些架構,我們就應該快速地將它們推廣出去。我們希望將整個模型培訓的過程和知識都分享出去,讓各個國家的合作伙伴和供應商都能掌握。這樣,在未來 12 個月內,圖像生成或許在全球各地還會再一次掀起浪潮,視頻和音頻領域也是如此。10 億這個數字可能還遠遠不夠,但這是我們當前的目標。