<sub id="jlawq"></sub><u id="jlawq"><output id="jlawq"></output></u>

        <thead id="jlawq"></thead>

      AIGC 最大獨角獸:下一個目標是席卷 10 億用戶

      摘要

      Stability AI CTO Tom Mason 認為,AIGC 的下一波浪潮將是音視頻和 3D

      整整一年,AI 繪畫的話題熱度不減。人們驚異于大模型做起了「畫師」,這讓 AIGC(AI 生成內容)成為了熱門的資本賽道?!赶乱徊ɡ顺笨隙ㄊ且曨l、音頻和 3D 內容,」Stability AI 的 CTO Tom Mason 堅定地認為,他們目前正在全力研究生成視頻和音頻的相關模型。

      AI 繪畫推向高潮的是 Stable Diffusion,一個前所未有的開源模型,對所有人開放、能夠又快又好地生成圖畫。它的誕生路徑也與眾不同:源于開源社區,而非大公司。它的主要推動者是 Stability AI。公司將自己作為社區的貢獻者之一,并希望探索出一條開源、AI 模型、社區共同前進的道路。

      Stability AI 成立于 2019 年,不到三年已經成為估值超 10 億美元的獨角獸。Stability AI 專注于生成模型,認為它在未來會成為互聯網的重要組成部分。如果說上一代 AI 算法帶來的是廣告推薦,那么「生成式 AI 正在做的,就是讓消費者成為創作者,給他們創作他們自己消費的媒體內容的能力」。

      今年的 IF 2023,極客公園邀請了 Stability AICTO首席技術官)Tom Mason,他以自己的視角分享了 AIGC 從默默無聞到突然爆發的全過程,并對 AIGC 未來影響世界的方式給出了自己的預測。以下是他在大會上的分享實錄,經極客公園整理發布。


      (在極客公園創新大會 IF 2023 現場,極客公園創新業務總監 Ashley 對 Tom Mason 的訪談視頻進行解讀。)



      01

      開源是 Stability AI 

      的根基所在



      極客公園:請簡單介紹一下,在來到 Stability AI 之前,你都有怎樣的經歷?

      Tom Mason:我之前有 15 年的時間都在倫敦經營著一家科技公司,為大型汽車公司開發了很多不同的平臺,也為很多創業公司提供技術支持。在接觸 AI 和 Stability AI 之前,我從事過很多領域。

      大概 2 年前,我開始和一個開源社區一起,開發一個叫做 Disco Diffusion 的 Python Notebook,用來生成動畫和圖像。那是一個很棒的社區,我和他們共事了好幾個月,一起打造了給非技術用戶使用的新工具。Python Notebook 和一個同時開發的產品,后來成為了 Dream Studio,通過這段經歷,我發現了 Stability AI,也就是現在我所在的公司。

      極客公園:Stability AI 是一個怎樣的公司?

      Tom Mason:Stability AI 非常堅持開源,某種程度上也是我們的根基所在。我們協助支持了大概 8 個開源社區,共計超過 10 萬名成員,他們專攻不同的模態,從語言到圖像、到音頻 、視頻和 3D。

      我們會提供算力支持,并會資助一部分研究人員,我們擁有非常大的計算集群,現在我們在 AWS 上有 4000 個 A100 節點,在其他地方還有 1500 個節點。這些計算集群正在以非??斓乃俣仍黾?,我們會將資源開放給研究員們,以便他們訓練模型,這些模型最終會開源。所以可以說 Stability AI 是一個基礎平臺,它的支柱其實是這些開源社區。

      同時我們內部有團隊也會給他們提供支持,建設 HPC 超算、管理這些計算集群;數據團隊會提供數據上的幫助;跨職能團隊(負責)跨社區的一些協助工作。

      另外我們還有一個非常大的基礎設施部門,他們的工作主要是開發 API 和產品。我們會通過平臺網站向全世界發布 API 和我們自己打造的產品。

      極客公園:開源為什么至關重要?

      Tom Mason:我因為開源 AI 技術開啟了這段旅程。于我而言,開源 AI 令人驚喜到難以置信。從我自己的家里,我可以登陸開源社區,與一個包含了所有完整信息的模型交互,并使用它做一些更酷的事,在它的基礎上創建工具,這就像一次飛躍。所有這些推進了人類歷史的進程,我們正生活在這樣一個無比奇妙的時刻。這些(開源)賜予人類的,讓我們能夠去創造更美好、更偉大的事業,我也真的非常榮幸能參與到這個進程里,成為這個公司的一員,見證這個時刻的發生。

      比如 Stable Diffusion 的發布,我覺得開放一個如此大規模如此復雜的模型,并不是那么一件容易想到、做到的事情,(但它真的發生了)并且帶來了創造力的爆發。

      每天早上醒來,我都可以在網上看到 10 個不同的新項目,有很多人都在做一些了不起的事情,每一個小項目都有可能成為一家新公司,成為一個新的開源社區。

      極客公園:Stability AI會成為像 OpenAI 一樣的機構嗎?

      Tom Mason:Open AI 非常專注于 AGI(通用人工智能)。但這絕對不是我們的目標,我們想建立好的生成模型。因為生成式 AI 很有可能會產生更大的影響力。目前已經有很多理論在討論它將如何實現,特別是通過語言模型和視頻模型,以及其他的帶有時序信息的模型。

      現在 AGI 不是我們關注的重點。我們只專注于構建不同模態的、好用的生成模型,用大型數據集支持這些模型的定制化,以及支持開源。這就是我們和 OpenAI 的主要區別。我們絕對百分百地致力于讓我們的模型開源,并將這項技術公開,讓全世界的人都可以不受任何限制地使用它。這絕對是一件非常重要的事情,因為這項技術是如此具有革命性。


      Stable Diffusion 最新的版本公開|來源:stability AI 官網



      02

      AIGC 讓

      消費者成為創作者



      極客公園:AIGC 在這一年受到了前所未有的關注,在你看來,爆發前有哪些重要的時刻?

      Tom Mason:我認為 AI 領域其中一個重要轉折點是 2017 年關于 Transformer 的論文,《Attention Is All You Need》發表。論文介紹了注意力機制的概念,這使得神經網絡變得更加普及;緊接著,基于 Transformer 網絡,圖像生成領域出現了很多研究,其中出現了擴散模型。最開始是 Latent Diffusion,現在有了 Stable Diffusion,它最初是由 CompVis 團隊開發的。

      極客公園:在這個過程中,Stable Diffusion 是怎么誕生的?

      Tom Mason:接下來兩個重要的轉折點,分別是數據集和算力。我們支持的其中一個項目 LAION,就專注于收集和建立海量的數據集,他們現在有 50 億圖文匹配的多語種數據集,其中 20 億是有英文標注的圖片。

      在這 20 億的基礎上,我們篩選出大約 10 億數據集用于 Stable Diffusion,數據集的工作開始于 2、3 年前,每年規模都在增長,數據集的規模是非常重要的。除了 LAION 以外,并沒有其他可用的數據集擁有這樣的規模。所以當 CompVis 團隊和 LAION 團隊開始合作,這個神經網絡就誕生了。

      第三個關鍵要素是算力的滿足,在這之前,學術研究人員,開源研究者們必須通過大學的網絡,或者其他提供算力資源的公司,申請算力資源。而目前 Stability AI 擁有世界上第十或第十一大的自用的超算。我們將這些資源提供給有需要的開源研究員,所以他們現在有能力訓練世界上最大的模型,與任何其他公司相競爭。這對社區的幫助非常大。讓他們能夠有資源去做研究和開發,

      也因此帶來了現在發布的這些超棒的模型,我相信這個趨勢還會增長。隨著來到 2023 年,這里會涉及更多其他模態,比如視頻,模型會越來越大,數據集會越來越大,所以這個趨勢大概率會持續下去。


      (Tom Mason 在 IF 2023 大會現場的分享。)


      極客公園:今年,通過文字生成圖像非常引人注目,在這之后,內容生產領域還會有怎樣的變化?

      Tom Mason:下一波浪潮肯定是視頻、音頻和 3D。語言模型和圖像模型的爆發和流行,實際上源于數據集的開放。我們能夠從互聯網上提取大量的文字,用它來訓練圖像模型。這其實是過去幾年,圖像和語言模型能夠爆發性發展的一個重要原因。視頻模型已經開始出現,它們同樣依賴于大規模、有標注的整潔數據集,這樣模型才能進行高效的訓練。

      這是我們現在主攻的領域,音頻也是類似的。我們有一個叫 Harmonai 的團隊,正在主攻文字和音頻?,F階段通過訓練的模型輸出的結果已經非常出色,且是能夠通過文字輸入生成的,所以這是一個非常令人興奮的領域,我個人的熱情在于視頻和動畫,我在加入 Stability 之前就一直在做這方面的事情。

      互聯網上并沒有足夠大量的視頻數據集和音頻數據集,這是我們的當務之急。我們應該會通過合作的形式來完成(數據集搭建)。語言模型和圖像模型的爆發和流行,實際上源于數據集的開放。我們能夠從互聯網上提取大量的文字,用它來訓練圖像模型。這其實是過去幾年,圖像和語言模型能夠爆發性發展的一個重要原因。

      大量的視頻內容,是被大型電影公司和流媒體公司版權所有的,所以幫助那些公司使用他們的數據集,開發新的視頻模型,對我們來說很重要,這是我們的核心策略之一,就是讓數據變得更智能,去更好地利用好那些大多時候沒有被妥善使用的大型數據集。

      極客公園:視頻內容的生成的模型什么時候會發布?

      Tom Mason:毫無疑問是明年。我們現在已經有正在訓練的視頻模型了,我們也跟那些我前面提到的大數據集所有者建立了合作關系,我覺得模型的架構還需要優化,不過我們已經有了一些有趣的可選方案。

      我非常期待明年年中,我們能夠做出一個不錯的視頻模型,當然是短視頻,然后慢慢向長視頻(發展),這可能需要用到多模型組合。同時,還要優化好場景融合和其他的相關技術。

      我們的一個工具 Dream Studio,就是用來編輯和制作動畫的,我們其實正在研究動畫生成的 API,讓人們只用一張圖片就可以生成動畫,使用一種 2D 轉 3D 的深度估計方法。這是一個非??岬募夹g,跟視頻擴散有一點區別,我們會在明年早些時候發布,讓用戶體驗。視頻擴散則會在明年晚些時候發布。

      我非常期待有一天,我們能夠打造出動畫和視頻擴散(模型)的工具。3D 也是,明年會成為一個熱門領域。我們已經看到很多包含 NeRF(注:一種將 2D 圖像轉 3D 模型)的管線,允許我們創建 3D 模型和資產。通過文本管線、文生圖、2D 轉 3D,或者攝影作品里的環境通過 NeRF 轉換成 3D 模型。這些管線目前(生成速度)還非常慢,但他們正在快速地提升效率。

      極客公園:視頻、3D 的生產模型會給人們帶來怎樣的全新體驗?

      Tom Mason:用戶應該很快就可以通過這些生成式管線,在 VR 或游戲場景里創建 3D 資產了。這會是一件很重要的事情,它幾乎會立刻讓你想到元宇宙。在里面可以創建你自己的環境,玩家只要口述他們希望沉浸在什么樣的游戲資產或環境中就可以了。這會非常令人興奮。

      我想我們中很多人都想象過。在 VR 里,圍繞我們的整個環境都是(自動)生成的。玩家能夠完全掌控音樂、3D 資產和環境氛圍,這樣你就能完全掌控你的體驗。這與當下行業里生成式 AI 取得的進展非常契合。生成式 AI 正在做的,就是讓消費者成為創作者,給他們創作他們自己消費的媒體內容的能力。它會是一個非常令人興奮的時刻。

      極客公園:目前,生成 3D 內容有哪些挑戰?

      Tom Mason:就當下的 3D(內容生成)而言,我覺得挑戰主要是生成的時間,以及分辨率。這二者是相關聯的,NeRF 模型越精確,跑起來就越慢,如果考慮什么是圖像模型最令人驚艷的進展,就是生成時間(縮短)。

      一年前,生成一張高分辨率的圖片可能會需要幾分鐘,2、3 分鐘或者 4 分鐘才能生成完成。但比如通過跑在我們 API 上的 Stable Diffusion,只需要差不多 2-3 秒的時間,所以在性能表現上有成數量級的進步。這也就是為什么,這個模型可以如此成功,因為它足夠小,生成得可以足夠快。因此它能夠跑在本地的 GPU 上,同時速度也更快。

      所以我們需要看到,在 3D 內容生成領域也需要有類似這樣的突破,通過一張照片生成一個還不錯的網格模型,現在大概需要 10 分鐘左右,對想要將其嵌入創作體驗的普通用戶來說太慢了,人們想要的是能夠快速響應的創作工具。

      所以我覺得我們需要專注解決這個問題。

      極客公園:那視頻生成模型的技術成熟度如何?

      Tom Mason:我有信心它的進展會快很多。我們已經看到一些新的采樣技術和模型架構,能大大縮短推理時間。圖像模型構成了視頻模型的核心。某種程度上,視頻模型是在圖像模型基礎上增加了時序信息,所以只要我們把圖像模型做得更小,那么視頻模型也可以變得更高效,這是視頻領域研究比較明確的方向。

      我覺得我們有挺大概率在明年年底實現視頻實時(生成)。我能看到視頻的圖像推理時間在明年很快就可以達到至少 1 秒 1 幀的速度,然后到年底的時候達到實時輸出的流暢度,3D 就會相對遙遠一些,這取決于技術的迭代情況。但毫無疑問,我們會與包括英偉達在內的很多公司,共同在 3D 內容生成領域持續堅定地投入。


      Stability AI 官網



      03

      Stability AI 

      是社區的一員



      極客公園:你提到 Stability AI堅持開源,支持了 8 個開源社區,開源社區的運作是怎樣的?

      Tom Mason:我們開源社區的運作模式,與 Linux 以及其他大家熟悉的開源項目是類似的,唯才是用。通過 Git 管理(社區成員)對代碼庫的貢獻,社區成員互相審核代碼,一旦審核通過,就可以合并到主干。

      對于我們支持的開源社區,我們資助了一些能夠帶領社區的研究人員,這也使他們能夠全職地參與到項目里。許多從事這些項目的人都是利用業余時間做的,又或者是在攻讀大學學位或博士學位時做的。他們中的許多人即使想全職投入項目的工作,但現實也無法讓他們做到。我們資助了一些項目核心研究人員,讓他們能夠完全把精力投入到這個項目中。

      當然,我們也是在非常確定這個人是對社區至關重要的情況下才這么做。這些人要么是在創造社區方面發揮了重要作用,要么他們能夠將社員聚集在一起,總有一部分人在組織里不可或缺,扮演著粘合劑的角色。對于這些人,我們會去盡力地支持他們。

      極客公園:StabilityAI 在社區里扮演怎樣的角色?

      Tom Mason:我認為關鍵是,我們與社區里的其他成員并無區別。作為一家企業,我們只是社區中的一員。我們并沒有掌控它,我們只是一個貢獻者。

      我想我們所有人都是這樣認為的。除此之外,我們并不想扮演其他更多的角色。作為一家企業,我們只想以積極開放的方式做出貢獻,并推動生態的改善。我想大家都很認同這一點。并且我們也希望自己能做出更多積極的貢獻。

      極客公園:你們希望自己的模型能夠影響 10 億人,這會怎樣發生?

      Tom Mason:一個令人激動的事實是,我們正在用大量不同的語言來訓練模型?,F在并沒有大規模的多語言生成模型,但多語言數據集出現后就不一樣了。

      當下大家對于這項技術的認知并不多。我們看到模型覆蓋范圍的統計數據,它在全球的覆蓋范圍依然非常小。所以在未來的一兩年里,我們將用不同的語言來訓練模型,并讓 Stable Diffusion 兼容更多語言。我們希望可以與全球的合作伙伴一起,對我們而言與不同國家的機構合作非常重要。我們可以一起用不同語言訓練這些模型。

      這并不需要把技術重新開發一遍,這實際上是對現有程序的重新應用。既然我們擁有了這些架構,我們就應該快速地將它們推廣出去。我們希望將整個模型培訓的過程和知識都分享出去,讓各個國家的合作伙伴和供應商都能掌握。這樣,在未來 12 個月內,圖像生成或許在全球各地還會再一次掀起浪潮,視頻和音頻領域也是如此。10 億這個數字可能還遠遠不夠,但這是我們當前的目標。

      最新文章

      極客公園

      用極客視角,追蹤你不可錯過的科技圈。

      極客之選

      新鮮、有趣的硬件產品,第一時間為你呈現。

      頂樓

      關注前沿科技,發表具有科技的商業洞見。

      A片黄色视频高清

          <sub id="jlawq"></sub><u id="jlawq"><output id="jlawq"></output></u>

            <thead id="jlawq"></thead>