網(wǎng)絡(luò)不穩(wěn)定老是掉線是什么原因(網(wǎng)絡(luò)不穩(wěn)定老是掉線是什么原因手機(jī))
2024-04-28
更新時(shí)間:2024-04-28 19:17:05作者:未知
今年年初,OpenAI發(fā)布其首個(gè)文生視頻模型Sora,可用文字指令生成長(zhǎng)達(dá)1分鐘的高清視頻,隨即引起廣泛關(guān)注和多方震動(dòng)。馬斯克就感嘆“人類認(rèn)賭服輸”,許多人更是直呼“導(dǎo)演、后期要失業(yè)了”,畢竟,這一被稱為“造片神器”的模型問(wèn)世,意味著或許每個(gè)使用它的普通人都可能實(shí)現(xiàn)“導(dǎo)演夢(mèng)”。很多人已經(jīng)在暢想由ChatGPT生成創(chuàng)意文案和腳本,再由Sora從文本生成酷炫的幾分鐘廣告大片。
Sora最初并未對(duì)外開放試用,直到近幾周,來(lái)自加拿大的Shy Kids團(tuán)隊(duì)作為少數(shù)獲得部分Sora權(quán)限的制作團(tuán)隊(duì),嘗試單純用SORA取代攝像機(jī),制作了一部時(shí)長(zhǎng)1分21秒的短片,也為大家揭開了Sora神秘的面紗。
這部《Air Head》短片由3人制作,耗時(shí)接近2周。談及制作過(guò)程,他們除了感慨SORA的強(qiáng)大功能,也談到了制作背后的很多內(nèi)幕:真實(shí)的Sora成片每一秒都需要至少300倍的素材,而且OpenAI的科學(xué)家們似乎完全沒有意識(shí)到,視頻存在鏡頭語(yǔ)言這個(gè)需求,AI從文本一鍵生成我們理想中的大片依然只是美好的想象,
Shy Kids的深度體驗(yàn)也證明了一個(gè)關(guān)鍵的事實(shí),在Sora發(fā)布時(shí),OpenAI似乎在暗示這些樣片都是完全由SORA自稱生成制作,但大家看到的樣片“買家秀”背后實(shí)際上包含了大量人工的專業(yè)制作,無(wú)論是分鏡,編輯,調(diào)色,還是鏡頭,特效,這些目前均無(wú)法靠AI來(lái)取代。
專業(yè)團(tuán)隊(duì)的分鏡,AI依然看不懂
Shy Kids作為一支加拿大專業(yè)影視團(tuán)隊(duì),以其不拘一格和創(chuàng)新的媒體制作方法而聞名。被稱為“朋克搖滾皮克斯”,在藝術(shù)性層面,他們的作品獲得了艾美獎(jiǎng)提名并入圍奧斯卡提名,而在商業(yè)化層面,他們?yōu)榈鲜磕幔物w,HBO等平臺(tái)制作過(guò)多部作品,在業(yè)界有一定的知名度。
即便是這樣的專業(yè)團(tuán)隊(duì),在使用Sora制作視頻時(shí),上來(lái)就發(fā)現(xiàn)了一個(gè)大問(wèn)題——傳統(tǒng)的先寫劇本分鏡然后開啟拍攝制作的流程在Sora上行不通。
本片導(dǎo)演在介紹影片制作時(shí)提到,他們使用的Sora依然是傳統(tǒng)的輸入本文生成視頻模式,并不支持現(xiàn)在很多大模型已經(jīng)應(yīng)用的多模態(tài)輸入。
這直接導(dǎo)致了一個(gè)尷尬的劇情,由于沒法給Sora看分鏡圖,Sora完全無(wú)法生成一段連貫的視頻來(lái)滿足攝影團(tuán)隊(duì)的需求,團(tuán)隊(duì)只能將每一個(gè)分鏡都單獨(dú)生成視頻來(lái)進(jìn)行拼接。
但是這里就出現(xiàn)了第二個(gè)問(wèn)題,AI對(duì)于事物的理解并不如人類,即便前一個(gè)鏡頭的素材完美符合了導(dǎo)演的需求,按照同樣的需求文字輸入后,下一段片段依然無(wú)法復(fù)現(xiàn)相同的元素。
導(dǎo)演對(duì)此舉了一個(gè)例子:假設(shè)你要求Sora在廚房里拍攝一張桌上有香蕉的長(zhǎng)鏡頭。在這種情況下,它將依據(jù)對(duì)“香蕉”這個(gè)概念的理解來(lái)生成視頻。通過(guò)訓(xùn)練數(shù)據(jù),它“學(xué)習(xí)”了香蕉的各類要素:例如“黃色”、“彎曲”、“有深色末端”等。但它沒有實(shí)際記錄的香蕉圖像,也沒有類似“香蕉圖片庫(kù)”數(shù)據(jù)庫(kù),只憑借關(guān)鍵詞生成它認(rèn)為的香蕉,這也導(dǎo)致了每次生成得香蕉都無(wú)法保證固定一樣,這對(duì)于長(zhǎng)視頻拍攝造成了巨大的影響。
為了保持最簡(jiǎn)單的一致,團(tuán)隊(duì)不得不將各種Sora生成片段進(jìn)行裁剪拼接。
團(tuán)隊(duì)展示影片制作過(guò)程
以這張氣球人騎車的片段為例,由于每次生成主角騎車畫面都無(wú)法保持統(tǒng)一,看似流暢的畫面實(shí)際上由三段畫面拼接而成。
AI拍片,更耗人力了
由于AI無(wú)法穩(wěn)定生成一個(gè)固定的角色或者道具,這也導(dǎo)致了《Air Head》制作時(shí)遇到了許多在傳統(tǒng)影視中不會(huì)遇到的問(wèn)題。
這部短片的主角是一個(gè)黃色氣球作為頭部的人,由于AI無(wú)法穩(wěn)定地生成這樣一個(gè)角色,在這部1分21秒的作品中,幾乎每一秒都需要大量的后期調(diào)整才保證角色的統(tǒng)一。
為了解決這個(gè)問(wèn)題,Shy kids決定大力出奇跡,通過(guò)大量生成相關(guān)片段篩選相對(duì)統(tǒng)一有用的部分,來(lái)組合成一部影片,這也讓團(tuán)隊(duì)原來(lái)設(shè)想的拍攝電影變成了一部類似紀(jì)錄片的拼接縫合。
團(tuán)隊(duì)負(fù)責(zé)后期的帕德里克表示:“短片有劇本,但團(tuán)隊(duì)需要靈活應(yīng)變”,“只是獲得了一大堆鏡頭,并試圖以一種有趣的方式將其剪輯給旁白。”
其透露道,為了制作這部片子,每一秒鐘的成片都需要大概300倍的素材。
而渲染這些原始素材成為了影片最耗時(shí)的部分之一,團(tuán)隊(duì)表示每次得到的素材長(zhǎng)度在3-20秒,但是渲染的時(shí)間需要10-20分鐘不等。
而即便是渲染出來(lái)最終采用的素材,依然逃不過(guò)大量的人工后期加工。
Shy Kids提供的信息顯示,即便每次都要求生成一個(gè)黃色的氣球,Sora有時(shí)候還是會(huì)生成一個(gè)紅色氣球,由于沒有更加合適的素材,后期團(tuán)隊(duì)只能利用PS和AE將其涂成黃色。
成片(上)和SORA生成視頻原片(下)
而有時(shí)候則會(huì)在氣球上出現(xiàn)人臉,這導(dǎo)致需要大量的后期處理,包括分級(jí)、穩(wěn)定化、上采樣以及移除不需要的元素。
SORA生成的氣球人出現(xiàn)了人臉
OpenAI:什么是鏡頭語(yǔ)言?
除了需要大量的后期外,對(duì)于制作AI電影中最大的障礙,負(fù)責(zé)本片后期的帕德里克提到了AI目前很難理解鏡頭語(yǔ)言這個(gè)缺點(diǎn)。
帕特里克表示:對(duì)于許多文生視頻工具來(lái)說(shuō),一個(gè)有價(jià)值的信息來(lái)源是相機(jī)元數(shù)據(jù)。例如,如果需要用照片訓(xùn)練(大模型),相機(jī)元數(shù)據(jù)將提供鏡頭尺寸、光圈值和許多其他關(guān)鍵信息供模型訓(xùn)練。
但是對(duì)于電影鏡頭,“跟蹤”“平移”“傾斜”或“推入”的想法都不是相機(jī)數(shù)據(jù)中冰冷的數(shù)據(jù),而是一個(gè)更加抽象性的概念。盡管在影視行業(yè)中對(duì)象永恒性(道具/人物需要在拍攝時(shí)持續(xù)存在)制作至關(guān)重要,但鏡頭語(yǔ)言也同樣重要,然而目前的Sora不僅難以實(shí)現(xiàn),甚至難以理解這個(gè)概念。
Shy Kids表示:“對(duì)于如何描述電影場(chǎng)景中的一個(gè)鏡頭,九個(gè)不同的人會(huì)有九種不同的想法。 (OpenAI) 研究人員在讓藝術(shù)家使用該工具之前,并沒有真正像電影制作人那樣思考?!北M管Shy Kids團(tuán)隊(duì)知道他們體驗(yàn)的Sora版本比較早期,但依然對(duì)于雜亂無(wú)章的攝像機(jī)機(jī)位和角度表示震驚,在團(tuán)隊(duì)眼中,他們已經(jīng)試圖在文本中強(qiáng)調(diào)固定機(jī)位或者鏡頭語(yǔ)言這個(gè)概念,但是他們不太確定到底是Sora無(wú)法理解他們的輸入方式,還是SORA根本就沒有相關(guān)的概念。
目前SORA幾乎只會(huì)懟臉直拍一種角度
在將這個(gè)問(wèn)題反饋給OpenAI后,雙方都大吃一驚,相比Shy Kids團(tuán)隊(duì),OpenAI的研究人員震驚于文生視頻居然有這樣的需求,這番回復(fù)讓Shy Kids團(tuán)隊(duì)集體瞳孔地震,在他們眼中司空見慣的認(rèn)知居然在SORA的開發(fā)中完全沒有被提及。
在Sora緊急更新了相關(guān)代碼后,Shy Kids對(duì)保持同一機(jī)位這個(gè)功能的評(píng)價(jià)也是“堪堪夠用”,帕德里克表示SORA目前可以做到生成10次視頻,六次能得到差不多的機(jī)位角度。
不過(guò)他補(bǔ)充到,值得注意的是這并不是一個(gè)獨(dú)特的問(wèn)題,幾乎所有主要的文生視頻公司都面臨著同樣的問(wèn)題。Runway AI在提供描述攝像機(jī)運(yùn)動(dòng)的UI方面可能是最先進(jìn)的,但Runway的質(zhì)量和渲染剪輯的長(zhǎng)度不如Sora。
對(duì)于整體的拍攝體驗(yàn),Shy Kids團(tuán)隊(duì)表示這是一次新奇且有意義的探索,他們認(rèn)為比起靠Sora直接生成一部影片,將Sora融入AE制作特效鏡頭是一個(gè)非常好的應(yīng)用嘗試。
同時(shí),他們也表示,目前的Sora依然非常的早期,并不適合對(duì)外公開發(fā)布,對(duì)于專業(yè)團(tuán)隊(duì)來(lái)說(shuō),可能離滿足導(dǎo)演要求還有很長(zhǎng)的路要走,但是對(duì)于普通人,也許在未來(lái)的一段時(shí)間內(nèi),如果不在乎各種奇怪的BUG畫面和需要大量的后期修補(bǔ),Sora或許能做到足夠普通人使用的程度。