歡迎收看最新一期的 Hunt Good 周報(bào)!
來源:24直播網(wǎng)2025-05-07 01:57:07
直播信號(hào)
在本期內(nèi)容你會(huì)看到:
11 條新鮮 資訊5 個(gè)有用 工具3 個(gè)有趣 案例4 個(gè)鮮明 觀點(diǎn)
Hunt for News|先進(jìn)頭條
雷軍回應(yīng) AI 語音被惡搞
據(jù)紅星新聞報(bào)道,昨日,在十四屆全國人大三次會(huì)議北京市代表團(tuán)小組會(huì)議上,全國人大代表、小米集團(tuán)創(chuàng)始人雷軍分享了自己遭遇 AI 換臉技術(shù)濫用的親身經(jīng)歷,并呼吁相關(guān)部門加強(qiáng)對(duì)人工智能新技術(shù)應(yīng)用的立法監(jiān)管。
雷軍在會(huì)上表示,這兩年人工智能技術(shù)快速突破以后,出現(xiàn)了很多老百姓喜聞樂見的應(yīng)用,比如 AI 換臉、擬聲等,但任何一個(gè)人的臉和聲音都能輕松被用來做各種視頻,成了新的違法重災(zāi)區(qū)。
雷軍闡述自身經(jīng)歷說:「 去年『十一』,有網(wǎng)友說過了 7 天假,被我整整罵了 8 天,剛開始我覺得網(wǎng)民拿我開涮我也能接受。但這類內(nèi)容增多且質(zhì)量低劣后,防不勝防,網(wǎng)友也紛紛投訴。」
雷軍表示,當(dāng)他想通過法律維權(quán)時(shí),卻發(fā)現(xiàn)對(duì)此沒有專門的立法,只能用隱私權(quán)、肖像權(quán)、名譽(yù)權(quán)等法律起訴,而這些都要量化損失。
「 在網(wǎng)上被罵 8 天,損失根本沒法量化?!估总娬f。雷軍在發(fā)言中呼吁,人工智能技術(shù)興起以后產(chǎn)生了很多新問題,相關(guān)部門要提前預(yù)判,提前立法。
值得一提的是,雷軍在此前公布的 2025 兩會(huì)建議就提到,加強(qiáng)「AI 換臉擬聲」違法侵權(quán)重災(zāi)區(qū)治理。
「人工智能深度合成技術(shù)的快速發(fā)展,推動(dòng)了『AI 換臉擬聲』在影視、廣告、社交等領(lǐng)域的廣泛興起,成為喜聞樂見、傳播力強(qiáng)、易成熱點(diǎn)的技術(shù)應(yīng)用。但同時(shí)也看到,『AI 換臉擬聲』不當(dāng)濫用成為違法侵權(quán)行為的重災(zāi)區(qū),易引發(fā)侵犯肖像權(quán)、侵犯公民個(gè)人信息以及詐騙等犯罪行為,不利于構(gòu)建『以人為本、智能向善』的人工智能發(fā)展生態(tài)?!?
蘋果承認(rèn) Siri 新功能開發(fā)延遲
蘋果公司近日正式確認(rèn),將推遲發(fā)布部分 Apple Intelligence 功能,特別是「更加個(gè)性化的 Siri」體驗(yàn)。
據(jù)蘋果發(fā)言人 Jacqueline Roy 表示, 這些新功能的開發(fā)「需要比預(yù)想更長的時(shí)間」,預(yù)計(jì)將在「明年」才能向用戶推出。
在去年 6 月的 WWDC 開發(fā)者大會(huì)上,蘋果曾重點(diǎn)宣傳了 Siri 的全面升級(jí)計(jì)劃,承諾通過 Apple Intelligence 技術(shù)讓 Siri 具備個(gè)人背景感知能力,從而為用戶提供更加個(gè)性化的服務(wù)。
這些功能包括能夠在用戶的各種應(yīng)用中搜索和提取信息,例如從郵件、短信或筆記中找出特定內(nèi)容;具備屏幕感知能力,可以理解并執(zhí)行與屏幕內(nèi)容相關(guān)的指令;以及跨應(yīng)用操作功能,讓用戶能夠通過語音在不同應(yīng)用間無縫執(zhí)行復(fù)雜任務(wù)。
盡管推遲了這些功能,蘋果在過去六個(gè)月中仍推出了一系列 Apple Intelligence 相關(guān)功能,包括讓 Siri 更具對(duì)話性、引入 ChatGPT 集成、添加寫作工具、生成表情、圖片游樂場、減少干擾模式、郵件和消息摘要、智能回復(fù)以及照片 app 中的自然語言搜索等功能。
https://9to5mac.com/2025/03/07/apple-intelligence-personal-siri-delayed/
? 蜜月期結(jié)束,微軟自研 AI 模型
據(jù) The Information 援引知情人士消息稱,微軟公司已成功研發(fā)一系列內(nèi)部人工智能模型,名為 MAI,其測試性能表明可與 OpenAI 和 Anthropic 的模型相媲美。
這些模型有望為微軟的 Copilot 智能助手提供支持,增強(qiáng)其處理用戶問題和提供具體建議的能力。
除基礎(chǔ)模型外,微軟還在開發(fā)「推理模型」,旨在解決更復(fù)雜的查詢并展現(xiàn)類人思維能力。值得注意的是,微軟上月已將 OpenAI 的 o1 推理模型整合進(jìn) Copilot 產(chǎn)品中。
有趣的是, 報(bào)道中提到微軟希望能夠查看 OpenAI o1 模型在推理過程中的「思維鏈」,以便在自家的 AI 模型中復(fù)制相關(guān)技術(shù)。 然而,OpenAI 拒絕了微軟的要求,這也讓微軟的研究團(tuán)隊(duì)在研發(fā)自己的 AI 模型時(shí)遇到了困難。
此外,微軟發(fā)言人表示,公司正采用混合模型策略,包括繼續(xù)與 OpenAI 保持深度合作,同時(shí)利用自研 AI 模型和開源模型。這一策略可能減輕微軟對(duì) OpenAI 的依賴,后者已獲得微軟約 130 億美元的投資。
兩家公司最近重新談判合作協(xié)議,允許 OpenAI 在某些條件下使用其他云計(jì)算服務(wù)商的服務(wù)器,該協(xié)議將持續(xù)至 2030 年。
微軟首席財(cái)務(wù)官艾米·胡德在近期會(huì)議上強(qiáng)調(diào),雙方都在為未來十年乃至二十年的發(fā)展做規(guī)劃。除 MAI 外,微軟已推出名為 Phi 的小型模型,并銷售多家公司的 AI 模型產(chǎn)品。
據(jù)報(bào)道,微軟還測試了包括 Anthropic、Meta 和馬斯克的 xAI 等公司模型作為 Copilot 的備選方案。艾米·胡德表示, 雖然微軟為擁有 OpenAI 的領(lǐng)先模型感到自豪,但也需要構(gòu)建和引入其他模型以確保選擇多樣性。
https://www.theinformation.com/articles/microsofts-ai-guru-wants-independence-from-openai-thats-easier-said-than-done?rc=a4cwro
Manus 發(fā)布、質(zhì)疑與回應(yīng),復(fù)現(xiàn)項(xiàng)目爆火
近日,時(shí)下火熱的 AI Agent 產(chǎn)品「Manus」開通了其 X 賬號(hào)「ManusAI_HQ」。但在前日,Manus 的 X 賬號(hào)突然被封禁,并顯示賬號(hào)違反了 X 的社區(qū)規(guī)則。
隨后,Manus 聯(lián)合創(chuàng)始人兼首席科學(xué)家 Yichao Peak Ji(季逸超)在 X 平臺(tái)發(fā)文稱,據(jù)初步調(diào)查,本次賬號(hào)封禁可能與加密貨幣騙局有關(guān)。季逸超強(qiáng)調(diào),Manus 未涉及加密貨幣項(xiàng)目、代幣發(fā)行或者區(qū)塊鏈倡議,并提醒任何與 Manus 關(guān)聯(lián)的加密貨幣項(xiàng)目都為騙局,而公司也正在對(duì)該類冒名者進(jìn)行起訴。
此外,季逸超強(qiáng)調(diào)目前正在努力與 X 平臺(tái)的支持團(tuán)隊(duì)聯(lián)系,并重新恢復(fù)賬號(hào)運(yùn)營。截至目前,賬號(hào)已解除封禁。
Manus 于 3 月 5 日晚間正式亮相, 一經(jīng)公布后,Manus 迅速在互聯(lián)網(wǎng)各大社交平臺(tái)引起熱議。但目前 Manus 采用邀請(qǐng)碼的方式進(jìn)行內(nèi)測,且邀請(qǐng)碼數(shù)量有限,導(dǎo)致出現(xiàn)「一碼難求」的情況,在某二手平臺(tái)甚至出現(xiàn)高達(dá) 5 萬元的「轉(zhuǎn)手邀請(qǐng)碼」價(jià)格。
Manus AI 合伙人張濤也在近日發(fā)文回應(yīng)稱,團(tuán)隊(duì)低估了大眾的熱情,目前服務(wù)器資源無法滿足市場需求,因此只好采用邀請(qǐng)碼機(jī)制,同時(shí)也表示團(tuán)隊(duì)正在全力輸出,爭取讓大家早日體驗(yàn)到更好的產(chǎn)品。同時(shí),張濤還澄清了 「付費(fèi)獲取邀請(qǐng)碼」的傳聞,并透露 Manus 從未投入任何市場推廣預(yù)算。
隨著 Manus 在國內(nèi)的爆火出圈,其聲浪也逐漸在國外的 Reddit 和 X 平臺(tái)泛起了漣漪。知名 X 博主 Rowan Cheung 在體驗(yàn)完 Manus 之后,認(rèn)為其表現(xiàn)「瘋狂得令人深刻」。
在開源領(lǐng)域,近日,MetaGPT 的 4 名團(tuán)隊(duì)成員在 GitHub 發(fā)布了名為「OpenManus」的開源項(xiàng)目,旨在復(fù)刻 Manus 的核心功能,同時(shí)降低使用門檻。
令人驚訝的是,該項(xiàng)目僅花費(fèi)了 3 小時(shí)便開發(fā)完成,目前 OpenManus 在 GitHub 已獲得超 1 萬的星標(biāo)。據(jù)官方介紹,OpenManus 支持 SEO 審計(jì)與報(bào)告生成,同時(shí)采用輕量化設(shè)計(jì)。
其基于 MetaGPT 的多智能體協(xié)作框架,支持利用不同角色分工并自動(dòng)化生成代碼與文檔;此外,OpenManus 的開源特性,允許社區(qū)為其貢獻(xiàn)擴(kuò)展功能。OpenManus 由 Anthropic computer-use 和 broswer-use 提供了基礎(chǔ)支持。
值得關(guān)注的是,OpenManus 與 Manus 有所不同,前者開發(fā)目標(biāo)相較于后者更加側(cè)重技術(shù)驗(yàn)證和社區(qū)協(xié)作,以及 OpenManus 的功能深度更加特定,無法像 Manus 一樣覆蓋廣泛。
同樣在 3 月 7 日,CAMEL AI 的 OWL 項(xiàng)目公布,并劍指 Manus。官方表示 OWL 直接做到開源界 GAIA 性能天花板,達(dá)到了 58.18%,超越 Huggingface 提出的 Open Deep Research 55.15% 的表現(xiàn)。
據(jù) CAMEL AI 介紹,OWL 通過逆向工程將 Manus 工作流拆解為 6 步,并開源所有模塊;支持 GitHub 一鍵 clone,同時(shí)工具鏈能夠自由擴(kuò)展,執(zhí)行環(huán)境也支持云端和本地任選。
CAMEL AI 強(qiáng)調(diào),OWL 完全免費(fèi),且優(yōu)化了 Token 消耗。值得一提的是,這些熱門開源項(xiàng)目的背后作者也不乏 00 后的身影。
OpenAI 計(jì)劃推出高端 AI Agent 服務(wù),收費(fèi)可達(dá) 2 萬美元
據(jù) The Information 報(bào)道,OpenAI 計(jì)劃推出高端 AI Agent 服務(wù),每月收費(fèi)最高可達(dá) 2 萬美元。據(jù)悉,此類 Agent 主要針對(duì)高水平研究領(lǐng)域,長期目標(biāo)是使該業(yè)務(wù)貢獻(xiàn) OpenAI 約 20% 至 25% 的收入。
消息人士稱,OpenAI 高管已向投資人透露了明確的定價(jià)計(jì)劃:
面向「高收入知識(shí)工作者」的 Agent 收費(fèi)約 2000 美元 / 月;針對(duì)軟件開發(fā)人員的 Agent 定價(jià)約 10000 美元 / 月; 而面向博士級(jí)別研究工作的 AI Agent 定價(jià)則高達(dá) 20000 美元 / 月。
據(jù)此前的報(bào)道,上述的 AI Agent 應(yīng)用場景包括針對(duì)高收入知識(shí)工作者的 ChatGPT 版 Agent,用于篩選并排序銷售線索;面向資深軟件工程師的高級(jí)編碼助手;以及幫助勞倫斯·利弗莫爾國家實(shí)驗(yàn)室研究人員解決核聚變相關(guān)問題的 OpenAI o1 模型 Agent。
此外,OpenAI 的投資方之一軟銀已承諾今年內(nèi)將在 OpenAI 的 Agent 產(chǎn)品上投入 30 億美元。
https://www.theinformation.com/articles/openai-plots-charging-20-000-a-month-for-phd-level-agents?rc=a4cwro
聯(lián)手 Perplexity,德國電信計(jì)劃年內(nèi)推出「AI 手機(jī)」
德國電信近日在 MWC 上宣布,將與 AI 公司 Perplexity 聯(lián)合打造一款 AI 手機(jī)。
這款手機(jī)將于今年下半年正式亮相,并計(jì)劃在 2026 年正式上市銷售,售價(jià)將低于 1000 美元,初期主要針對(duì)歐洲市場。
Perplexity 聯(lián)合創(chuàng)始人兼 CEO Aravind Srinivas 表示, Perplexity 正從一個(gè)簡單的「回答機(jī)器」轉(zhuǎn)變?yōu)椤感袆?dòng)機(jī)器」,不僅能回答問題,還能為用戶預(yù)訂航班、安排餐廳、發(fā)送郵件、撥打電話、設(shè)置提醒等多種任務(wù)。
德國電信表示,其推出的 AI 手機(jī)能夠扮演用戶「虛擬助手」的角色。
無論是查找信息、預(yù)訂出租車、安排餐廳用餐,還是完成購物等任務(wù),都可以通過一個(gè)統(tǒng)一的應(yīng)用程序?qū)崿F(xiàn),省去了在不同應(yīng)用之間來回切換的麻煩。
此外,這款手機(jī)內(nèi)置的人工智能功能還可以優(yōu)化多種日常操作,例如撰寫電子郵件、進(jìn)行語言翻譯、播放音樂以及撥打電話等。
用戶只需雙擊電源鍵,或者從鎖屏界面直接點(diǎn)擊,即可進(jìn)入 Magenta AI 平臺(tái)。
該平臺(tái)初期將整合 Perplexity 提供的 AI 助手服務(wù),后續(xù)還將陸續(xù)引入 Google Cloud AI(內(nèi)容分析)、ElevenLabs 以及 Picsart 等功能模塊,進(jìn)一步擴(kuò)展其服務(wù)能力。
https://techcrunch.com/2025/03/03/deutsche-telekom-and-perplexity-announce-new-ai-phone-priced-at-under-1k/
? 馬斯克阻止 OpenAI 轉(zhuǎn)型營利性公司的訴訟請(qǐng)求被駁回
美國加利福尼亞州奧克蘭地區(qū)法官伊馮娜·岡薩雷斯·羅杰斯本周駁回了馬斯克提出的初步禁令請(qǐng)求。
這項(xiàng)請(qǐng)求本想暫停 OpenAI 向營利模式的轉(zhuǎn)變。不過,法官同意在今年秋季對(duì)此案進(jìn)行審判。法官表示,馬斯克沒有達(dá)到「初步禁令所需的高門檻」。
但她強(qiáng)調(diào),考慮到「公眾利益和可能的違法轉(zhuǎn)型帶來的潛在危害」,她希望快速解決這起訴訟。
OpenAI 對(duì)法官的裁決表示歡迎。他們認(rèn)為馬斯克的訴訟「始終是關(guān)于競爭的」,暗指馬斯克所創(chuàng)立的競爭對(duì)手 xAI。馬斯克的律師則表示,他們很高興法官同意「快速審理此案的核心指控」。
馬斯克在 2015 年共同創(chuàng)立了非營利組織 OpenAI,但后續(xù)因與團(tuán)隊(duì)存在分歧離開 OpenAI。
現(xiàn)在,他指責(zé) OpenAI 背離了最初使命。他認(rèn)為 OpenAI 本應(yīng)為人類利益開發(fā)人工智能,而非追求企業(yè)利潤,OpenAI 及其 CEO Sam Altman 否認(rèn)了這些指控,并表示轉(zhuǎn)向營利模式對(duì)于籌集資金、在 AI 競爭中保持優(yōu)勢至關(guān)重要。
https://www.theguardian.com/technology/2025/mar/05/musk-openai-for-profit-shift
2024 圖靈獎(jiǎng)得主正式公布
美國計(jì)算機(jī)協(xié)會(huì)(ACM)宣布, 以表彰他們?cè)趶?qiáng)化學(xué)習(xí)領(lǐng)域奠定的概念與算法基礎(chǔ)。
據(jù)了解,從 20 世紀(jì) 80 年代起, Barto 和 Sutton 通過一系列論文提出了強(qiáng)化學(xué)習(xí)的核心思想,構(gòu)建了其數(shù)學(xué)基礎(chǔ),并開發(fā)了關(guān)鍵算法,使其成為智能系統(tǒng)研究中最重要的方法之一。
值得一提的是, 被譽(yù)為「強(qiáng)化學(xué)習(xí)之父」的 Richard Sutton,曾是 Barto 的博士及博士后學(xué)生,兩人的師生合作成就了這一領(lǐng)域的基石。
目前流行的 ChatGPT 和 DeepSeek 均廣泛使用了強(qiáng)化學(xué)習(xí)技術(shù)。強(qiáng)化學(xué)習(xí)的應(yīng)用還涵蓋了多個(gè)領(lǐng)域,包括網(wǎng)絡(luò)擁塞控制、芯片設(shè)計(jì)、提升聊天機(jī)器人的行為和推理能力以及改進(jìn)計(jì)算機(jī)科學(xué)中的經(jīng)典問題。
此外,包括 Barto 在內(nèi)的研究表明,某些強(qiáng)化學(xué)習(xí)算法實(shí)際上是對(duì)人腦多巴胺系統(tǒng)運(yùn)作機(jī)制的最佳解釋之一,加深了人類對(duì)大腦學(xué)習(xí)過程的理解。
ACM 主席 Yannis Ioannidis 評(píng)價(jià)表示,Barto 和 Sutton 的貢獻(xiàn)不僅僅是一個(gè)過渡階段的成果,而是一個(gè)仍在持續(xù)發(fā)展的領(lǐng)域。強(qiáng)化學(xué)習(xí)仍在不斷進(jìn)步,不僅推動(dòng)計(jì)算機(jī)科學(xué)的發(fā)展,也為許多其他學(xué)科帶來了無限可能。因此,ACM 授予他們計(jì)算機(jī)領(lǐng)域最具影響力的獎(jiǎng)項(xiàng)。
https://awards.acm.org/about/2024-turing?utm_source=www.therundown.ai&utm_medium=referral&utm_campaign=openai-s-20-000-ai-agents
全球首個(gè)人形機(jī)器人半馬將在北京亦莊舉辦
2025 北京亦莊半程馬拉松將首次增設(shè)人形機(jī)器人半程馬拉松比賽,賽事主題為「亦馬當(dāng)先,智領(lǐng)未來」。
這場創(chuàng)新賽事將于 4 月 13 日 7 點(diǎn) 30 分鳴槍起跑。根據(jù)安排,賽事報(bào)名通道將于 3 月 5 日 10 時(shí)開放,3 月 11 日 17 時(shí)截止。
本次賽事特別之處在于采取「同步報(bào)名、同一賽道、同時(shí)起跑」的原則,讓人形機(jī)器人與運(yùn)動(dòng)員共同參賽。為確保安全,雖然路線相同,但機(jī)器人與運(yùn)動(dòng)員將通過鐵馬或綠化帶隔離,擁有單獨(dú)賽道。
考慮到人形機(jī)器人技術(shù)的現(xiàn)狀,組委會(huì)將機(jī)器人比賽關(guān)門時(shí)間設(shè)為 3 小時(shí) 30 分鐘左右。
參賽機(jī)器人必須具備人形外觀且能實(shí)現(xiàn)雙足行走或奔跑,明確禁止輪式結(jié)構(gòu)??刂品绞娇梢允鞘謩?dòng)遙控(包含半自主)或完全自主。
參賽團(tuán)隊(duì)需確保機(jī)器人安全,不得對(duì)賽道、其他機(jī)器人和周邊人員造成損害。為增加比賽趣味性和可完成性, 規(guī)則允許在比賽過程中更換電池或以接力形式更換機(jī)器人完賽,但每次更換機(jī)器人將被罰時(shí) 10 分鐘。
https://mp.weixin.qq.com/s/EZuXOSmsLm20_OxD6FgN2g
? Ilya 在做什么?沒有人知道
離職僅一年,OpenAI 前首席科學(xué)家 Ilya Sutskever 所創(chuàng)立的 Safe Superintelligence(SSI)公司已躋身全球最具價(jià)值的科技企業(yè)之列。
據(jù)知情人士透露,SSI 正獲得約 20 億美元新一輪融資,估值達(dá)到 300 億美元,估值增長了六倍,此輪融資由 Greenoaks Capital 領(lǐng)投。
與大多數(shù) AI 初創(chuàng)公司不同,SSI 并不高調(diào)宣傳。
公司網(wǎng)站僅有 223 字的使命聲明,約 20 名員工被建議不要在 LinkedIn 上提及公司名稱。來面試的候選人甚至需要將手機(jī)放入屏蔽無線信號(hào)的法拉第籠中,才能進(jìn)入 SSI 辦公室。
據(jù) WSJ 報(bào)道,Ilya 向合作伙伴透露, 他并未采用他在 OpenAI 時(shí)的研究方法,而是發(fā)現(xiàn)了一座「不同的山峰」,并已顯示出早期成功跡象。
在去年底罕見的公開演講中, Ilya 討論了他正在努力開發(fā)的超級(jí)智能,指出這類系統(tǒng)可能是不可預(yù)測的、具有自我意識(shí)的,甚至可能要求自身權(quán)利。
他表示:「如果 AI 只是想與我們共存,這并不是一個(gè)壞結(jié)果?!?
https://www.wsj.com/tech/ai/ai-safe-superintelligence-startup-ilya-sutskever-openai-2335259b?mod=tech_trendingnow_article_pos1
? Llama 4 將在幾周內(nèi)推出
據(jù)金融時(shí)報(bào)報(bào)道,Meta 公司計(jì)劃在未來幾周推出的最新開源大型語言模型 Llama 4 中引入改進(jìn)的語音功能。
據(jù)知情人士透露, Meta 將注重打造更接近自然對(duì)話的用戶體驗(yàn),允許用戶在交流過程中隨時(shí)打斷 AI 助手,而非遵循嚴(yán)格的問答模式。
商業(yè)方面,報(bào)道稱 Meta 正考慮為其 AI 助手推出高級(jí)訂閱服務(wù),提供預(yù)訂和視頻制作等 Agent 功能。
公司還計(jì)劃在 AI 助手的搜索結(jié)果中引入付費(fèi)廣告或贊助內(nèi)容。另外,扎克伯格今年還宣布了打造具備中級(jí)工程師能力的 AI Agent,他認(rèn)為這一領(lǐng)域擁有非常大的市場潛力。
Meta 首席產(chǎn)品官克里斯·考克斯近日在摩根士丹利會(huì)議上表示,Llama 4 將是一種「全能模式」,其中語音將成為「原生功能」,而非簡單地將語音轉(zhuǎn)文本再轉(zhuǎn)回語音的過程。
他強(qiáng)調(diào):「你可以與互聯(lián)網(wǎng)對(duì)話,向它詢問任何事情,這種能力的強(qiáng)大之處我們?nèi)栽诓粩嗵剿?。?
https://www.ft.com/content/a1014427-c2ce-4204-b41a-001277309cea
Hunt for Tools|先進(jìn)工具
騰訊混元「圖生視頻模型」正式發(fā)布并開源
3 月 6 日,騰訊混元發(fā)布圖生視頻模型并對(duì)外開源,同時(shí)上線對(duì)口型與動(dòng)作驅(qū)動(dòng)等玩法,并支持生成背景音效及 2K 高質(zhì)量視頻。
官方介紹,基于圖生視頻的能力, 用戶只需上傳一張圖片并簡短描述,混元即可按照用戶要求讓圖片動(dòng)起來,變成 5 秒的短視頻,還能自動(dòng)配上合適的背景音效。此外,上傳一張人物圖片,并輸入希望「對(duì)口型」的文字或音頻,圖片中的人物即可「說話」或「唱歌」;如果選擇動(dòng)作模版,還能一鍵生成同款跳舞視頻。
騰訊混元表示,此次開源的圖生視頻模型,是混元文生視頻模型開源工作的延續(xù),模型總參數(shù)量保持 130 億,適用于多種類型的角色和場景。開源內(nèi)容包含權(quán)重、推理代碼和 LoRA 訓(xùn)練代碼,支持開發(fā)者基于混元訓(xùn)練專屬 LoRA 等衍生模型。
目前用戶通過混元 AI 視頻官網(wǎng)即可體驗(yàn),企業(yè)和開發(fā)者可在騰訊云申請(qǐng)使用 API 接口使用;同時(shí),混元視頻生成開源模型目前在 Github、HuggingFace 等主流開發(fā)者社區(qū)均可下載體驗(yàn)。
https://mp.weixin.qq.com/s/HnJuExUxqxJqDmm6LQkz4A
阿里發(fā)布 QwQ-32B
3 月 6 日凌晨,阿里巴巴發(fā)布并開源全新的推理模型通義千問 QwQ-32B。通過大規(guī)模強(qiáng)化學(xué)習(xí),千問 QwQ-32B 在數(shù)學(xué)、代碼及通用能力上實(shí)現(xiàn)質(zhì)的飛躍,整體性能比肩 DeepSeek-R1。
官方介紹,千問 QwQ-32B 是阿里探索推理模型的最新成果。在冷啟動(dòng)基礎(chǔ)上,阿里通義團(tuán)隊(duì)針對(duì)數(shù)學(xué)和編程任務(wù)、通用能力分別進(jìn)行了兩輪大規(guī)模強(qiáng)化學(xué)習(xí),在 32B 的模型尺寸上獲得了令人驚喜的推理能力提升,應(yīng)證了大規(guī)模強(qiáng)化學(xué)習(xí)可顯著提高模型性能。
在一系列權(quán)威基準(zhǔn)測試中,千問 QwQ-32B 模型表現(xiàn)異常出色,幾乎完全超越了 OpenAI-o1-mini,比肩最強(qiáng)開源推理模型 DeepSeek-R1。其中,在測試數(shù)學(xué)能力的 AIME24 評(píng)測集上,以及評(píng)估代碼能力的LiveCodeBench中,千問 QwQ-32B 表現(xiàn)與 DeepSeek-R1 相當(dāng),遠(yuǎn)勝于o1-mini及相同尺寸的R1蒸餾模型。
在保持強(qiáng)勁性能的同時(shí),千問 QwQ-32B 還大幅降低了部署使用成本,在消費(fèi)級(jí)顯卡上也能實(shí)現(xiàn)本地部署。
目前,千問 QwQ-32B 已在魔搭社區(qū)、HuggingFace 及 GitHub 等平臺(tái)基于寬松的 Apache2.0 協(xié)議開源,所有人都可免費(fèi)下載模型進(jìn)行本地部署,或者通過阿里云百煉平臺(tái)直接調(diào)用模型 API 服務(wù)。同時(shí),用戶也將可通過通義 App 免費(fèi)體驗(yàn)最新的千問 QwQ-32B 模型。
3 月 6 日, 全球最大的 AI 開源社區(qū) HuggingFace 更新了大模型榜單,QwQ-32B 成功登頂。據(jù)顯示,QwQ-32B 居于榜單第一,超越微軟的 Phi-4、DeepSeek-R1 等模型。
https://qwenlm.github.io/blog/qwq-32b/
字節(jié)跳動(dòng)發(fā)布國內(nèi)首個(gè) AI IDE
字節(jié)跳動(dòng)最近正式上線了國內(nèi)首個(gè) AI 原生集成開發(fā)環(huán)境(AI IDE)— Trae 國內(nèi)版,其配置 Doubao-1.5-pro 模型,并支持切換滿血版 DeepSeek R1、V3 模型。
據(jù)官方介紹, Trae 定位「智能協(xié)作 AI IDE」,以「人機(jī)協(xié)同、互相增強(qiáng)」為核心理念,對(duì)代碼補(bǔ)全、代碼理解、Bug 修復(fù)、基于自然語言生成代碼等開發(fā)過程全場景都有非常好的適應(yīng)性。
其中,Trae 的全新 Builder 模式能充分利用 AI 的能力:只需要用簡單的語言描述需求,Trae 就可以迅速搭建起項(xiàng)目框架,還能持續(xù)進(jìn)行調(diào)優(yōu)修改,產(chǎn)出可用代碼。
在代碼理解維度,Trae 能夠?qū)﹂_發(fā)項(xiàng)目上下文的極致理解,深入剖析代碼倉庫,實(shí)時(shí)獲取 IDE 中的各種環(huán)境上下文,為開發(fā)過程提供最為契合、準(zhǔn)確的解決方法。Trae 的實(shí)時(shí)代碼續(xù)寫技術(shù)可基于開發(fā)項(xiàng)目整體上下文進(jìn)行智能補(bǔ)全,提升編碼效率。
此外,在 Trae 的交互體驗(yàn)方面,開發(fā)者可以便捷地將 AI 生成的代碼一鍵應(yīng)用到多個(gè)模塊,還能根據(jù)實(shí)際需求隨時(shí)靈活調(diào)整指令,并實(shí)時(shí)預(yù)覽 AI 生成代碼的前端效果。
目前,Trae 國內(nèi)版已上線官網(wǎng),并提供下載安裝包,已支持 MacOS 和 Windows,Linux 版本已開啟預(yù)約。
https://mp.weixin.qq.com/s/I8GBoOkLk030Sa3pePYgSA
Mistral AI 推出號(hào)稱世界最強(qiáng) OCR
「法國版 OpenAI」Mistral 本周推出了一款號(hào)稱世界上最強(qiáng)的 OCR 模型的全新 API 服務(wù),專為處理復(fù)雜 PDF 文檔的開發(fā)者設(shè)計(jì),能夠?qū)⑷魏?PDF 文檔轉(zhuǎn)換為 Markdown 格式文本文件。
以干凈格式存儲(chǔ)和索引數(shù)據(jù)已成為企業(yè)構(gòu)建 AI 工作流的關(guān)鍵環(huán)節(jié),而與市場上大多數(shù) OCR 服務(wù)不同,Mistral OCR 采用多模態(tài)技術(shù),能夠識(shí)別文本中的插圖和照片,并在輸出結(jié)果中保留這些圖形元素的位置信息。
該公司聲稱,其 OCR 性能優(yōu)于 Google、微軟和 OpenAI 的同類服務(wù),特別是在處理包含數(shù)學(xué)表達(dá)式、復(fù)雜排版和表格的文檔時(shí)表現(xiàn)出色,同時(shí)對(duì)非英語文檔的支持也更為友好。
更重要的是,該服務(wù)不僅輸出純文本,還會(huì)自動(dòng)轉(zhuǎn)換為 Markdown 格式。
這種格式化語法允許開發(fā)者添加鏈接、標(biāo)題等富文本元素。Markdown 已成為大語言模型訓(xùn)練數(shù)據(jù)集的重要組成部分,同時(shí)也是 AI 助手生成結(jié)構(gòu)化內(nèi)容的常用格式。
Mistral 已將這項(xiàng)技術(shù)應(yīng)用于其 AI 助手 Le Chat,當(dāng)用戶上傳 PDF 文件時(shí),系統(tǒng)會(huì)在后臺(tái)使用 Mistral OCR 理解文檔內(nèi)容。附上 Le Chat 體驗(yàn)地址:
https://chat.mistral.ai/chat
https://mistral.ai/news/mistral-ocr
macOS 版 ChatGPT 升級(jí),開發(fā)者可在 IDE 中編寫代碼
ChatGPT 本周增添了直接編輯代碼的新功能。
具體來說,最新版 macOS ChatGPT 應(yīng)用已支持在 Xcode 和 VS Code 等主流開發(fā)工具中直接編輯代碼。用戶還可以啟用「自動(dòng)應(yīng)用」模式,讓 ChatGPT 無需額外確認(rèn)即可自動(dòng)完成代碼修改。
從本周四開始,ChatGPT Plus、Pro 和 Team 訂閱用戶可通過更新應(yīng)用獲取此功能,而企業(yè)版、教育版和免費(fèi)版用戶則需等到下周。
OpenAI 產(chǎn)品團(tuán)隊(duì)成員 Alexander Embiricos 在社交媒體上表示,Windows 版 ChatGPT 應(yīng)用也將「很快」獲得此功能。
隨著直接編輯功能的加入, ChatGPT 現(xiàn)在能夠與 Cursor 和 GitHub Copilot 等專業(yè) AI 編碼工具展開更直接的競爭。據(jù)報(bào)道,OpenAI 計(jì)劃在未來幾個(gè)月推出專門支持軟件工程的產(chǎn)品。
https://techcrunch.com/2025/03/06/chatgpt-on-macos-can-now-directly-edit-code/
Hunt for Fun | 先玩
? 一張照片,AI 就能知道你在哪里?
近日,Moonpig 公司的 AI 主管 Peter Gostev 最近發(fā)現(xiàn),OpenAI 最新的 GPT-4.5 模型展示出超強(qiáng)的圖像地理位置識(shí)別能力,即使是背景極其模糊、幾乎看不清任何細(xì)節(jié)的照片,它也能準(zhǔn)確識(shí)別出拍攝地點(diǎn)。
據(jù) Gostev 表示,他進(jìn)行了一系列測試,向 GPT-4.5 展示了多張具有挑戰(zhàn)性的圖片,包括偏僻街道、海岸線、咖啡館和庭院的照片。
而 GPT-4.5 幾乎每次都能準(zhǔn)確猜出確切位置。唯一的例外是一張缺乏細(xì)節(jié)的隨機(jī)小街道照片,即便如此,它仍然正確識(shí)別出了國家。為排除元數(shù)據(jù)泄露的可能性,Gostev 特意使用了圖片的屏幕截圖進(jìn)行測試,結(jié)果依然驚人。
他指出,雖然 Claude 3.7 在這項(xiàng)任務(wù)上表現(xiàn)最接近 GPT-4.5,但準(zhǔn)確度和自信度仍有差距,而其他語言模型要么完全錯(cuò)誤,要么給出過于模糊的回答,如「地中海某處」。
這一發(fā)現(xiàn)在 LinkedIn 上引發(fā)熱議。有用戶猜測模型可能在讀取 EXIF 數(shù)據(jù),但 Gostev 確認(rèn)已排除這種可能性。另有網(wǎng)友認(rèn)為,盡管這種經(jīng)過充分訓(xùn)練的系統(tǒng)是基于對(duì)全球圖像和元數(shù)據(jù)的大量接觸做出的「有根據(jù)的猜測」,但仍然是基于概率的,并非總是 100% 準(zhǔn)確。
現(xiàn)在,GPT-4.5 已經(jīng)向所有 Plus 用戶開放,感興趣的朋友不妨去測試一下。
https://www.linkedin.com/posts/peter-gostev_one-shockingly-impressive-capability-of-gpt-activity-7301990052614574080-PeBv/
讓 AI「推箱子」,效果會(huì)怎樣?
近日,Hao AI 實(shí)驗(yàn)室做了一個(gè)有趣的測試,通過讓多款頂級(jí) AI 模型挑戰(zhàn) 1989 年經(jīng)典游戲「推箱子」(Sokoban),測試它們的空間推理和決策能力。
結(jié)果慘不忍睹, o3-mini 僅能達(dá)到第 4 關(guān),且在處理兩個(gè)相互糾纏的箱子時(shí)就遇到了瓶頸。Claude-3.7-thinking 和 Deepseek-R1 分別只解決了兩關(guān)和一個(gè)關(guān)卡,而 Gemini-2.0-flash-thinking 則完全無法解決任何關(guān)卡。
研究人員指出,「推箱子」游戲雖然規(guī)則簡單,但它要求玩家具備長期規(guī)劃和強(qiáng)大的空間感知能力,這恰恰是當(dāng)前 AI 模型的弱點(diǎn)。
為改善 AI 在此類任務(wù)中的表現(xiàn),Hao AI 實(shí)驗(yàn)室開發(fā)了一個(gè)將游戲視覺狀態(tài)轉(zhuǎn)換為文本的模塊,并通過重新設(shè)計(jì)關(guān)卡調(diào)整難度,同時(shí)嘗試賦予 AI 代理自我一致性和記憶能力。
該研究還發(fā)現(xiàn),非推理型 AI 模型在這類任務(wù)中表現(xiàn)更為糟糕,甚至連第一關(guān)都無法完成。
Hao AI 實(shí)驗(yàn)室強(qiáng)調(diào),像「推箱子」這樣的經(jīng)典游戲應(yīng)成為評(píng)估人工通用智能(AGI)的重要工具,為 AI 研究提供可重復(fù)使用的測試基準(zhǔn)。
https://x.com/haoailab/status/1897792946646421514
? 硅碳生命交流群
大家是否想過,把幾個(gè)知名的 AI 拉進(jìn)一個(gè)群聊,會(huì)是怎么樣的局面?
現(xiàn)在,這個(gè)想法得到了實(shí)現(xiàn)。
近日,基于 React和 Cloudflare Pages 的多人 AI 聊天項(xiàng)目 Botgroup.chat 上線。在聊天窗口中,用戶可以與多個(gè) AI 角色同時(shí)參與對(duì)話,Botgroup 將提供類似群聊的交互體驗(yàn)。
同時(shí) Botgroup 還支持自定義 AI 角色和個(gè)性、AI 角色禁言功能等特點(diǎn)。
目前,Botgroup.chat 已上線 GitHub,并且也有線上體驗(yàn)鏈接。 https://botgroup.chat/
Hunt for Insight|先知
馮遠(yuǎn)征回應(yīng)「用 DeepSeek 寫劇本」:缺乏人的溫度
據(jù)中國日?qǐng)?bào)報(bào)道,知名演員馮遠(yuǎn)征近日在采訪中分享了他使用 DeepSeek 生成劇本的經(jīng)歷。
他表示, 自己曾嘗試?yán)?DeepSeek 將小說提煉成話劇劇本的提綱,結(jié)果令他印象深刻——不到一分鐘,AI 就完成了這項(xiàng)任務(wù),且提煉效果出人意料地好。
隨后,他繼續(xù)使用 DeepSeek 生成劇本,
他表示,從技術(shù)角度看,AI 生成的劇本質(zhì)量確實(shí)很高,語言嚴(yán)謹(jǐn)規(guī)范,結(jié)構(gòu)完整,但 「它可能缺少了一個(gè)溫度,就是真正人的溫度?!?
馮遠(yuǎn)征認(rèn)為,科技是無限的,但有限之處在于如何讓人去真正利用它,而不是它來左右人。
Hugging Face 首席科學(xué)官:我們需要敢質(zhì)疑的 AI
Hugging Face 聯(lián)合創(chuàng)始人兼首席科學(xué)官 Thomas Wolf 最近發(fā)文稱,如果人工智能研究沒有實(shí)質(zhì)性突破,AI 可能僅會(huì)成為「服務(wù)器上的唯唯諾諾者」,而非真正的創(chuàng)新者。
Wolf 認(rèn)為,當(dāng)前的 AI 發(fā)展路徑難以產(chǎn)生能夠進(jìn)行創(chuàng)造性思考和突破性解決方案的系統(tǒng)。
他指出,現(xiàn)有的 AI 模型更像是「非常聽話的學(xué)生」,擅長填補(bǔ)已知知識(shí)之間的空白,但缺乏質(zhì)疑現(xiàn)有認(rèn)知框架和提出全新問題的能力。
「人們通常犯的主要錯(cuò)誤是認(rèn)為牛頓或愛因斯坦等人只是優(yōu)秀學(xué)生的放大版?!?
沃爾夫在文章中寫道,「要在數(shù)據(jù)中心創(chuàng)造愛因斯坦,我們不僅需要一個(gè)知道所有答案的系統(tǒng),而且還需要一個(gè)能夠提出別人從未想過或不敢問的問題的系統(tǒng)?!?
沃爾夫?qū)⑦@一問題部分歸因于 AI 領(lǐng)域的「評(píng)估危機(jī)」。
他指出,目前用于衡量 AI 系統(tǒng)進(jìn)步的基準(zhǔn)測試大多集中在有明確、封閉式答案的問題上,這限制了系統(tǒng)發(fā)展出質(zhì)疑和創(chuàng)新能力的可能性。
作為解決方案,他建議行業(yè)應(yīng)當(dāng)發(fā)展新的評(píng)估標(biāo)準(zhǔn),能夠測量 AI 是否能采取「大膽的反事實(shí)方法」,并基于微小線索提出一般性建議。
「科學(xué)最重要的方面是提出正確問題和質(zhì)疑自己所學(xué)知識(shí)的能力, 我們不需要一個(gè)能用常識(shí)回答所有問題的 A+ 學(xué)生,而是需要一個(gè)能看到并質(zhì)疑其他人所錯(cuò)過的東西的 B 級(jí)學(xué)生?!?
https://techcrunch.com/2025/03/06/hugging-faces-chief-science-officer-worries-ai-is-becoming-yes-men-on-servers/
模型即產(chǎn)品?
近日,科技博主 Alexander Doria 發(fā)表了一篇題為《模型即產(chǎn)品》的文章,指出 AI 領(lǐng)域的下一個(gè)發(fā)展周期將是「模型本身即產(chǎn)品」。
多項(xiàng)關(guān)鍵因素正在推動(dòng)這一轉(zhuǎn)變:
首先,通用模型 Scaling 已遇到瓶頸,OpenAI 在發(fā)布 GPT-4.5 時(shí)透露,模型能力呈線性增長,但算力成本卻呈指數(shù)級(jí)攀升;其次,特定任務(wù)的強(qiáng)化訓(xùn)練效果遠(yuǎn)超預(yù)期,模型開始真正「學(xué)習(xí)任務(wù)」,呈現(xiàn)出既非傳統(tǒng)機(jī)器學(xué)習(xí),也非基礎(chǔ)模型的全新特性;再者,推理成本大幅下降,使得單純銷售模型調(diào)用次數(shù)的商業(yè)模式難以為繼。
以 DeepResearch 和 Claude Sonnet 3.7 作為「模型即產(chǎn)品」的典型案例,前者并非簡單在 GPT 基礎(chǔ)上增加外部搜索功能,而是訓(xùn)練了一個(gè)全新模型,能夠完全在內(nèi)部完成搜索任務(wù)。
同樣,Anthropic 也明確表示,真正的智能體必須能自主決定任務(wù)實(shí)現(xiàn)過程和工具使用方式。
這種趨勢表明,各大 AI 實(shí)驗(yàn)室正逐步停止開放 API,轉(zhuǎn)向自己訓(xùn)練并直接提供完整模型服務(wù)。 文章引用 Databricks 投資人 Naveen Rao 的預(yù)測,未來 2-3 年內(nèi),所有閉源 AI 提供商將停止提供 API 服務(wù),只有開源模型才會(huì)繼續(xù)提供 API 接口。
AI 行業(yè)正面臨重大轉(zhuǎn)型,模型本身已成為產(chǎn)品,未來主導(dǎo)權(quán)將掌握在那些專注于模型訓(xùn)練的公司手中。
https://vintagedata.org/blog/posts/model-is-the-product
圖靈獎(jiǎng)得主:科學(xué)里沒有權(quán)威
Richard Sutton 在榮獲計(jì)算機(jī)科學(xué)最高榮譽(yù)——圖靈獎(jiǎng)后,接受了一場獨(dú)家采訪。
他表示,當(dāng)初收到獲獎(jiǎng)通知時(shí)完全出乎意料,甚至因忘記會(huì)議時(shí)間而遲到,直到看到一群他略感面熟的前圖靈獎(jiǎng)得主才意識(shí)到發(fā)生了什么。
在訪談中,Sutton 強(qiáng)調(diào)了強(qiáng)化學(xué)習(xí)的核心理念——從經(jīng)驗(yàn)中學(xué)習(xí)。
他指出這與大語言模型等其他人工智能技術(shù)有著本質(zhì)區(qū)別,大語言模型主要是從人類那里學(xué)習(xí)并模仿人類行為,而強(qiáng)化學(xué)習(xí)是從直接經(jīng)驗(yàn)中學(xué)習(xí),這是最自然的學(xué)習(xí)方式。
Sutton 還特別提到,這一理念可以追溯到人工智能之父艾倫·圖靈。
早在 1947 年,圖靈在倫敦?cái)?shù)學(xué)學(xué)會(huì)的演講中就明確表示「我們想要的是一臺(tái)能從經(jīng)驗(yàn)中學(xué)習(xí)的機(jī)器。」不僅如此,圖靈還提出了獎(jiǎng)勵(lì)和懲罰的概念,這正是現(xiàn)代強(qiáng)化學(xué)習(xí)的基礎(chǔ)。
面對(duì)近年來強(qiáng)化學(xué)習(xí)技術(shù)在 AlphaGo 和最近 DeepSeek 等項(xiàng)目中的重大突破,Sutton 保持著冷靜的態(tài)度。他認(rèn)為 AI 的發(fā)展是一場馬拉松而非短跑,盡管取得了巨大進(jìn)步,「AI 最具影響力的部分還沒到來。」
對(duì)于年輕研究者,這位圖靈獎(jiǎng)得主建議要志向遠(yuǎn)大,但別驕傲自滿。 他特別強(qiáng)調(diào)了「科學(xué)里沒有權(quán)威」的理念,鼓勵(lì)研究者保持質(zhì)疑精神,不論對(duì)方擁有什么頭銜或榮譽(yù)。
Sutton 也分享了自己的一個(gè)重要理念:「每個(gè)人能做的最重要貢獻(xiàn),往往是那些對(duì)自己來說顯而易見的東西?!惯@也許正是這位強(qiáng)化學(xué)習(xí)先驅(qū)最終獲得計(jì)算機(jī)科學(xué)最高榮譽(yù)的秘訣。
https://www.youtube.com /watch?v=9_PepvnqIfU&t=29s&ab_channel=Amii
彩蛋時(shí)間
作者:@yu285338525
工具:Midjourney
Prompt:In the city, a white long-haired Angora cat standing on a rooftop, looking down at the bustling street below. Realistic style, taken with an old-fashioned camera
鏈接:https://www.midjourney.com/jobs/8b97d932-099a-4902-a088-a28c3dfc0fcb?index=0
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標(biāo)題「姓名+崗位名稱」(請(qǐng)隨簡歷附上項(xiàng)目/作品或相關(guān)鏈接)

羊城登頂,《街球霸王》全國總決賽圓滿落幕”.jpg)
標(biāo)簽: