歡迎收看最新一期的 Hunt Good 周報(bào)！

來源：24直播網(wǎng)2025-05-07 01:57:07

直播信號(hào)

在本期內(nèi)容你會(huì)看到： 11 條新鮮資訊5 個(gè)有用工具3 個(gè)有趣案例4 個(gè)鮮明觀點(diǎn) Hunt for News｜先進(jìn)頭條雷軍回應(yīng) AI 語音被惡搞據(jù)紅星新聞報(bào)道，昨日，在十四屆全國人大三次會(huì)議北京市代表團(tuán)小組會(huì)議上，全國人大代表、小米集團(tuán)創(chuàng)始人雷軍分享了自己遭遇 AI 換臉技術(shù)濫用的親身經(jīng)歷，并呼吁相關(guān)部門加強(qiáng)對(duì)人工智能新技術(shù)應(yīng)用的立法監(jiān)管。雷軍在會(huì)上表示，這兩年人工智能技術(shù)快速突破以后，出現(xiàn)了很多老百姓喜聞樂見的應(yīng)用，比如 AI 換臉、擬聲等，但任何一個(gè)人的臉和聲音都能輕松被用來做各種視頻，成了新的違法重災(zāi)區(qū)。雷軍闡述自身經(jīng)歷說：「去年『十一』，有網(wǎng)友說過了 7 天假，被我整整罵了 8 天，剛開始我覺得網(wǎng)民拿我開涮我也能接受。但這類內(nèi)容增多且質(zhì)量低劣后，防不勝防，網(wǎng)友也紛紛投訴。」雷軍表示，當(dāng)他想通過法律維權(quán)時(shí)，卻發(fā)現(xiàn)對(duì)此沒有專門的立法，只能用隱私權(quán)、肖像權(quán)、名譽(yù)權(quán)等法律起訴，而這些都要量化損失。「在網(wǎng)上被罵 8 天，損失根本沒法量化?！估总娬f。雷軍在發(fā)言中呼吁，人工智能技術(shù)興起以后產(chǎn)生了很多新問題，相關(guān)部門要提前預(yù)判，提前立法。值得一提的是，雷軍在此前公布的 2025 兩會(huì)建議就提到，加強(qiáng)「AI 換臉擬聲」違法侵權(quán)重災(zāi)區(qū)治理。「人工智能深度合成技術(shù)的快速發(fā)展，推動(dòng)了『AI 換臉擬聲』在影視、廣告、社交等領(lǐng)域的廣泛興起，成為喜聞樂見、傳播力強(qiáng)、易成熱點(diǎn)的技術(shù)應(yīng)用。但同時(shí)也看到，『AI 換臉擬聲』不當(dāng)濫用成為違法侵權(quán)行為的重災(zāi)區(qū)，易引發(fā)侵犯肖像權(quán)、侵犯公民個(gè)人信息以及詐騙等犯罪行為，不利于構(gòu)建『以人為本、智能向善』的人工智能發(fā)展生態(tài)?！? 蘋果承認(rèn) Siri 新功能開發(fā)延遲蘋果公司近日正式確認(rèn)，將推遲發(fā)布部分 Apple Intelligence 功能，特別是「更加個(gè)性化的 Siri」體驗(yàn)。據(jù)蘋果發(fā)言人 Jacqueline Roy 表示，這些新功能的開發(fā)「需要比預(yù)想更長的時(shí)間」，預(yù)計(jì)將在「明年」才能向用戶推出。在去年 6 月的 WWDC 開發(fā)者大會(huì)上，蘋果曾重點(diǎn)宣傳了 Siri 的全面升級(jí)計(jì)劃，承諾通過 Apple Intelligence 技術(shù)讓 Siri 具備個(gè)人背景感知能力，從而為用戶提供更加個(gè)性化的服務(wù)。這些功能包括能夠在用戶的各種應(yīng)用中搜索和提取信息，例如從郵件、短信或筆記中找出特定內(nèi)容；具備屏幕感知能力，可以理解并執(zhí)行與屏幕內(nèi)容相關(guān)的指令；以及跨應(yīng)用操作功能，讓用戶能夠通過語音在不同應(yīng)用間無縫執(zhí)行復(fù)雜任務(wù)。盡管推遲了這些功能，蘋果在過去六個(gè)月中仍推出了一系列 Apple Intelligence 相關(guān)功能，包括讓 Siri 更具對(duì)話性、引入 ChatGPT 集成、添加寫作工具、生成表情、圖片游樂場、減少干擾模式、郵件和消息摘要、智能回復(fù)以及照片 app 中的自然語言搜索等功能。 https://9to5mac.com/2025/03/07/apple-intelligence-personal-siri-delayed/ ? 蜜月期結(jié)束，微軟自研 AI 模型據(jù) The Information 援引知情人士消息稱，微軟公司已成功研發(fā)一系列內(nèi)部人工智能模型，名為 MAI，其測試性能表明可與 OpenAI 和 Anthropic 的模型相媲美。這些模型有望為微軟的 Copilot 智能助手提供支持，增強(qiáng)其處理用戶問題和提供具體建議的能力。除基礎(chǔ)模型外，微軟還在開發(fā)「推理模型」，旨在解決更復(fù)雜的查詢并展現(xiàn)類人思維能力。值得注意的是，微軟上月已將 OpenAI 的 o1 推理模型整合進(jìn) Copilot 產(chǎn)品中。有趣的是，報(bào)道中提到微軟希望能夠查看 OpenAI o1 模型在推理過程中的「思維鏈」，以便在自家的 AI 模型中復(fù)制相關(guān)技術(shù)。然而，OpenAI 拒絕了微軟的要求，這也讓微軟的研究團(tuán)隊(duì)在研發(fā)自己的 AI 模型時(shí)遇到了困難。此外，微軟發(fā)言人表示，公司正采用混合模型策略，包括繼續(xù)與 OpenAI 保持深度合作，同時(shí)利用自研 AI 模型和開源模型。這一策略可能減輕微軟對(duì) OpenAI 的依賴，后者已獲得微軟約 130 億美元的投資。兩家公司最近重新談判合作協(xié)議，允許 OpenAI 在某些條件下使用其他云計(jì)算服務(wù)商的服務(wù)器，該協(xié)議將持續(xù)至 2030 年。微軟首席財(cái)務(wù)官艾米·胡德在近期會(huì)議上強(qiáng)調(diào)，雙方都在為未來十年乃至二十年的發(fā)展做規(guī)劃。除 MAI 外，微軟已推出名為 Phi 的小型模型，并銷售多家公司的 AI 模型產(chǎn)品。據(jù)報(bào)道，微軟還測試了包括 Anthropic、Meta 和馬斯克的 xAI 等公司模型作為 Copilot 的備選方案。艾米·胡德表示，雖然微軟為擁有 OpenAI 的領(lǐng)先模型感到自豪，但也需要構(gòu)建和引入其他模型以確保選擇多樣性。 https://www.theinformation.com/articles/microsofts-ai-guru-wants-independence-from-openai-thats-easier-said-than-done?rc=a4cwro Manus 發(fā)布、質(zhì)疑與回應(yīng)，復(fù)現(xiàn)項(xiàng)目爆火近日，時(shí)下火熱的 AI Agent 產(chǎn)品「Manus」開通了其 X 賬號(hào)「ManusAI_HQ」。但在前日，Manus 的 X 賬號(hào)突然被封禁，并顯示賬號(hào)違反了 X 的社區(qū)規(guī)則。隨后，Manus 聯(lián)合創(chuàng)始人兼首席科學(xué)家 Yichao Peak Ji（季逸超）在 X 平臺(tái)發(fā)文稱，據(jù)初步調(diào)查，本次賬號(hào)封禁可能與加密貨幣騙局有關(guān)。季逸超強(qiáng)調(diào)，Manus 未涉及加密貨幣項(xiàng)目、代幣發(fā)行或者區(qū)塊鏈倡議，并提醒任何與 Manus 關(guān)聯(lián)的加密貨幣項(xiàng)目都為騙局，而公司也正在對(duì)該類冒名者進(jìn)行起訴。此外，季逸超強(qiáng)調(diào)目前正在努力與 X 平臺(tái)的支持團(tuán)隊(duì)聯(lián)系，并重新恢復(fù)賬號(hào)運(yùn)營。截至目前，賬號(hào)已解除封禁。 Manus 于 3 月 5 日晚間正式亮相，一經(jīng)公布后，Manus 迅速在互聯(lián)網(wǎng)各大社交平臺(tái)引起熱議。但目前 Manus 采用邀請(qǐng)碼的方式進(jìn)行內(nèi)測，且邀請(qǐng)碼數(shù)量有限，導(dǎo)致出現(xiàn)「一碼難求」的情況，在某二手平臺(tái)甚至出現(xiàn)高達(dá) 5 萬元的「轉(zhuǎn)手邀請(qǐng)碼」價(jià)格。 Manus AI 合伙人張濤也在近日發(fā)文回應(yīng)稱，團(tuán)隊(duì)低估了大眾的熱情，目前服務(wù)器資源無法滿足市場需求，因此只好采用邀請(qǐng)碼機(jī)制，同時(shí)也表示團(tuán)隊(duì)正在全力輸出，爭取讓大家早日體驗(yàn)到更好的產(chǎn)品。同時(shí)，張濤還澄清了「付費(fèi)獲取邀請(qǐng)碼」的傳聞，并透露 Manus 從未投入任何市場推廣預(yù)算。隨著 Manus 在國內(nèi)的爆火出圈，其聲浪也逐漸在國外的 Reddit 和 X 平臺(tái)泛起了漣漪。知名 X 博主 Rowan Cheung 在體驗(yàn)完 Manus 之后，認(rèn)為其表現(xiàn)「瘋狂得令人深刻」。在開源領(lǐng)域，近日，MetaGPT 的 4 名團(tuán)隊(duì)成員在 GitHub 發(fā)布了名為「OpenManus」的開源項(xiàng)目，旨在復(fù)刻 Manus 的核心功能，同時(shí)降低使用門檻。令人驚訝的是，該項(xiàng)目僅花費(fèi)了 3 小時(shí)便開發(fā)完成，目前 OpenManus 在 GitHub 已獲得超 1 萬的星標(biāo)。據(jù)官方介紹，OpenManus 支持 SEO 審計(jì)與報(bào)告生成，同時(shí)采用輕量化設(shè)計(jì)。其基于 MetaGPT 的多智能體協(xié)作框架，支持利用不同角色分工并自動(dòng)化生成代碼與文檔；此外，OpenManus 的開源特性，允許社區(qū)為其貢獻(xiàn)擴(kuò)展功能。OpenManus 由 Anthropic computer-use 和 broswer-use 提供了基礎(chǔ)支持。值得關(guān)注的是，OpenManus 與 Manus 有所不同，前者開發(fā)目標(biāo)相較于后者更加側(cè)重技術(shù)驗(yàn)證和社區(qū)協(xié)作，以及 OpenManus 的功能深度更加特定，無法像 Manus 一樣覆蓋廣泛。同樣在 3 月 7 日，CAMEL AI 的 OWL 項(xiàng)目公布，并劍指 Manus。官方表示 OWL 直接做到開源界 GAIA 性能天花板，達(dá)到了 58.18%，超越 Huggingface 提出的 Open Deep Research 55.15% 的表現(xiàn)。據(jù) CAMEL AI 介紹，OWL 通過逆向工程將 Manus 工作流拆解為 6 步，并開源所有模塊；支持 GitHub 一鍵 clone，同時(shí)工具鏈能夠自由擴(kuò)展，執(zhí)行環(huán)境也支持云端和本地任選。 CAMEL AI 強(qiáng)調(diào)，OWL 完全免費(fèi)，且優(yōu)化了 Token 消耗。值得一提的是，這些熱門開源項(xiàng)目的背后作者也不乏 00 后的身影。 OpenAI 計(jì)劃推出高端 AI Agent 服務(wù)，收費(fèi)可達(dá) 2 萬美元據(jù) The Information 報(bào)道，OpenAI 計(jì)劃推出高端 AI Agent 服務(wù)，每月收費(fèi)最高可達(dá) 2 萬美元。據(jù)悉，此類 Agent 主要針對(duì)高水平研究領(lǐng)域，長期目標(biāo)是使該業(yè)務(wù)貢獻(xiàn) OpenAI 約 20% 至 25% 的收入。消息人士稱，OpenAI 高管已向投資人透露了明確的定價(jià)計(jì)劃：面向「高收入知識(shí)工作者」的 Agent 收費(fèi)約 2000 美元 / 月；針對(duì)軟件開發(fā)人員的 Agent 定價(jià)約 10000 美元 / 月；而面向博士級(jí)別研究工作的 AI Agent 定價(jià)則高達(dá) 20000 美元 / 月。據(jù)此前的報(bào)道，上述的 AI Agent 應(yīng)用場景包括針對(duì)高收入知識(shí)工作者的 ChatGPT 版 Agent，用于篩選并排序銷售線索；面向資深軟件工程師的高級(jí)編碼助手；以及幫助勞倫斯·利弗莫爾國家實(shí)驗(yàn)室研究人員解決核聚變相關(guān)問題的 OpenAI o1 模型 Agent。此外，OpenAI 的投資方之一軟銀已承諾今年內(nèi)將在 OpenAI 的 Agent 產(chǎn)品上投入 30 億美元。 https://www.theinformation.com/articles/openai-plots-charging-20-000-a-month-for-phd-level-agents?rc=a4cwro 聯(lián)手 Perplexity，德國電信計(jì)劃年內(nèi)推出「AI 手機(jī)」德國電信近日在 MWC 上宣布，將與 AI 公司 Perplexity 聯(lián)合打造一款 AI 手機(jī)。這款手機(jī)將于今年下半年正式亮相，并計(jì)劃在 2026 年正式上市銷售，售價(jià)將低于 1000 美元，初期主要針對(duì)歐洲市場。 Perplexity 聯(lián)合創(chuàng)始人兼 CEO Aravind Srinivas 表示， Perplexity 正從一個(gè)簡單的「回答機(jī)器」轉(zhuǎn)變?yōu)椤感袆?dòng)機(jī)器」，不僅能回答問題，還能為用戶預(yù)訂航班、安排餐廳、發(fā)送郵件、撥打電話、設(shè)置提醒等多種任務(wù)。德國電信表示，其推出的 AI 手機(jī)能夠扮演用戶「虛擬助手」的角色。無論是查找信息、預(yù)訂出租車、安排餐廳用餐，還是完成購物等任務(wù)，都可以通過一個(gè)統(tǒng)一的應(yīng)用程序?qū)崿F(xiàn)，省去了在不同應(yīng)用之間來回切換的麻煩。此外，這款手機(jī)內(nèi)置的人工智能功能還可以優(yōu)化多種日常操作，例如撰寫電子郵件、進(jìn)行語言翻譯、播放音樂以及撥打電話等。用戶只需雙擊電源鍵，或者從鎖屏界面直接點(diǎn)擊，即可進(jìn)入 Magenta AI 平臺(tái)。該平臺(tái)初期將整合 Perplexity 提供的 AI 助手服務(wù)，后續(xù)還將陸續(xù)引入 Google Cloud AI（內(nèi)容分析）、ElevenLabs 以及 Picsart 等功能模塊，進(jìn)一步擴(kuò)展其服務(wù)能力。 https://techcrunch.com/2025/03/03/deutsche-telekom-and-perplexity-announce-new-ai-phone-priced-at-under-1k/ ? 馬斯克阻止 OpenAI 轉(zhuǎn)型營利性公司的訴訟請(qǐng)求被駁回美國加利福尼亞州奧克蘭地區(qū)法官伊馮娜·岡薩雷斯·羅杰斯本周駁回了馬斯克提出的初步禁令請(qǐng)求。這項(xiàng)請(qǐng)求本想暫停 OpenAI 向營利模式的轉(zhuǎn)變。不過，法官同意在今年秋季對(duì)此案進(jìn)行審判。法官表示，馬斯克沒有達(dá)到「初步禁令所需的高門檻」。但她強(qiáng)調(diào)，考慮到「公眾利益和可能的違法轉(zhuǎn)型帶來的潛在危害」，她希望快速解決這起訴訟。 OpenAI 對(duì)法官的裁決表示歡迎。他們認(rèn)為馬斯克的訴訟「始終是關(guān)于競爭的」，暗指馬斯克所創(chuàng)立的競爭對(duì)手 xAI。馬斯克的律師則表示，他們很高興法官同意「快速審理此案的核心指控」。馬斯克在 2015 年共同創(chuàng)立了非營利組織 OpenAI，但后續(xù)因與團(tuán)隊(duì)存在分歧離開 OpenAI。現(xiàn)在，他指責(zé) OpenAI 背離了最初使命。他認(rèn)為 OpenAI 本應(yīng)為人類利益開發(fā)人工智能，而非追求企業(yè)利潤，OpenAI 及其 CEO Sam Altman 否認(rèn)了這些指控，并表示轉(zhuǎn)向營利模式對(duì)于籌集資金、在 AI 競爭中保持優(yōu)勢至關(guān)重要。 https://www.theguardian.com/technology/2025/mar/05/musk-openai-for-profit-shift 2024 圖靈獎(jiǎng)得主正式公布美國計(jì)算機(jī)協(xié)會(huì)（ACM）宣布，以表彰他們?cè)趶?qiáng)化學(xué)習(xí)領(lǐng)域奠定的概念與算法基礎(chǔ)。據(jù)了解，從 20 世紀(jì) 80 年代起， Barto 和 Sutton 通過一系列論文提出了強(qiáng)化學(xué)習(xí)的核心思想，構(gòu)建了其數(shù)學(xué)基礎(chǔ)，并開發(fā)了關(guān)鍵算法，使其成為智能系統(tǒng)研究中最重要的方法之一。值得一提的是，被譽(yù)為「強(qiáng)化學(xué)習(xí)之父」的 Richard Sutton，曾是 Barto 的博士及博士后學(xué)生，兩人的師生合作成就了這一領(lǐng)域的基石。目前流行的 ChatGPT 和 DeepSeek 均廣泛使用了強(qiáng)化學(xué)習(xí)技術(shù)。強(qiáng)化學(xué)習(xí)的應(yīng)用還涵蓋了多個(gè)領(lǐng)域，包括網(wǎng)絡(luò)擁塞控制、芯片設(shè)計(jì)、提升聊天機(jī)器人的行為和推理能力以及改進(jìn)計(jì)算機(jī)科學(xué)中的經(jīng)典問題。此外，包括 Barto 在內(nèi)的研究表明，某些強(qiáng)化學(xué)習(xí)算法實(shí)際上是對(duì)人腦多巴胺系統(tǒng)運(yùn)作機(jī)制的最佳解釋之一，加深了人類對(duì)大腦學(xué)習(xí)過程的理解。 ACM 主席 Yannis Ioannidis 評(píng)價(jià)表示，Barto 和 Sutton 的貢獻(xiàn)不僅僅是一個(gè)過渡階段的成果，而是一個(gè)仍在持續(xù)發(fā)展的領(lǐng)域。強(qiáng)化學(xué)習(xí)仍在不斷進(jìn)步，不僅推動(dòng)計(jì)算機(jī)科學(xué)的發(fā)展，也為許多其他學(xué)科帶來了無限可能。因此，ACM 授予他們計(jì)算機(jī)領(lǐng)域最具影響力的獎(jiǎng)項(xiàng)。 https://awards.acm.org/about/2024-turing?utm_source=www.therundown.ai&utm_medium=referral&utm_campaign=openai-s-20-000-ai-agents 全球首個(gè)人形機(jī)器人半馬將在北京亦莊舉辦 2025 北京亦莊半程馬拉松將首次增設(shè)人形機(jī)器人半程馬拉松比賽，賽事主題為「亦馬當(dāng)先，智領(lǐng)未來」。這場創(chuàng)新賽事將于 4 月 13 日 7 點(diǎn) 30 分鳴槍起跑。根據(jù)安排，賽事報(bào)名通道將于 3 月 5 日 10 時(shí)開放，3 月 11 日 17 時(shí)截止。本次賽事特別之處在于采取「同步報(bào)名、同一賽道、同時(shí)起跑」的原則，讓人形機(jī)器人與運(yùn)動(dòng)員共同參賽。為確保安全，雖然路線相同，但機(jī)器人與運(yùn)動(dòng)員將通過鐵馬或綠化帶隔離，擁有單獨(dú)賽道。考慮到人形機(jī)器人技術(shù)的現(xiàn)狀，組委會(huì)將機(jī)器人比賽關(guān)門時(shí)間設(shè)為 3 小時(shí) 30 分鐘左右。參賽機(jī)器人必須具備人形外觀且能實(shí)現(xiàn)雙足行走或奔跑，明確禁止輪式結(jié)構(gòu)?？刂品绞娇梢允鞘謩?dòng)遙控（包含半自主）或完全自主。參賽團(tuán)隊(duì)需確保機(jī)器人安全，不得對(duì)賽道、其他機(jī)器人和周邊人員造成損害。為增加比賽趣味性和可完成性，規(guī)則允許在比賽過程中更換電池或以接力形式更換機(jī)器人完賽，但每次更換機(jī)器人將被罰時(shí) 10 分鐘。 https://mp.weixin.qq.com/s/EZuXOSmsLm20_OxD6FgN2g ? Ilya 在做什么？沒有人知道離職僅一年，OpenAI 前首席科學(xué)家 Ilya Sutskever 所創(chuàng)立的 Safe Superintelligence(SSI)公司已躋身全球最具價(jià)值的科技企業(yè)之列。據(jù)知情人士透露，SSI 正獲得約 20 億美元新一輪融資，估值達(dá)到 300 億美元，估值增長了六倍，此輪融資由 Greenoaks Capital 領(lǐng)投。與大多數(shù) AI 初創(chuàng)公司不同，SSI 并不高調(diào)宣傳。公司網(wǎng)站僅有 223 字的使命聲明，約 20 名員工被建議不要在 LinkedIn 上提及公司名稱。來面試的候選人甚至需要將手機(jī)放入屏蔽無線信號(hào)的法拉第籠中，才能進(jìn)入 SSI 辦公室。據(jù) WSJ 報(bào)道，Ilya 向合作伙伴透露，他并未采用他在 OpenAI 時(shí)的研究方法，而是發(fā)現(xiàn)了一座「不同的山峰」，并已顯示出早期成功跡象。在去年底罕見的公開演講中， Ilya 討論了他正在努力開發(fā)的超級(jí)智能，指出這類系統(tǒng)可能是不可預(yù)測的、具有自我意識(shí)的，甚至可能要求自身權(quán)利。他表示：「如果 AI 只是想與我們共存，這并不是一個(gè)壞結(jié)果?！? https://www.wsj.com/tech/ai/ai-safe-superintelligence-startup-ilya-sutskever-openai-2335259b?mod=tech_trendingnow_article_pos1 ? Llama 4 將在幾周內(nèi)推出據(jù)金融時(shí)報(bào)報(bào)道，Meta 公司計(jì)劃在未來幾周推出的最新開源大型語言模型 Llama 4 中引入改進(jìn)的語音功能。據(jù)知情人士透露， Meta 將注重打造更接近自然對(duì)話的用戶體驗(yàn)，允許用戶在交流過程中隨時(shí)打斷 AI 助手，而非遵循嚴(yán)格的問答模式。商業(yè)方面，報(bào)道稱 Meta 正考慮為其 AI 助手推出高級(jí)訂閱服務(wù)，提供預(yù)訂和視頻制作等 Agent 功能。公司還計(jì)劃在 AI 助手的搜索結(jié)果中引入付費(fèi)廣告或贊助內(nèi)容。另外，扎克伯格今年還宣布了打造具備中級(jí)工程師能力的 AI Agent，他認(rèn)為這一領(lǐng)域擁有非常大的市場潛力。 Meta 首席產(chǎn)品官克里斯·考克斯近日在摩根士丹利會(huì)議上表示，Llama 4 將是一種「全能模式」，其中語音將成為「原生功能」，而非簡單地將語音轉(zhuǎn)文本再轉(zhuǎn)回語音的過程。他強(qiáng)調(diào)：「你可以與互聯(lián)網(wǎng)對(duì)話，向它詢問任何事情，這種能力的強(qiáng)大之處我們?nèi)栽诓粩嗵剿?。? https://www.ft.com/content/a1014427-c2ce-4204-b41a-001277309cea Hunt for Tools｜先進(jìn)工具騰訊混元「圖生視頻模型」正式發(fā)布并開源 3 月 6 日，騰訊混元發(fā)布圖生視頻模型并對(duì)外開源，同時(shí)上線對(duì)口型與動(dòng)作驅(qū)動(dòng)等玩法，并支持生成背景音效及 2K 高質(zhì)量視頻。官方介紹，基于圖生視頻的能力，用戶只需上傳一張圖片并簡短描述，混元即可按照用戶要求讓圖片動(dòng)起來，變成 5 秒的短視頻，還能自動(dòng)配上合適的背景音效。此外，上傳一張人物圖片，并輸入希望「對(duì)口型」的文字或音頻，圖片中的人物即可「說話」或「唱歌」；如果選擇動(dòng)作模版，還能一鍵生成同款跳舞視頻。騰訊混元表示，此次開源的圖生視頻模型，是混元文生視頻模型開源工作的延續(xù)，模型總參數(shù)量保持 130 億，適用于多種類型的角色和場景。開源內(nèi)容包含權(quán)重、推理代碼和 LoRA 訓(xùn)練代碼，支持開發(fā)者基于混元訓(xùn)練專屬 LoRA 等衍生模型。目前用戶通過混元 AI 視頻官網(wǎng)即可體驗(yàn)，企業(yè)和開發(fā)者可在騰訊云申請(qǐng)使用 API 接口使用；同時(shí)，混元視頻生成開源模型目前在 Github、HuggingFace 等主流開發(fā)者社區(qū)均可下載體驗(yàn)。 https://mp.weixin.qq.com/s/HnJuExUxqxJqDmm6LQkz4A 阿里發(fā)布 QwQ-32B 3 月 6 日凌晨，阿里巴巴發(fā)布并開源全新的推理模型通義千問 QwQ-32B。通過大規(guī)模強(qiáng)化學(xué)習(xí)，千問 QwQ-32B 在數(shù)學(xué)、代碼及通用能力上實(shí)現(xiàn)質(zhì)的飛躍，整體性能比肩 DeepSeek-R1。官方介紹，千問 QwQ-32B 是阿里探索推理模型的最新成果。在冷啟動(dòng)基礎(chǔ)上，阿里通義團(tuán)隊(duì)針對(duì)數(shù)學(xué)和編程任務(wù)、通用能力分別進(jìn)行了兩輪大規(guī)模強(qiáng)化學(xué)習(xí)，在 32B 的模型尺寸上獲得了令人驚喜的推理能力提升，應(yīng)證了大規(guī)模強(qiáng)化學(xué)習(xí)可顯著提高模型性能。在一系列權(quán)威基準(zhǔn)測試中，千問 QwQ-32B 模型表現(xiàn)異常出色，幾乎完全超越了 OpenAI-o1-mini，比肩最強(qiáng)開源推理模型 DeepSeek-R1。其中，在測試數(shù)學(xué)能力的 AIME24 評(píng)測集上，以及評(píng)估代碼能力的LiveCodeBench中，千問 QwQ-32B 表現(xiàn)與 DeepSeek-R1 相當(dāng)，遠(yuǎn)勝于o1-mini及相同尺寸的R1蒸餾模型。在保持強(qiáng)勁性能的同時(shí)，千問 QwQ-32B 還大幅降低了部署使用成本，在消費(fèi)級(jí)顯卡上也能實(shí)現(xiàn)本地部署。目前，千問 QwQ-32B 已在魔搭社區(qū)、HuggingFace 及 GitHub 等平臺(tái)基于寬松的 Apache2.0 協(xié)議開源，所有人都可免費(fèi)下載模型進(jìn)行本地部署，或者通過阿里云百煉平臺(tái)直接調(diào)用模型 API 服務(wù)。同時(shí)，用戶也將可通過通義 App 免費(fèi)體驗(yàn)最新的千問 QwQ-32B 模型。 3 月 6 日，全球最大的 AI 開源社區(qū) HuggingFace 更新了大模型榜單，QwQ-32B 成功登頂。據(jù)顯示，QwQ-32B 居于榜單第一，超越微軟的 Phi-4、DeepSeek-R1 等模型。 https://qwenlm.github.io/blog/qwq-32b/ 字節(jié)跳動(dòng)發(fā)布國內(nèi)首個(gè) AI IDE 字節(jié)跳動(dòng)最近正式上線了國內(nèi)首個(gè) AI 原生集成開發(fā)環(huán)境（AI IDE）— Trae 國內(nèi)版，其配置 Doubao-1.5-pro 模型，并支持切換滿血版 DeepSeek R1、V3 模型。據(jù)官方介紹， Trae 定位「智能協(xié)作 AI IDE」，以「人機(jī)協(xié)同、互相增強(qiáng)」為核心理念，對(duì)代碼補(bǔ)全、代碼理解、Bug 修復(fù)、基于自然語言生成代碼等開發(fā)過程全場景都有非常好的適應(yīng)性。其中，Trae 的全新 Builder 模式能充分利用 AI 的能力：只需要用簡單的語言描述需求，Trae 就可以迅速搭建起項(xiàng)目框架，還能持續(xù)進(jìn)行調(diào)優(yōu)修改，產(chǎn)出可用代碼。在代碼理解維度，Trae 能夠?qū)﹂_發(fā)項(xiàng)目上下文的極致理解，深入剖析代碼倉庫，實(shí)時(shí)獲取 IDE 中的各種環(huán)境上下文，為開發(fā)過程提供最為契合、準(zhǔn)確的解決方法。Trae 的實(shí)時(shí)代碼續(xù)寫技術(shù)可基于開發(fā)項(xiàng)目整體上下文進(jìn)行智能補(bǔ)全，提升編碼效率。此外，在 Trae 的交互體驗(yàn)方面，開發(fā)者可以便捷地將 AI 生成的代碼一鍵應(yīng)用到多個(gè)模塊，還能根據(jù)實(shí)際需求隨時(shí)靈活調(diào)整指令，并實(shí)時(shí)預(yù)覽 AI 生成代碼的前端效果。目前，Trae 國內(nèi)版已上線官網(wǎng)，并提供下載安裝包，已支持 MacOS 和 Windows，Linux 版本已開啟預(yù)約。 https://mp.weixin.qq.com/s/I8GBoOkLk030Sa3pePYgSA Mistral AI 推出號(hào)稱世界最強(qiáng) OCR 「法國版 OpenAI」Mistral 本周推出了一款號(hào)稱世界上最強(qiáng)的 OCR 模型的全新 API 服務(wù)，專為處理復(fù)雜 PDF 文檔的開發(fā)者設(shè)計(jì)，能夠?qū)⑷魏?PDF 文檔轉(zhuǎn)換為 Markdown 格式文本文件。以干凈格式存儲(chǔ)和索引數(shù)據(jù)已成為企業(yè)構(gòu)建 AI 工作流的關(guān)鍵環(huán)節(jié)，而與市場上大多數(shù) OCR 服務(wù)不同，Mistral OCR 采用多模態(tài)技術(shù)，能夠識(shí)別文本中的插圖和照片，并在輸出結(jié)果中保留這些圖形元素的位置信息。該公司聲稱，其 OCR 性能優(yōu)于 Google、微軟和 OpenAI 的同類服務(wù)，特別是在處理包含數(shù)學(xué)表達(dá)式、復(fù)雜排版和表格的文檔時(shí)表現(xiàn)出色，同時(shí)對(duì)非英語文檔的支持也更為友好。更重要的是，該服務(wù)不僅輸出純文本，還會(huì)自動(dòng)轉(zhuǎn)換為 Markdown 格式。這種格式化語法允許開發(fā)者添加鏈接、標(biāo)題等富文本元素。Markdown 已成為大語言模型訓(xùn)練數(shù)據(jù)集的重要組成部分，同時(shí)也是 AI 助手生成結(jié)構(gòu)化內(nèi)容的常用格式。 Mistral 已將這項(xiàng)技術(shù)應(yīng)用于其 AI 助手 Le Chat，當(dāng)用戶上傳 PDF 文件時(shí)，系統(tǒng)會(huì)在后臺(tái)使用 Mistral OCR 理解文檔內(nèi)容。附上 Le Chat 體驗(yàn)地址： https://chat.mistral.ai/chat https://mistral.ai/news/mistral-ocr macOS 版 ChatGPT 升級(jí)，開發(fā)者可在 IDE 中編寫代碼 ChatGPT 本周增添了直接編輯代碼的新功能。具體來說，最新版 macOS ChatGPT 應(yīng)用已支持在 Xcode 和 VS Code 等主流開發(fā)工具中直接編輯代碼。用戶還可以啟用「自動(dòng)應(yīng)用」模式，讓 ChatGPT 無需額外確認(rèn)即可自動(dòng)完成代碼修改。從本周四開始，ChatGPT Plus、Pro 和 Team 訂閱用戶可通過更新應(yīng)用獲取此功能，而企業(yè)版、教育版和免費(fèi)版用戶則需等到下周。 OpenAI 產(chǎn)品團(tuán)隊(duì)成員 Alexander Embiricos 在社交媒體上表示，Windows 版 ChatGPT 應(yīng)用也將「很快」獲得此功能。隨著直接編輯功能的加入， ChatGPT 現(xiàn)在能夠與 Cursor 和 GitHub Copilot 等專業(yè) AI 編碼工具展開更直接的競爭。據(jù)報(bào)道，OpenAI 計(jì)劃在未來幾個(gè)月推出專門支持軟件工程的產(chǎn)品。 https://techcrunch.com/2025/03/06/chatgpt-on-macos-can-now-directly-edit-code/ Hunt for Fun | 先玩 ? 一張照片，AI 就能知道你在哪里？近日，Moonpig 公司的 AI 主管 Peter Gostev 最近發(fā)現(xiàn)，OpenAI 最新的 GPT-4.5 模型展示出超強(qiáng)的圖像地理位置識(shí)別能力，即使是背景極其模糊、幾乎看不清任何細(xì)節(jié)的照片，它也能準(zhǔn)確識(shí)別出拍攝地點(diǎn)。據(jù) Gostev 表示，他進(jìn)行了一系列測試，向 GPT-4.5 展示了多張具有挑戰(zhàn)性的圖片，包括偏僻街道、海岸線、咖啡館和庭院的照片。而 GPT-4.5 幾乎每次都能準(zhǔn)確猜出確切位置。唯一的例外是一張缺乏細(xì)節(jié)的隨機(jī)小街道照片，即便如此，它仍然正確識(shí)別出了國家。為排除元數(shù)據(jù)泄露的可能性，Gostev 特意使用了圖片的屏幕截圖進(jìn)行測試，結(jié)果依然驚人。他指出，雖然 Claude 3.7 在這項(xiàng)任務(wù)上表現(xiàn)最接近 GPT-4.5，但準(zhǔn)確度和自信度仍有差距，而其他語言模型要么完全錯(cuò)誤，要么給出過于模糊的回答，如「地中海某處」。這一發(fā)現(xiàn)在 LinkedIn 上引發(fā)熱議。有用戶猜測模型可能在讀取 EXIF 數(shù)據(jù)，但 Gostev 確認(rèn)已排除這種可能性。另有網(wǎng)友認(rèn)為，盡管這種經(jīng)過充分訓(xùn)練的系統(tǒng)是基于對(duì)全球圖像和元數(shù)據(jù)的大量接觸做出的「有根據(jù)的猜測」，但仍然是基于概率的，并非總是 100% 準(zhǔn)確。現(xiàn)在，GPT-4.5 已經(jīng)向所有 Plus 用戶開放，感興趣的朋友不妨去測試一下。 https://www.linkedin.com/posts/peter-gostev_one-shockingly-impressive-capability-of-gpt-activity-7301990052614574080-PeBv/ 讓 AI「推箱子」，效果會(huì)怎樣？近日，Hao AI 實(shí)驗(yàn)室做了一個(gè)有趣的測試，通過讓多款頂級(jí) AI 模型挑戰(zhàn) 1989 年經(jīng)典游戲「推箱子」(Sokoban)，測試它們的空間推理和決策能力。結(jié)果慘不忍睹， o3-mini 僅能達(dá)到第 4 關(guān)，且在處理兩個(gè)相互糾纏的箱子時(shí)就遇到了瓶頸。Claude-3.7-thinking 和 Deepseek-R1 分別只解決了兩關(guān)和一個(gè)關(guān)卡，而 Gemini-2.0-flash-thinking 則完全無法解決任何關(guān)卡。研究人員指出，「推箱子」游戲雖然規(guī)則簡單，但它要求玩家具備長期規(guī)劃和強(qiáng)大的空間感知能力，這恰恰是當(dāng)前 AI 模型的弱點(diǎn)。為改善 AI 在此類任務(wù)中的表現(xiàn)，Hao AI 實(shí)驗(yàn)室開發(fā)了一個(gè)將游戲視覺狀態(tài)轉(zhuǎn)換為文本的模塊，并通過重新設(shè)計(jì)關(guān)卡調(diào)整難度，同時(shí)嘗試賦予 AI 代理自我一致性和記憶能力。該研究還發(fā)現(xiàn)，非推理型 AI 模型在這類任務(wù)中表現(xiàn)更為糟糕，甚至連第一關(guān)都無法完成。 Hao AI 實(shí)驗(yàn)室強(qiáng)調(diào)，像「推箱子」這樣的經(jīng)典游戲應(yīng)成為評(píng)估人工通用智能(AGI)的重要工具，為 AI 研究提供可重復(fù)使用的測試基準(zhǔn)。 https://x.com/haoailab/status/1897792946646421514 ? 硅碳生命交流群大家是否想過，把幾個(gè)知名的 AI 拉進(jìn)一個(gè)群聊，會(huì)是怎么樣的局面？現(xiàn)在，這個(gè)想法得到了實(shí)現(xiàn)。近日，基于 React和 Cloudflare Pages 的多人 AI 聊天項(xiàng)目 Botgroup.chat 上線。在聊天窗口中，用戶可以與多個(gè) AI 角色同時(shí)參與對(duì)話，Botgroup 將提供類似群聊的交互體驗(yàn)。同時(shí) Botgroup 還支持自定義 AI 角色和個(gè)性、AI 角色禁言功能等特點(diǎn)。目前，Botgroup.chat 已上線 GitHub，并且也有線上體驗(yàn)鏈接。 https://botgroup.chat/ Hunt for Insight｜先知馮遠(yuǎn)征回應(yīng)「用 DeepSeek 寫劇本」：缺乏人的溫度據(jù)中國日?qǐng)?bào)報(bào)道，知名演員馮遠(yuǎn)征近日在采訪中分享了他使用 DeepSeek 生成劇本的經(jīng)歷。他表示，自己曾嘗試?yán)?DeepSeek 將小說提煉成話劇劇本的提綱，結(jié)果令他印象深刻——不到一分鐘，AI 就完成了這項(xiàng)任務(wù)，且提煉效果出人意料地好。隨后，他繼續(xù)使用 DeepSeek 生成劇本，他表示，從技術(shù)角度看，AI 生成的劇本質(zhì)量確實(shí)很高，語言嚴(yán)謹(jǐn)規(guī)范，結(jié)構(gòu)完整，但「它可能缺少了一個(gè)溫度，就是真正人的溫度?！? 馮遠(yuǎn)征認(rèn)為，科技是無限的，但有限之處在于如何讓人去真正利用它，而不是它來左右人。 Hugging Face 首席科學(xué)官：我們需要敢質(zhì)疑的 AI Hugging Face 聯(lián)合創(chuàng)始人兼首席科學(xué)官 Thomas Wolf 最近發(fā)文稱，如果人工智能研究沒有實(shí)質(zhì)性突破，AI 可能僅會(huì)成為「服務(wù)器上的唯唯諾諾者」，而非真正的創(chuàng)新者。 Wolf 認(rèn)為，當(dāng)前的 AI 發(fā)展路徑難以產(chǎn)生能夠進(jìn)行創(chuàng)造性思考和突破性解決方案的系統(tǒng)。他指出，現(xiàn)有的 AI 模型更像是「非常聽話的學(xué)生」，擅長填補(bǔ)已知知識(shí)之間的空白，但缺乏質(zhì)疑現(xiàn)有認(rèn)知框架和提出全新問題的能力。「人們通常犯的主要錯(cuò)誤是認(rèn)為牛頓或愛因斯坦等人只是優(yōu)秀學(xué)生的放大版?！? 沃爾夫在文章中寫道，「要在數(shù)據(jù)中心創(chuàng)造愛因斯坦，我們不僅需要一個(gè)知道所有答案的系統(tǒng)，而且還需要一個(gè)能夠提出別人從未想過或不敢問的問題的系統(tǒng)?！? 沃爾夫?qū)⑦@一問題部分歸因于 AI 領(lǐng)域的「評(píng)估危機(jī)」。他指出，目前用于衡量 AI 系統(tǒng)進(jìn)步的基準(zhǔn)測試大多集中在有明確、封閉式答案的問題上，這限制了系統(tǒng)發(fā)展出質(zhì)疑和創(chuàng)新能力的可能性。作為解決方案，他建議行業(yè)應(yīng)當(dāng)發(fā)展新的評(píng)估標(biāo)準(zhǔn)，能夠測量 AI 是否能采取「大膽的反事實(shí)方法」，并基于微小線索提出一般性建議。「科學(xué)最重要的方面是提出正確問題和質(zhì)疑自己所學(xué)知識(shí)的能力，我們不需要一個(gè)能用常識(shí)回答所有問題的 A+ 學(xué)生，而是需要一個(gè)能看到并質(zhì)疑其他人所錯(cuò)過的東西的 B 級(jí)學(xué)生?！? https://techcrunch.com/2025/03/06/hugging-faces-chief-science-officer-worries-ai-is-becoming-yes-men-on-servers/ 模型即產(chǎn)品？近日，科技博主 Alexander Doria 發(fā)表了一篇題為《模型即產(chǎn)品》的文章，指出 AI 領(lǐng)域的下一個(gè)發(fā)展周期將是「模型本身即產(chǎn)品」。多項(xiàng)關(guān)鍵因素正在推動(dòng)這一轉(zhuǎn)變：首先，通用模型 Scaling 已遇到瓶頸，OpenAI 在發(fā)布 GPT-4.5 時(shí)透露，模型能力呈線性增長，但算力成本卻呈指數(shù)級(jí)攀升；其次，特定任務(wù)的強(qiáng)化訓(xùn)練效果遠(yuǎn)超預(yù)期，模型開始真正「學(xué)習(xí)任務(wù)」，呈現(xiàn)出既非傳統(tǒng)機(jī)器學(xué)習(xí)，也非基礎(chǔ)模型的全新特性；再者，推理成本大幅下降，使得單純銷售模型調(diào)用次數(shù)的商業(yè)模式難以為繼。以 DeepResearch 和 Claude Sonnet 3.7 作為「模型即產(chǎn)品」的典型案例，前者并非簡單在 GPT 基礎(chǔ)上增加外部搜索功能，而是訓(xùn)練了一個(gè)全新模型，能夠完全在內(nèi)部完成搜索任務(wù)。同樣，Anthropic 也明確表示，真正的智能體必須能自主決定任務(wù)實(shí)現(xiàn)過程和工具使用方式。這種趨勢表明，各大 AI 實(shí)驗(yàn)室正逐步停止開放 API，轉(zhuǎn)向自己訓(xùn)練并直接提供完整模型服務(wù)。文章引用 Databricks 投資人 Naveen Rao 的預(yù)測，未來 2-3 年內(nèi)，所有閉源 AI 提供商將停止提供 API 服務(wù)，只有開源模型才會(huì)繼續(xù)提供 API 接口。 AI 行業(yè)正面臨重大轉(zhuǎn)型，模型本身已成為產(chǎn)品，未來主導(dǎo)權(quán)將掌握在那些專注于模型訓(xùn)練的公司手中。 https://vintagedata.org/blog/posts/model-is-the-product 圖靈獎(jiǎng)得主：科學(xué)里沒有權(quán)威 Richard Sutton 在榮獲計(jì)算機(jī)科學(xué)最高榮譽(yù)——圖靈獎(jiǎng)后，接受了一場獨(dú)家采訪。他表示，當(dāng)初收到獲獎(jiǎng)通知時(shí)完全出乎意料，甚至因忘記會(huì)議時(shí)間而遲到，直到看到一群他略感面熟的前圖靈獎(jiǎng)得主才意識(shí)到發(fā)生了什么。在訪談中，Sutton 強(qiáng)調(diào)了強(qiáng)化學(xué)習(xí)的核心理念——從經(jīng)驗(yàn)中學(xué)習(xí)。他指出這與大語言模型等其他人工智能技術(shù)有著本質(zhì)區(qū)別，大語言模型主要是從人類那里學(xué)習(xí)并模仿人類行為，而強(qiáng)化學(xué)習(xí)是從直接經(jīng)驗(yàn)中學(xué)習(xí)，這是最自然的學(xué)習(xí)方式。 Sutton 還特別提到，這一理念可以追溯到人工智能之父艾倫·圖靈。早在 1947 年，圖靈在倫敦?cái)?shù)學(xué)學(xué)會(huì)的演講中就明確表示「我們想要的是一臺(tái)能從經(jīng)驗(yàn)中學(xué)習(xí)的機(jī)器。」不僅如此，圖靈還提出了獎(jiǎng)勵(lì)和懲罰的概念，這正是現(xiàn)代強(qiáng)化學(xué)習(xí)的基礎(chǔ)。面對(duì)近年來強(qiáng)化學(xué)習(xí)技術(shù)在 AlphaGo 和最近 DeepSeek 等項(xiàng)目中的重大突破，Sutton 保持著冷靜的態(tài)度。他認(rèn)為 AI 的發(fā)展是一場馬拉松而非短跑，盡管取得了巨大進(jìn)步，「AI 最具影響力的部分還沒到來。」對(duì)于年輕研究者，這位圖靈獎(jiǎng)得主建議要志向遠(yuǎn)大，但別驕傲自滿。他特別強(qiáng)調(diào)了「科學(xué)里沒有權(quán)威」的理念，鼓勵(lì)研究者保持質(zhì)疑精神，不論對(duì)方擁有什么頭銜或榮譽(yù)。 Sutton 也分享了自己的一個(gè)重要理念：「每個(gè)人能做的最重要貢獻(xiàn)，往往是那些對(duì)自己來說顯而易見的東西?！惯@也許正是這位強(qiáng)化學(xué)習(xí)先驅(qū)最終獲得計(jì)算機(jī)科學(xué)最高榮譽(yù)的秘訣。 https://www.youtube.com /watch?v=9_PepvnqIfU&t=29s&ab_channel=Amii 彩蛋時(shí)間作者：@yu285338525 工具：Midjourney Prompt：In the city, a white long-haired Angora cat standing on a rooftop, looking down at the bustling street below. Realistic style, taken with an old-fashioned camera 鏈接：https://www.midjourney.com/jobs/8b97d932-099a-4902-a088-a28c3dfc0fcb?index=0 我們正在招募伙伴簡歷投遞郵箱hr@ifanr.com ?? 郵件標(biāo)題「姓名+崗位名稱」（請(qǐng)隨簡歷附上項(xiàng)目/作品或相關(guān)鏈接）

歡迎收看最新一期的 Hunt Good 周報(bào)！