瀏覽次數: 377

引言：AI 在學術研究中的新角色

2025 年被譽為 Agent 元年，這一年，AI 技術在學術研究中扮演了全新的角色。隨著 ByteDance Research 推出 PaSa 論文檢索智能體，學術界迎來了一場革命。這款基於強化學習的智能體應用，能夠模仿人類研究者的行為，快速完成繁瑣的論文調研工作。對於從事科研工作的你，這是否是你一直在尋找的科研小助手？

本文大綱

AI 驅動的學術研究革命

在過去，研究人員常常需要花費大量時間和精力來搜尋相關的學術論文，這不僅耗時，還可能因為信息過載而錯過關鍵資料。PaSa 的出現，正是為了解決這一痛點。它能夠自動調用搜索引擎，瀏覽相關論文，並追蹤引文網絡，僅需兩分鐘就能完成一次詳盡的學術調研。

Source: 2分钟完成论文调研！ByteDance Research推出论文检索智能体PaSa，远超主流检索工具

PaSa 的功能與潛力

PaSa 的核心在於其兩個 LLM Agents：Crawler 和 Selector。Crawler 負責自主調用搜索工具，閱讀論文並擴展參考文獻，最大化相關論文的召回率。Selector 則精讀 Crawler 找到的每篇論文，確保其符合用戶需求。這種設計使得 PaSa 在學術 Query 測試集上大幅超越了 Google 等主流檢索工具，Recall@20 和 Recall@50 分別提升了 37.78% 和 39.90%。

Source: 2分钟完成论文调研！ByteDance Research推出论文检索智能体PaSa，远超主流检索工具

未來的學術研究助手

隨著技術的進一步發展，PaSa 有望在更多領域發揮作用。它不僅能夠提高學術研究的效率，還能幫助研究人員更好地掌握最新的研究動態。對於科研人員來說，這是一個值得期待的工具。你是否準備好迎接 AI 驅動的研究新時代？

在這個充滿挑戰和機遇的時代，PaSa 的出現無疑為學術研究帶來了新的可能性。未來，隨著技術的不斷進步，AI 在學術研究中的角色將會更加重要，為研究人員提供更為強大的支持和幫助。

PaSa 的核心功能與優勢

在學術研究的領域中，PaSa 智能體的出現無疑是一個革命性的突破。其核心功能由兩個強大的 LLM Agents 組成：Crawler 和 Selector。這兩個智能體的協同工作，使得 PaSa 能夠在學術論文檢索中展現出卓越的性能。

Crawler：自動化的資料收集專家

Crawler 是 PaSa 的第一道防線，負責自動調用各種搜索工具，並深入閱讀學術論文。它的主要任務是擴展參考文獻，從而最大化相關論文的召回率。這一過程中，Crawler 能夠生成多樣且互補的搜索詞，進行多次搜索，確保不遺漏任何可能相關的資料。

Source: PaSa 框架：Crawler 的設計旨在最大化相關論文的召回率，而 Selector 則強調精確性，即識別論文是否符合用戶需求。

Crawler 的設計不僅僅是為了提高召回率，更重要的是它能夠評估其行為的長期價值。例如，在多步擴展引文網絡後，Crawler 能夠發現許多與用戶 Query 相關的論文，即使路徑中的中間論文並不直接與用戶需求匹配。這種能力使得 Crawler 在學術研究中成為一個不可或缺的工具。

Selector：精確的資料篩選專家

在 Crawler 收集到大量資料後，Selector 接手進行精讀。Selector 的主要任務是確保每篇論文都符合用戶的需求。它通過模仿學習進行訓練，生成一個 Decision Token，來決定論文是否符合用戶 Query 的需要。

Selector 不僅僅是篩選資料，它還會輸出決策依據，這使得用戶能夠更好地理解選擇的理由。這種精確的篩選過程，確保了 PaSa 在學術 Query 測試集上大幅超越了 Google 等主流檢索工具，Recall@20 和 Recall@50 分別提升了 37.78% 和 39.90%。

整體優勢與未來展望

PaSa 的這種設計，使得它在學術研究中展現出無與倫比的優勢。通過 Crawler 和 Selector 的協同工作，PaSa 能夠在短時間內完成大量的學術調研工作，這對於科研人員來說，無疑是一個巨大的福音。

未來，隨著技術的進一步發展，PaSa 有望在更多領域發揮作用。它不僅能夠提高學術研究的效率，還能幫助研究人員更好地掌握最新的研究動態。對於科研人員來說，這是一個值得期待的工具。你是否準備好迎接 AI 驅動的研究新時代？

PaSa 的技術架構與訓練方法

在學術研究的領域中，PaSa 智能體的技術架構和訓練方法是其成功的關鍵。這一部分將深入探討 PaSa 的技術細節，並展示其如何通過創新的訓練方法來提升學術檢索的效率和準確性。

高質量數據集：AutoScholarQuery

PaSa 的訓練基於一個名為 AutoScholarQuery 的高質量學術細粒度 Query 數據集。該數據集是通過收集人工智能領域頂會（如 ICLR 2023、ICML 2023、NeurIPS 2023、ACL 2024、CVPR 2024）發表的論文，並基於每篇論文中“Related Work”部分的描述及其引用的相關文獻生成的。最終，數據集包含了 36,000 條數據，每條數據都包含一個 AI 領域的學術問題及相關論文。

Source: PaSa 框架：Crawler 的設計旨在最大化相關論文的召回率，而 Selector 則強調精確性，即識別論文是否符合用戶需求。

這個數據集的設計使得 PaSa 能夠在訓練過程中模仿人類研究者的行為，從而提高其在學術檢索中的表現。儘管 AutoScholarQuery 缺乏人類科學家發現論文的軌跡數據，但它仍然能夠支持對 PaSa 智能體進行強化學習訓練。

強化學習與 Selector 的引入

在 Crawler 的訓練過程中，研究團隊面臨兩個主要挑戰：獎勵稀疏性和過長的行動軌跡。為了解決獎勵稀疏性問題，研究團隊引入了 Selector 作為輔助獎勵模型，顯著提升了優化效果。此外，Crawler 在一次執行中可能收集到上百篇文章，導致完整的行動軌跡過長，無法完全輸入到 LLM 的上下文中。為此，團隊提出了一種全新的 session-level PPO 算法，解決這一問題。

Selector 主要通過模仿學習進行訓練。它會先生成一個 Decision Token，決定論文是否符合用戶 Query 的需要。同時，Token Probability 也可以作為相關性分數用於最終結果的排序。在 Decision Token 後，Selector 還會輸出決策依據，這使得用戶能夠更好地理解選擇的理由。

技術架構的整體優勢

PaSa 的技術架構不僅提高了學術檢索的效率，還在多個測試集上展示了其卓越的性能。在 AutoScholarQuery 測試集上，PaSa-7b 的效果優於所有基線模型，召回率提高了 9.64%。在更接近真實的 RealScholarQuery 上，PaSa-7b 的提升更加明顯，召回率提高了 30.36%。

這些技術上的突破，使得 PaSa 成為學術研究中不可或缺的工具。未來，隨著技術的進一步發展，PaSa 有望在更多領域發揮作用，幫助科研人員更好地掌握最新的研究動態。

實驗結果與比較

在學術研究中，檢索工具的效能直接影響研究者的工作效率。PaSa 智能體的出現，為學術檢索帶來了顯著的提升。本文將深入分析 PaSa 在不同測試集上的表現，並與其他主流檢索工具進行比較。

PaSa 在 AutoScholarQuery 測試集上的表現

在 AutoScholarQuery 測試集上，PaSa-7b 的表現超越了所有基線模型。這一測試集專注於人工智能領域的學術問題，包含了 36,000 條數據。PaSa-7b 在召回率上提升了 9.64%，而 Crawler 的召回率則提高了 3.66%。這些數據顯示，PaSa 能夠更有效地識別和檢索相關的學術論文。

工具	Recall@20	Recall@50	Recall@100
Google	33.80%	38.83%	42.64%
PaSa-7b	37.78%	39.90%	39.83%
PaSa-7b-ensemble	41.30%	44.22%	46.15%

這些結果表明，PaSa 的技術架構和訓練方法在學術檢索中具有顯著的優勢。其核心組件 Crawler 和 Selector 的協同工作，使得 PaSa 能夠在短時間內完成高效的學術調研。

PaSa 在 RealScholarQuery 上的優勢

在更接近真實場景的 RealScholarQuery 測試中，PaSa-7b 的表現更加突出。這一測試集包含了 AI 研究者提出的真實學術問題，並為每個問題人工構建了相關論文列表。PaSa-7b 的召回率提高了 30.36%，精確率提高了 4.25%。

Source: [PaSa 的工作流示例] from [jiqizhixin]

這些數據顯示，PaSa 不僅能夠在理論測試中表現出色，還能在實際應用中提供更高的檢索效率。與 Google 搜索相比，PaSa-7b 在 Recall@20、Recall@50 和 Recall@100 上分別提升了 37.78%、39.90% 和 39.83%。

PaSa 的技術優勢

PaSa 的成功歸功於其創新的技術架構和訓練方法。通過引入 Selector 作為輔助獎勵模型，PaSa 有效地解決了獎勵稀疏性問題。此外，session-level PPO 算法的應用，使得 Crawler 能夠在長行動軌跡中保持高效運行。

結論與未來展望

PaSa 智能體的出現，為學術搜索帶來了革命性的變革。通過模仿人類的搜索行為，PaSa 不僅提高了檢索效率，還在學術研究中展現了其強大的潛力。這一工具的成功，歸功於其創新的技術架構和訓練方法，尤其是 Crawler 和 Selector 的協同工作，使得 PaSa 能夠在短時間內完成高效的學術調研。

PaSa 的未來發展潛力

隨著技術的進一步發展，PaSa 有望在更多領域發揮作用。未來，PaSa 可以被應用於其他需要大量文獻檢索的領域，如醫學、法律和社會科學等。這將使得科研人員能夠更好地掌握最新的研究動態，從而推動各領域的進步。

Source: [PaSa Agent 框架] from [jiqizhixin]

此外，PaSa 的開源特性也為研究社群提供了豐富的資源。研究人員可以基於 PaSa 的框架，開發出更多針對特定需求的應用，進一步提升學術檢索的效率和準確性。

行動呼籲與未來展望

對於科研人員來說，PaSa 是一個值得期待的工具。它不僅能夠節省時間和精力，還能提高研究的精確性和全面性。未來，隨著 PaSa 的不斷優化和擴展，科研人員將能夠更輕鬆地進行學術調研，從而專注於創新和發現。

在這個 AI 驅動的研究新時代，你是否準備好迎接這一變革？PaSa 的出現，無疑為學術研究開啟了一個新的篇章。讓我們期待 PaSa 在未來的更多突破，並見證其在各個領域的廣泛應用。

Or check our Popular Categories...

Or check our Popular Categories...

AI 驅動的學術研究革命：PaSa 智能體的突破

引言：AI 在學術研究中的新角色

AI 驅動的學術研究革命

PaSa 的功能與潛力

未來的學術研究助手