資料科學 | DataAgent

RAG技術終極入門：基礎架構與工作原理詳解

by Yang AbaoUpdated on 2024-05-122024-05-12

RAG 技術概述 RAG（Retrieval Augmented Generation，檢索增強生成）是一種結合了大規模 …

繼續閱讀

Ai Generative ai LLM NLP RAG 資料科學

全參數微調、PEFT、提示工程和RAG：哪種 LLM 導入策略最適合我？

by Yang AbaoUpdated on 2024-05-092024-05-09

隨著 AI 技術的不斷進步，企業正越來越多地尋求將大型語言模型（LLM）整合到其業務流程中。這些強大的工具提供了無限的可 …

繼續閱讀

Ai LLM 資料科學

從 Transformer 到 Kansformer? KAN 網絡以結構優化提高模型參數效率與可解釋性

by Yang AbaoUpdated on 2024-05-072024-05-03

近年來，深度學習技術在多個領域實現了突破性進展，從語言處理到影像識別，無不體現了其強大的學習能力。而在這一進步的核心，多 …

繼續閱讀

Knowledge Graph 資料庫

使用 Docker 快速部署最新版 Neo4j 資料庫

by martech_jyUpdated on 2024-04-272024-04-27

在本教學中，我們將學習如何使用 Docker 快速部署 Neo4j 社群版資料庫。我們將採用 docker-compos …

繼續閱讀

NLP 資料科學

【論文筆記】DCFEE：基於自動標記訓練數據的文檔級中文金融事件抽取系統

by martech_jyUpdated on 2023-03-132023-03-13

抽取金融事件能幫助用戶獲得競爭對手的戰略，預測股票市場做出正確的投資決策。舉例來說，股權凍結事件將對公司產生不利影響，股票持有者應迅速判斷避險

繼續閱讀

NLP 資料產品開發

使用 OpenAI Finetune API 微調出自己的模型（附程式碼）

by JiunYi YangUpdated on 2023-03-132023-03-06

今天這篇要教大家如何使用 OpenAI Finetune API 微調出自己的模型。想必大家都學會使用網頁版 Chat …

繼續閱讀

turned on computer monitor displaying text

NLP Python PyTorch 資料科學

[PyTorch] 使用 torch.distributed 在單機多 GPU 上進行分散式訓練

by JiunYi YangUpdated on 2023-01-202023-01-07

Finetune 語言模型所需要的 GPU memory 比較多，往往會需要我們能夠利用到多顆 GPU 的資源。今天這篇文章會說明 DataParallel 和 DistributedDataParallel + DistributedSampler 兩種進行模型分散式訓練的方式。

繼續閱讀

NLP 網路爬蟲資料科學

經典 NLP 任務標籤生成：串接非官方 ChatGPT API

by martech_jyUpdated on 2023-01-102022-12-19

這篇文章紀錄我串接非官方 ChatGPT API 「試圖」取得 NLP 資訊抽取任務標籤的過程。結論是…

繼續閱讀

資料產品開發

Git 協作不可不知的重要指令

by martech_jyUpdated on 2022-06-292022-06-27

以下整理套件開發協作時常遇到與用到的 Git 指令： SSH Key 與 HTTPS 的差別其中 <repo_ …

繼續閱讀

assorted color leather bag display inside room

資料分析

【資料探索性分析】#1 電商零售 – 天貓電商用戶行為

by JiunYi YangUpdated on 2022-06-032021-03-04

（一）主題從天貓 TMall 用戶網站行為紀錄，透過視覺化整理： ⁣基本的資料分布⁣ 比較不同用戶分組的行為分布差異 …

繼續閱讀