Python | DataAgent

Python, 網路爬蟲

[Python] Selenium Little Known Tips 你可能不知道的 Selenium 技巧

2023-06-23 / 0 評論

There are some Selenium functions or techniques that I haven’t used before and I don’t know how to write them ...

閱讀全文

 martech_jy
NLP, 網路爬蟲, 資料科學

經典 NLP 任務標籤生成：串接非官方 ChatGPT API

2022-12-19 / 0 評論

這篇文章紀錄我串接非官方 ChatGPT API 「試圖」取得 NLP 資訊抽取任務標籤的過程。結論是...

閱讀全文

 martech_jy
NLP

【自然語言處理】基於語義角色標註的事件三元組抽取實作

2022-06-26 / 0 評論

本文介紹自然語言處理中的經典任務之一：語義角色標註，並分享開源專案「事件三元組抽取」如何利用語義角色標注的結果，以及復現心得、改良想法

閱讀全文

 martech_jy
網路爬蟲

【Python 網路爬蟲】克服網站反爬蟲機制的 8 種做法

2022-06-03 / 0 評論

隨著公開資料使用的普及化，網站對自家資料的保護也越來越嚴謹。開發者如何在符合道德和不觸發網站擋爬機制的同時，合法取得所需的公開資訊，是當今資料技術開發人員不可或缺的技能點之一。 (I) 發送 Request 時帶上 He...

閱讀全文

 martech_jy
Python

【Python】複製一份 conda 環境的各種方式

2022-05-27 / 0 評論

使用 .yml 檔案將當前環境設置輸出為 environment.yml ，再用來創建配置一致的新環境更新現有環境在 environment.yml 中對 pip 安裝指令加參數 [ref] 使用 .txt 檔案 ...

閱讀全文

 JiunYi Yang
競賽紀錄

資料科學競賽分享 (I) – 2020 Shopee Code League (附 github 連結)

2020-08-23 / 0 評論

第一個參加的跨國大型資料科學競賽，8場小比賽都有全勤參與；但人生很難，top1%更難，過程中往往望大神興嘆。為了振作起來，本文挑選跟電商、行銷 domain 相關的第八賽段，同時也是相對比較沒有被虐的 part，來聊聊解...

閱讀全文

 JiunYi Yang
資料科學

資料科學初學者建模易犯的錯誤盤點

2020-08-16 / 0 評論

並非每次我們接觸到的資料，針對每一個預測標的，都有獨立、整理好的特徵值；尤其是在面對時間序列資料時，我們也希望捕捉預測標的，隨時間變化的特徵變化規律。本篇整理時間序列建模時，注意的重點： (I) Scale-transf...

閱讀全文

 JiunYi Yang
NLP, 資料科學

【自然語言處理】認識文本分析｜給我一段話，我告訴你重點在哪：對文本重點字詞加權的TF-IDF方法

2020-06-12 / 0 評論

適逢上週五2019數位奇點獎，敝公司獲得【最佳數據科技創新獎】銅獎；當中的案件我們使用到tfidf產生的文本向量做KMeans分群。正好想試試再讓文章簡單好懂一點，本周就單純只介紹這個文本分析很常用到的統計方法：TF-I...

閱讀全文

 JiunYi Yang
NLP, 資料科學

【自然語言處理】認識文本分析｜Word2Vec, Doc2Vec 比較 (附Python程式碼)

2020-06-12 / 0 評論

本篇筆記 Python自然語言處理入門的常用方法 Word2Vec，及其延伸：Doc2Vec，表述他們之間的關聯，並以Python實作比較不同方法分辨同樣兩個語句的效果。（介於中間的還有Sent2Vec，概念與Doc2V...

閱讀全文

 JiunYi Yang