MaDi's Blog

一個紀錄自己在轉職軟體工程師路上的學習小空間

0%

NLP斷詞可以處理不同語言,中文常用jieba套件來處理,英文語系則採用NLTK套件居多,本篇文章採用NLTK來做英文語句的斷詞,並結合wordnet這個字詞-語義的網路來協助我們分析同義字,甚至能夠計算不同字詞分類後的結構相似度。

閱讀全文 »

在實作NLP自然語言處理的時候,常常會需要做斷詞的統計分析,大多時候是為了統計哪一個詞出現最多次,以作為分析的要點。

所以,本篇文章簡單的應用某電商評論網爬下來的評論做字詞處理,剔除停用字之後找出頻率最高的字詞,並做成文字雲。

閱讀全文 »

用機器學習去做分類問題的時候,會需要透過一些統計指標去輔助,才能正確地檢驗分類的結果,並快速地修正問題,達到更好的分類結果。近期案子上剛好在處理分類的問題,就順手把一些學過的評估指標做個整理,並搭配網站上的資源記錄成簡短的心得以供未來的自己參考。

閱讀全文 »

前言

寫程式常常會需要隨機初始化一連串數值,或是隨機得到一組介於上下限的數值,又或者是隨機抽取一連串序列的值…等等,透過python的random模組就可以簡單的達到目的。

閱讀全文 »

前言

在開發程式的過程中,程式碼會愈寫愈多,規模也會愈來愈大,這時候如果都把所有程式碼放在同一個檔案裏頭會變得難以維護跟管理,所以適時的拆解程式碼,並把相關性高的程式碼分門別類丟進不同的檔案中,就能方便主程式呼叫,提高重用性。常見的方法有模組套件

閱讀全文 »

最近寫了一個前端遊戲的專案,過程中踩了滿多雷,花了滿多時間,為了不想以後重複造輪子,趁目前記憶猶新紀錄一下整個過程,提供給未來遇到相似問題的自己參考。

閱讀全文 »