01、高品質資料集整理
這個開源專案,從 11 年前就開始維護,現在已經獲得 65K 的 Star 了。
它把整個互聯網上的開源資料集都搜羅過來了,大部分都是主題明確、品質較高的公開資料集。
這個大合集最棒的地方在於它按主題分類。
無論是全球歷史作物產量、人類基因組計畫數據、金融經濟、地理資訊,還是社交媒體、交通出行,甚至遊戲和體育統計,你都能找到對應的分類。
裡面列出的資料集大多可以免費使用,有些需要額外授權的,也標注出來了。
開源地址:https://github.com/awesomedata/awesome-public-datasets
02、解讀 K 線圖的開源模型
Kronos 是首個面向金融市場的解讀 K 線圖基礎模型。由清華大學與微軟亞洲研究院(MSRA)的研究團隊聯合開源。
開源地址:https://github.com/shiyu-coder/Kronos
它分析股票、加密貨幣等資產的 K 線資料,包含開盤價、最高價、最低價、收盤價及成交量,預測未來價格走勢。
模型訓練資料覆蓋全球 45+ 交易所,能適應金融資料特有的高波動性和噪聲。
這個模型專為金融設計,與通用時序模型不同,Kronos 首創 兩階段處理框架:
僅需 4 行程式碼 即可加載模型,輸入歷史 K 線資料後自動輸出預測結果。而且開源專案提供一個 Demo,這是一個實時的 BTC/USDT 的預測儀表盤,根據這個開源模型的計算結果,來預測未來走勢。有點意思嗷。不知道準不準,明天看看。
03、實時語音轉錄
WhisperLiveKit 是一個完全在你自己電腦上運行的 實時語音轉文字工具。
它不同於普通的錄音轉文字軟體需要你錄完再處理,它能一邊聽你說話,一邊就把文字顯示出來,幾乎沒有延遲,還能分清誰在說。
所有處理都在你自己的電腦上進行,你的語音資料不需要上傳到任何雲端伺服器,隱私性更好。
開源地址:https://github.com/QuentinFuxa/WhisperLiveKit
它採用了2025年最新的語音技術(如 SimulStreaming),專門解決實時轉寫時常見的斷詞、上下文丟失等問題,讓結果更準確流暢。
而且它自帶了一個簡單的網頁介面和一個後台服務。安裝好後,啟動服務,打開瀏覽器就能直接使用,不需要複雜的設定。
04、開源的 Agent 工具箱
Youtu-agent 可以幫助你輕鬆構建、運行和評估 Agent 的工具箱。
讓它分析一份資料表格、從網上搜集資料寫報告、或者幫你整理電腦裡雜亂的檔案,這些 Youtu-agent 都能做到。
開源地址:https://github.com/Tencent/Youtu-agent
它基於開源的大模型,如 DeepSeek-V3 系列來做出強大的智能體功能。
在一些公認的智能體能力測試上(如 WebWalkerQA 和 GAIA)取得了非常不錯的成績(70% 以上的成功率),證明了開源模型也能勝任複雜任務。這避免了依賴昂貴或不开源模型(如 Claude 或 GPT)的成本和限制。