這 4 個牛逼 GitHub 開源專案,太優質了。

圖片

01、高品質資料集整理

這個開源專案,從 11 年前就開始維護,現在已經獲得 65K 的 Star 了。

圖片

它把整個互聯網上的開源資料集都搜羅過來了,大部分都是主題明確、品質較高的公開資料集。

這個大合集最棒的地方在於它按主題分類。

圖片

無論是全球歷史作物產量、人類基因組計畫數據、金融經濟、地理資訊,還是社交媒體、交通出行,甚至遊戲和體育統計,你都能找到對應的分類。

圖片 圖片

裡面列出的資料集大多可以免費使用,有些需要額外授權的,也標注出來了。

開源地址:https://github.com/awesomedata/awesome-public-datasets

02、解讀 K 線圖的開源模型

Kronos 是首個面向金融市場的解讀 K 線圖基礎模型。由清華大學與微軟亞洲研究院(MSRA)的研究團隊聯合開源

圖片

開源地址:https://github.com/shiyu-coder/Kronos

它分析股票、加密貨幣等資產的 K 線資料,包含開盤價、最高價、最低價、收盤價及成交量,預測未來價格走勢。

模型訓練資料覆蓋全球 45+ 交易所,能適應金融資料特有的高波動性和噪聲。

這個模型專為金融設計,與通用時序模型不同,Kronos 首創 兩階段處理框架

  • 智能分詞器:將連續的 K 線資料轉化為離散的「金融詞彙」。
  • 預測大模型:基於 Transformer 架構,從歷史資料中學習規律,預測未來走勢。

圖片僅需 4 行程式碼 即可加載模型,輸入歷史 K 線資料後自動輸出預測結果。而且開源專案提供一個 Demo,這是一個實時的 BTC/USDT 的預測儀表盤,根據這個開源模型的計算結果,來預測未來走勢。有點意思嗷。不知道準不準,明天看看。

圖片

03、實時語音轉錄

WhisperLiveKit 是一個完全在你自己電腦上運行的 實時語音轉文字工具

圖片

它不同於普通的錄音轉文字軟體需要你錄完再處理,它能一邊聽你說話,一邊就把文字顯示出來,幾乎沒有延遲,還能分清誰在說。

所有處理都在你自己的電腦上進行,你的語音資料不需要上傳到任何雲端伺服器,隱私性更好。

開源地址:https://github.com/QuentinFuxa/WhisperLiveKit

它採用了2025年最新的語音技術(如 SimulStreaming),專門解決實時轉寫時常見的斷詞、上下文丟失等問題,讓結果更準確流暢。

而且它自帶了一個簡單的網頁介面和一個後台服務。安裝好後,啟動服務,打開瀏覽器就能直接使用,不需要複雜的設定。

04、開源的 Agent 工具箱

Youtu-agent 可以幫助你輕鬆構建、運行和評估 Agent 的工具箱。

讓它分析一份資料表格、從網上搜集資料寫報告、或者幫你整理電腦裡雜亂的檔案,這些 Youtu-agent 都能做到。

開源地址:https://github.com/Tencent/Youtu-agent

它基於開源的大模型,如 DeepSeek-V3 系列來做出強大的智能體功能。

在一些公認的智能體能力測試上(如 WebWalkerQA 和 GAIA)取得了非常不錯的成績(70% 以上的成功率),證明了開源模型也能勝任複雜任務。這避免了依賴昂貴或不开源模型(如 Claude 或 GPT)的成本和限制。

圖片


原文出處:https://juejin.cn/post/7546454171065614370


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝10   💬8   ❤️12
427
🥈
我愛JS
📝1   💬6   ❤️4
90
🥉
酷豪
📝1   ❤️1
52
#4
AppleLily
📝1   💬4   ❤️1
41
#5
💬3  
10
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次