在查看 LinkedIn 時,我的動態中出現了一篇有趣的文章。其標題是「每個 LLMs 公司都是一家搜尋公司,而搜尋很困難: LLMs 檢索系統的未來」。
這很有趣,因為我們在過去幾年中建立了 SWIRL,以幫助擴展公司的搜尋和人工智慧基礎設施。正如我們所提到的,搜尋無處不在。 DEVTO現在正在使用Algolia(也許更早,他們的程式碼用於執行搜尋)來實現智慧搜尋。任何嘗試過建立支援搜尋的應用程式的人都知道,搜尋很複雜,涉及許多因素,例如相關性排名和個人化。
這使得建築物搜尋變得困難。這適用於嘗試建立支援搜尋的應用程式的人。搜尋很難管理,需要考慮很多因素。以搜尋引擎人工智慧領域的領導者谷歌為例,該公司在搜尋結果方面面臨批評。人們開始抱怨其搜尋結果。但我們不僅僅談論谷歌。這裡有很多東西要理解。
企業擁有大量分散在各個部門和管道的資料——從客戶互動和銷售記錄到操作日誌和員工回饋。
他們認識到利用這些資料建立人工智慧驅動的應用程式的巨大潛力,這些應用程式可以簡化營運、增強客戶體驗並推動創新。然而,挑戰在於統一這種分散的資料格局。
資料中充滿了許多資訊:
會議記錄
孤立的應用程式
電子郵件檔案
內部文件
客戶支援票
專案管理工具
挑戰在於檢索該資訊。我們目前的做法是將所有資料傳輸到向量資料庫。然後用它來檢索資訊。這既簡單又困難。很簡單,因為您知道在哪裡搜尋。這很困難,因為它管理這些向量資料庫(或任何搜尋索引)。你必須:
不斷尋找資料。
比較索引資料和更新資料。
如有必要,請更新。
最重要的是,如果您使用向量資料庫,您將處理嵌入。但這是另一個部落格的故事。
我們產生的大量資料變得越來越難以管理。傳統方法成本高、耗時長,且有一定的安全風險。
當您的 LLMs 可以搜尋資料儲存庫內的資訊。他們可以提供您和您的團隊所需的訊息,而無需在訓練記憶中進行搜尋,或在訓練記憶不存在時產生幻覺。透過提供你所要求的背景,它就變成了尋找一本書然後回答。
為了開發能夠在內部資料上表現良好的人工智慧應用程式,我們需要一種高效的檢索增強生成(RAG)方法。在這種情況下,檢索器是一個搜尋平台。
屬性應該是:
它應該連接到內部資料來源。
確保安全、尊重並遵循當前和現有的安全解決方案。
理解人類語言的上下文。
提供優秀且相關的結果。
這就是我們建立SWIRL 的方式:一個高效的檢索器,可以提供良好的答案,與多個資料提供者連接,並允許在企業中使用人工智慧。
這樣,一項工作就完成了。你有資料。您所要做的就是配置一個資料提供者。建立查詢並取得答案。一旦您即時獲得了所需的資料,機會就無窮無盡:
取得人工智慧摘要。
在人工智慧的幫助下,使用這些資料來製作報告。
建立一個可以幫助您完成任務的副駕駛。
一旦解決了檢索部分,您就可以做很多事情。 SWIRL 在自架平台上運作,因此您的資料仍然安全。
我可以搜尋來源並為您提供資料。其餘的只是安排事情的一種方式。從廣義上講,它既簡單又安全。
我想給你一個關於架構的想法。檢查這個圖。它展示了我們如何利用人工智慧基礎設施平台來做到這一點。
這就是最好的事情:即時搜尋您的資料。
這裡的遊戲規則改變者是我們應該選擇一個框架,該框架允許我們從多個應用程式獲取資料而不限制最終用戶。然後,讓 LLMs 協助您執行任務。
還有一點:最好的資料並不總是在 SQL 資料庫中。它可以位於您團隊的房間、會議記錄或您保存的其他一些文件中。上述架構使您能夠找到並獲得良好的結果,讓您感覺自己是編寫它們的人。
搜尋,不僅僅是語義搜尋,而是通用搜尋架構,需要縮小我們想要從人工智慧獲得的資訊差距。
SWIRL 是開源的並用 Python 建構。我們正在開發許多好東西,從搜尋到聊天介面。如果您是 UI 專業人士,請幫助我們!
https://join.slack.com/t/swirlmetasearch/shared\_invite/zt-1qk7q02eo-kpqFAbiZJGOdqgYVvR1sfw 加入我們的 Slack。
觀看有關如何設定 SWIRL 的影片。然後,加入我們的Slack 社群並聯繫我。讓我們一起建立一個令人驚嘆的開源人工智慧平台。可能會有一些驚人的獎勵給你。 💐🎁
https://github.com/swirlai/swirl-search 在 GitHub 上給我們一個 🌟。
原文出處:https://dev.to/srbhr/search-will-be-the-future-of-llm-and-ai-applications-26fl