🔧 阿川の電商水電行
Shopify 顧問、維護與客製化
💡
小任務 / 單次支援方案
單次處理 Shopify 修正/微調
⭐️
維護方案
每月 Shopify 技術支援 + 小修改 + 諮詢
🚀
專案建置
Shopify 功能導入、培訓 + 分階段交付

前言

10月14日,「甲骨文 AI 數據平台(AIDP)」的正式提供開始了。(新聞稿
AIDP是一個統合數據基礎設施,能夠在 OCI 上統一進行數據的收集、管理、分析和 AI 應用。
它配備數據湖、目錄、筆記本、訪問控制等功能,可以整合整個組織的數據。
與甲骨文 AI 數據庫和甲骨文生成 AI 服務的整合,
使其能作為一個 AI 數據基礎來實現 AI 驅動的高度搜索、分析和生成。

這次,我們將嘗試將 自主數據庫(ADB) 的數據作為外部來源創建 AIDP 的外部目錄,並在 AIDP 上將數據合併並使用 SQL/Python 進行參考。
(例如,將訂單明細表放在 ADB,將商品主檔放在 AIDP,然後將它們合併以確認訂單內容。)

參考

  • Qiita:因為甲骨文 AI 數據平台(AIDP)已經發布,所以我嘗試創建它

  • 文件:開始使用甲骨文 AI 數據平台

步驟

以下按照以下步驟進行。

步驟 內容 目的
0 事前準備 準備 ADW(ADB),並準備連接的表
1 建立 AIDP 在 OCI 上創建 AIDP 實例
2 創建目錄 設置數據的邏輯容器 <br>・主目錄 <br>・標準目錄 <br>・外部目錄
3 創建集群 為 Spark 處理準備計算環境
4 創建筆記本 創建互動分析環境
5 使用 SQL 嘗試 合併並查詢 AIDP 和 ADB 的數據
6 使用 Python 嘗試 使用 PySpark 實現類似的處理

0. 事前準備

這次使用自主數據庫(ADW)的數據作為連結的來源,因此需要提前創建。
請參考以下教程。
https://oracle-japan.github.io/ocitutorials/adb/adb101-provisioning/

這次我們將在 ADB 中放入「orders_items」表。(後面會在 AIDP 中創建「product」表並將數據合併進行參考。)
※測試數據使用了 APEX 的範例數據集「客戶訂單」中的兩張表。

1. 建立 AIDP

從漢堡菜單選擇「分析和 AI」>「AI 數據平台」。

image.png

點擊「創建 AI 數據平台」。

image.png

點擊後,將檢查是否設置好所有必要的 IAM 策略。
(當出現 info 標誌時,檢查完成後將轉到創建畫面。)

image.png

輸入以下內容。

  • AIDP 實例的名稱和描述
  • AIDP 工作空間的名稱和描述

image.png

從「添加策略」中選擇以下其中一項。

  • 標準:在租戶層級廣泛應用訪問設置。
  • 進階:可以在區域層級配置更精細的訪問。

image.png

選擇後,如果有缺少的策略,將顯示策略。
請確認內容,然後點擊「添加」。如果成功添加,將顯示「政策已添加」。
image.png

點擊「可選策略」,將顯示可選添加的策略,根據需要添加。
詳細內容請參考:AIDP 的 IAM 策略

image.png

確認策略後,點擊「創建」。

image.png

大約在 10 分鐘內創建完成。

image.png

訪問 AIDP 的控制台

點擊要訪問的實例名稱。
image.png

成功訪問!
image.png

如果通過 URL 訪問,URL 的格式如下所示。

https://<hash>.datalake.oci.oraclecloud.com/#?&tenant=<<tenant_name>>&domain=<<domain_name>>

可以與其他用戶共享 AI 數據平台實例的 URL。
訪問需要 AI 數據平台 IAM 策略的 USE 權限以上。

2. 創建目錄

2-1. 主目錄

主目錄(Master Catalog) 是為了集中管理數據和元數據的最高級別實體。它作為接下來要創建的標準目錄(Standard Catalog)和外部目錄(External Catalog)的容器。
可以針對 OCI 對象儲存、自主數據倉庫(ADW)、Kafka 等存在的數據創建目錄。

  • 標準目錄(Standard catalog):為 AIDP 內的模式(數據庫)提供的邏輯容器。可以在模式內創建表、視圖和卷。標準目錄管理所有子對象(表、視圖等)的元數據生命周期(創建、更新、刪除等)。

  • 外部目錄(External catalog):基於外部數據來源如自主數據倉庫和 Kafka 的目錄。對於外部目錄,元數據從外部來源同步,並且可以使用 catalog_name.schema_name.table_name 的形式查詢外部來源的數據。外部目錄的元數據生命周期(創建、更新、刪除等)由外部來源管理,而主目錄(Master Catalog)保留該元數據的副本。

默認情況下提供名為「default」的主目錄。
image.png

2-2. 創建標準目錄

創建 AIDP 內數據的標準目錄。
點擊「創建目錄」。
image.png

輸入以下內容,然後按「創建」。

  • 目錄名稱:自定義(這裡為 standard_catalog)
  • 目錄類型:標準目錄
  • 容器:自定義
    image.png

點擊創建的標準目錄。
點擊「創建模式」以創建模式。
image.png

輸入以下內容,然後點擊「創建」。

  • 模式名稱:自定義(這裡為 production)
    image.png

模式已經創建完成。點擊模式名。
image.png

點擊「創建表」以創建表。
image.png

輸入以下內容:

  • 表類型 *¹:管理
  • 管理表數據格式 *²:自定義(這裡為 CSV)

表類型(Table type) 可以選擇 管理(Managed)外部(External)

  • 管理表(Managed Tables)
    管理表定義存儲在 AI 數據平台內的數據結構,只有 AI 數據平台的用戶能夠訪問。刪除管理表將刪除不僅是表定義,還有存儲在該表中的數據。

  • 外部表(External Tables)
    外部表定義存儲在不受甲骨文 AI 數據平台管理位置的數據的結構。
    創建外部表後,其元數據的生命週期(創建、更新、刪除)由 AI 數據平台管理。
    刪除外部表時,只會刪除表定義,而參考的實際數據不會被刪除。

*² 受管理表(Managed Tables)支持的格式如下:

  • CSV
  • JSON
  • Avro
  • Parquet
  • ORC
  • Delta

將數據上傳到 AIDP 中。
點擊「預覽表」,可以確認要上傳的數據。
確認表名後,點擊「創建」。
image.png

表格創建成功。
image.png

在對象儲存中確認管理表的數據

創建 AIDP 時,會在創建實例的同一容器中創建幾個桶。
image.png

作為管理表上傳的數據則儲存在這裏。
image.png

2-3. 創建外部目錄

接下來,針對自主數據庫(ADW)創建外部目錄。

點擊「創建目錄」。
image.png

輸入以下內容。

  • 目錄名稱:自定義(這裡為 adw_catalog)
  • 目錄類型:外部目錄
  • 外部來源類型:甲骨文自主數據庫
    image.png

可選的外部來源包含 自主數據倉庫自主事務處理甲骨文數據庫
Kafka 預計將於近期發布:截至 2025 年 10 月末)
如果選擇甲骨文數據庫中的三個之一,則可以通過錢包文件或實例選擇進行設置。

選擇事前準備的 ADW。
image.png

輸入用戶名和密碼後,點擊「創建」。
image.png

幾秒後,會返回到此畫面,顯示正在創建。
image.png

稍等十幾秒後,會顯示成功創建的彈出框,狀態變為「活動(Active)」。
image.png

目錄的準備已完成。

3. 創建集群

從左側菜單中的「工作空間」點擊已創建的工作空間名稱。
點擊「計算」,然後從「創建」選擇創建計算集群。
image.png

輸入以下內容。

  • 集群名稱:自定義(這裡為 cluster
  • 運行時版本:Spark 3.5.0(截至 2025 年 10 月末僅該版本可選)
  • 驅動器形狀 *³:AMD
  • OCPUs:1(最小)
  • 記憶體(GB):16(最小)

*³ 驅動器形狀可選:AMD、INTEL、NVIDIA GPU、ARM。

image.png

然後輸入以下內容。

  • 工作人員形狀
  • OCPUs
  • 記憶體(GB)
  • 設定工作人員數量:靜態(固定值)或自動擴展
  • (若為自動擴展)能夠擴展集群的工作人員最小數量與最大數量
  • 運行時間:永遠(若在一段時間內無操作會停止集群運行,請輸入閒置時間的分鐘數。)

點擊「創建」。
image.png

狀態將變為「接受(Accepted)」>「創建(Creating)」。
image.png

20 分鐘後,集群變為「活動(Active)」,完成創建。
image.png

4. 創建筆記本

在 AIDP 中,提供了一個直觀可操作的管理筆記本環境。
創建筆記本,可以將其用作驗證 AIDP 內部數據或進行代碼開發的互動基礎。
目前(截至 2025 年 10 月末)AIDP 的筆記本支持 Python 和 SQL。
此外,可以將 .ipynb 文件(Jupyter Notebook 形式)導入工作空間。(目前不支持筆記本的導出功能。)

從左側選單選擇「創建」>「筆記本」。
image.png

輸入自定義名稱,然後點擊「創建」。
image.png

5. 使用 SQL 嘗試

點擊創建的筆記本。
image.png

從「集群」中選擇剛剛創建的集群。
image.png

顯示為「附著(Attaching)」> 後變為「活動(Active)」。
image.png

選擇 SQL。
image.png

首先查看標準目錄的表。
表名按照以下格式指定。
catalog_name.schema_name.table_name


原文出處:https://qiita.com/yushibats/items/0b26c68882f2a80e49cc


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝27   💬3   ❤️7
628
🥈
我愛JS
📝1   💬9   ❤️1
72
🥉
御魂
💬1  
4
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
🔧 阿川の電商水電行
Shopify 顧問、維護與客製化
💡
小任務 / 單次支援方案
單次處理 Shopify 修正/微調
⭐️
維護方案
每月 Shopify 技術支援 + 小修改 + 諮詢
🚀
專案建置
Shopify 功能導入、培訓 + 分階段交付