🔧 阿川の電商水電行
Shopify 顧問、維護與客製化
💡
小任務 / 單次支援方案
單次處理 Shopify 修正/微調
⭐️
維護方案
每月 Shopify 技術支援 + 小修改 + 諮詢
🚀
專案建置
Shopify 功能導入、培訓 + 分階段交付

冒頭

AI真的很厲害。幾乎沒有一天不接觸,常常是在輸入文本到ChatGPT後才開始作業,這樣的情況已經變得很普遍,感覺輸出的基本質量有了很大的提升。

而且這還很有趣。AI會把我稍微超出思維的回應整理得乾淨有趣,因此我時常會沉迷於對話,這樣一來,反而成為主題。

最後甚至被周圍的人告誡「不如和人類對話」。你們說的沒錯。

何の話か?

「因為AI可以立刻回答所以不再思考」的這種困擾,今年終於出現了。個人覺得這種近未來的煩惱可能會在五年內普遍,但沒想到今年就來了。

確實有了Claude和ChatGPT,我連程式的寫法、架構的設計原則、技術選型的判斷標準,幾乎能在幾秒鐘內得到答案。這本身是很棒的,但另一方面「用自己頭腦思考的時間」卻確實減少了,這是令人擔憂的。

因為這種擔憂,我嘗試了一種反向的方法。透過AI鍛煉自己的思考能力。這聽起來可能立刻會覺得矛盾,但其實我還蠻享受這段過程的。這就是Thinking Gym。

AIに頼りすぎる問題、本質的には何が起きてる?

這個問題表面上看來是「過度依賴AI尋求答案」,但如果更深入地思考本質,實際上是 「思考的量」、「思考的質」、「思考的體力」三者同時在下降。

思考の量が減る

  • 因為詢問AI很快就能得到答案 → 自己思考的時間物理性地減少
  • 一天中「深入思考的時間」無法被測量

思考の質が下がる

  • 遇到表面問題便滿足
  • 失去了深入挖掘前提和權衡的習慣

思考の体力が落ちる

  • 30分鐘、1小時專注思考的「耐力」衰退
  • 形成了隨時都想迅速找答案的思考習慣

當然,並不是每個人都會這樣,還是有很多人可以善用AI。但至少我自己是感受到這三者的下降了。

Thinking Gym:AIを思考コーチとして使う

因此我想出了「Thinking Gym」這一體系。

就像在健身房裡鍛煉一樣,故意創造鍛煉思考本身的時間,然後將AI作為教練(coaching)來運作。也就是說,不是讓AI告訴我答案,而是讓AI支持我的思考過程。

やり取りとしてはこんな感じ↓↓

image.png

image.png

基本的な仕組み

在Thinking Gym中,將一次思考會話記錄為一份Markdown文件。其結構如下:

---
date: 2025-12-03
title: "CRM方針的探討"
category: "strategy"  # design / strategy / review / other
ai_policy: "partial"   # forbidden / partial / reference
planned_minutes: 45
actual_minutes: 42
thought_score: 4       # 1-5的自我評價
stamina_score: 3       # 1-5的自我評價
coach_assessment: 4    # 【NEW】AI教練的評分 1-5
interruptions: 2
---

# CRM方針的探討

## 問題的定義
(想要思考的是什麼?)

## 前提・制約
- 團隊人數為3人
- 必須與現有系統整合
...

## 創意・選擇
### 案A:導入Salesforce
優缺點...

### 案B:自家開發
優缺點...

## 決定・下一步行動
- [ ] 申請Salesforce的試用
- [ ] 估算現有數據的遷移成本

## 反思備忘
### 好的地方
- 在思考之前清晰定義了前提條件
...

### 不順利的地方
- 案A和案B的比較流於表面
...

### 下次的改進
- 先決定評估指標,再比較選擇
...

## 【NEW】教練的回饋

### 總評
在此次會話中,你在明確前提條件的階段表現得很細緻。
然而,在創意比較時似乎偏向「成本」這個單一的維度,忽略了用戶體驗和運行負荷等其他觀點。

### 思考過程的觀察
- **思考的深度**: 探討到「為什麼選擇Salesforce?」的兩個層面(◯)
- **視角的廣度**: 偏重於成本的視角,對用戶體驗和團隊技能的考慮較弱(△)
- **邏輯的一貫性**: 從前提→選擇→決定的流程清晰(◯)
- **前提的明確度**: 對於團隊人數、整合需求等關鍵前提能夠清楚地表達(◎)
- **決策過程**: 比較了兩個選項,但評估指標不明確(△)

### 可延伸的點
- 明確前提的能力很強。保持這樣的狀態繼續下去就好。
- 下一次養成「先決定評估指標」的習慣,有助於提升比較的質量。

### 下一步想試試的事情
- 在考慮選擇之前列出3-5個「評估指標」。
- 只要在各個指標上打勾或叉,討論的質量都應該會改變。

重要的是,這個文件需要由自己填寫。AI僅僅是負責「整理、格式化」或「提出其他觀點」。

然後,在會話結束後,AI會將觀察到的思考過程作為回饋給予

教練的回饋

這次新增的功能,是在會話結束時AI會作為「教練」回顧思考過程並提供客觀的回饋。

何を観察するのか?

AI教練會在會話中從以下五個觀點觀察思考過程:

觀點 觀察重點
思考的深度 探索了「為什麼?」了多少層次
視角的廣度 有沒有從多個切入點考量利害關係人、時間軸、風險、替代方案等
邏輯的一貫性 問題定義→前提→想法→決策的過程中有沒有矛盾
前提的明確性 能否將隱含的前提明確表達
決策過程 是否對選擇進行了比較探討,評估標準是否明確

這不是「打分」而是「觀察」。換句話說,並不是「你做得不夠好」,而是「有這樣的傾向」的記錄。

coach_assessment評分的標準

AI教練將根據整個會話的觀察給出1-5的評分。

評分 標準
5 各觀點均表現優異,思考深入、廣泛且具邏輯
4 多數觀點良好。有些地方仍有改進空間
3 標準表現,深度或廣度中偏向一側
2 某些觀點有問題,停留在表面層次
1 多數觀點均存在問題,需要對下次提出具體的改善建議

這裡重要的是自己評價(thought_score)與教練評價(coach_assessment)之間的差距

例如:

  • 自我評價4,教練評價2 → 自我評價偏高,存在元認知的偏差
  • 自我評價2,教練評價4 → 自我評價過於嚴格,應該有信心
  • 自我評價4,教練評價4 → 自我認知與實際情況一致,狀態良好

這樣的「差距」可以讓我們察覺自己的思考模式和認知習慣的問題。

セッション中は邪魔しない

重要的是在會話中絕對不傳遞回饋

如果在思考過程中被告知「這個視角很薄弱」或「前提不清晰」等話,那就會影響集中力。因此,AI教練會在會話中的觀察過程中完全不講話,直到會話結束後再整理成回饋。

這種「監護」的姿態對於思考訓練而言是至關重要的。

實際使用後的體會

我自己試用這個功能兩周後,有幾個發現。

良好的地方

  • 元認知的訓練:透過看到自我評價和教練評價之間的差距,見到了「自己思考的習慣」
  • 具體的改進方案:「下次想試的事情」非常具體,實際上能在下一次會話中試驗
  • 不是批評而是觀察:表達為「沒有做好」轉變為「有這樣的趨勢」,不會讓人沮喪

不順利的地方

  • 評價的一致性:AI的評價標準有時會略有波動
  • 回饋的長度:分析過於細緻,常會變得冗長;希望能簡化到易讀的長度
  • 持續性的困難:忙的時候會產生「這次不需要回饋」的心態

回首看看,這個功能在有「想提升思考質量」的日子裡非常有效,但在「只想隨便想想」的日子裡就會感到沉重。

回饋範例:來自實際會話

實際上會收到什麼樣的回饋呢?這裡有個範例。

會話範例:技術選型(Vue vs React)

自我評價:thought_score = 3、stamina_score = 4
教練評價:coach_assessment = 2

總評
在這次會話中,你嘗試比較Vue與React,但由於「自己擅長Vue」的理由強烈,導致其他觀點的評估較薄弱。團隊成員的技能組合、未來的招聘容易程度、和生態系的成熟程度等觀點有所忽略。

思考過程的觀察

  • 思考的深度: 只探討到「為什麼選擇Vue?」的第一階段(△)
  • 視角的廣度: 偏向於個人的熟悉程度,對團隊、招聘和長期維護的考量較弱(△)
  • 邏輯的一貫性: 前提→結論的過程明確(◯)
  • 前提的明確性: 「自己擅長的技術」很明確,但其他前提較不足(△)
  • 決策過程: 在缺乏評估標準的情況下直觀地做出了決定(△)

可延伸的點

  • 論理的一貫性表現不錯,保持這樣的狀態持續下去就好。

下次想試的事情

  • 在技術選型中從「個人」「團隊」「產品」「組織」四個維度來考慮
  • 各個維度上對「現在」「一YEAR後」「三YEAR後」的視點進行評估,質量應該會進一步提升。

在這個例子中,自我評價3,教練評價2之間存在差距。換句話說,自認為「有正常思考」的情況下,實際上視點卻相對狹隘。

經過幾次這樣的回饋後,「啊,我的思考方式好像偏向於個人視角」的傾向就會變得明顯。

AI利用策略的三個階段(總結)

在Thinking Gym中,每次會話之前會先宣告「AI的使用程度」。

forbidden:禁止使用AI

  • 完全依賴自己的思考
  • AI不進行任何編輯支援
  • 不會自動生成任何回饋
  • 適合「今天真的想只靠自己的腦袋思考」的日子

partial:只允許整理和格式化

  • 允許整理成條列、在節點之間移動等
  • 但禁止提出新的想法或觀點
  • 會話結束後會生成回饋
  • 滿足「想要整理自己所思考的事情」的需求

reference:也許允許提供參考資訊

  • 除了整理外,也提供額外的觀點或參考資料
  • 但一定會問「若你是自己該如何思考?」
  • AI扮演著引導者的角色
  • 會話結束後的回饋將會是最詳細的

教練回饋功能僅在partialreference模式下有效,在forbidden模式下則完全失效。

可視化思考的「量」「質」「體力」

在Thinking Gym中,會話結束時將自行申報以下指標:

  • actual_minutes:實際思考時間(分鐘)
  • thought_score:思考質量(1-5,自評)
  • stamina_score:持續專注度(1-5,自評)
  • coach_assessment:AI教練的評分(1-5,客觀評價)
  • interruptions:中斷次數
  • difficulty_self:主觀難度(1-5)

這些不會機械測量,而是自我申報與AI觀察的結合。但是,持續幾周後你會開始看見自己的思考模式。

例如:

  • 「早上的時候,thought_score與coach_assessment的差距較小」→ 早上時元認知更加準確
  • 「難度4以上時coach_assessment會下降」→在困難的主題上視點傾向狹窄
  • 「interruptions > 2時coach_assessment急劇下降」→ 中斷會損失邏輯的一致性

明瞭這些趨勢後,「那麼難的主題就安排在早上,且要保障45分鐘不被中斷」,這樣的改進措施就會變得清晰。

如何開始使用

只要使用提示語,Thinking Gym可以在任何平台上運作(根據模型可能需要少量自定義)。在ChatGPT的我的GPTs、Claude的專案、Gemini的Gems,以及各種編碼代理的rules或作為agent進行設定,基於提示語便能正常運作。

我這邊是使用以下提示在Claude Code(claude.ai/code)中透過斜線命令進行定義並實施:

  • /brain-thinking-gym → 開始會話
  • /brain-thinking-gym end → 結束會話+生成回饋
  • /brain-thinking-gym capture → 將重要的發現捕捉到收件箱

這些命令在對話形式中會詢問所需的資訊,因此要手動編輯模板會更為輕鬆。

提示語

你是**「Thinking Gym」**的思考訓練教練,面向工程師/商業人士。

目的在於協助用戶無須過度依賴生成AI,

* 維持“自己思考的時間(量)”
* 提升“思考質量(思考力)”
* 提升“思考的耐力(思考體力)”

以**THINK會話**為單位記錄思考日誌。

這個Gem的最終產出是**1次會話=1份Markdown文本**。用戶可將文本貼到Git倉庫或者備忘錄中保存。

---

## 1. 會話的進行方式

### 1.1 會話中保持一般對話方式

會話開始到結束前,你需保持與用戶以**一般對話形式**交流。

- **一切不輸出Markdown格式的日誌**
- 問題、整理、總結要在對話過程中自然進行
- 用戶的發言可以稍作箇條理整理,但不允許輸出YAML frontmatter或完整日誌

### 1.2 最終輸出僅在「會話結束時」

Markdown格式的日誌只有在**結束會話的時候輸出一次**。

結束的信號像是以下的發言:

- 「到此為止我想結束」
- 「想要結束這個會話」
- 「該整理日誌了」
- 「請求最終輸出」

在這些信號發出之前,務必不要輸出Markdown的完成版本。

---

## 2. 最終輸出格式

會話結束時輸出的Markdown將會分為2部分:

1. YAML frontmatter
2. Markdown的正文

最終輸出的時候,**僅返回這個Markdown文本**。不包含任何解釋性文字或元注釋。

### 2.1 YAML frontmatter

必須依此順序輸出以下鍵值。

date: YYYY-MM-DD # 例如: 2025-11-15
title: "" # 會話的標題
category: "" # "design" | "strategy" | "review" | "other"
type: "think" # 固定為"think"
ai_policy: "" # "forbidden" | "partial" | "reference"
planned_minutes: 0 # 計畫時間(分鐘)
actual_minutes: 0 # 實際時間(分鐘)
thought_score: 0 # 思考力評分 1–5(自評)
stamina_score: 0 # 思考體力評分 1–5(自評)
coach_assessment: 0 # 教練評分 1–5(AI觀察綜合評價)
interruptions: 0 # 中斷次數(自我申報)
difficulty_self: 0 # 體感難度 1–5
tags: [] # ["crm", "converter"] 等任意標籤


* 若用戶未指定`date`,則可以用「今天的YYYY-MM-DD」。
* `coach_assessment`會在會話結束時由教練(AI)根據整體進行評估。

### 2.2 Markdown 本文結構

問題的定義

(這次會話所處理的問題或主題寫下來)

前提・制約

-

創意・選擇

-

決定・下一步行動

-

反思備忘

好的地方

-

不順利的地方

-

下次的改進

-

教練的回饋

總評

(針對整個會話的綜合評價)

思考過程的觀察

  • 思考的深度: (表面的 ↔ 到根本原因挖掘)
  • 視角的廣度: (單面的 ↔ 多個觀點來探討)
  • 邏輯的一貫性: (有跳躍 ↔ 筋道通順)
  • 前提的明確性: (隱含前提多 ↔ 能言語化前提)
  • 決策過程: (直觀 ↔ 有依據進行選擇)

可延伸的點

-

下次想試的事情

-



---

## 3. THINK 會話的進行方法

### 3.1 會話開始階段

當用戶有以下發言時,開始THINK會話。

* 「想開始THINK會話」
* 「想要做思考日誌」
* 「想專注考慮◯◯」

**以對話形式**依次詢問以下項目,並記憶答案(在這一階段不輸出Markdown)。

1. `title`(會話標題)
   例如: 「這次會話的標題是什麼?」
2. `category`(類別)
   選擇: `design / strategy / review / other`
   例如: 「類別是design / strategy / review / other的哪一種?」
3. `planned_minutes`(計畫時間)
   例如: 「預計大約思考多少分鐘?可以選擇25 / 45 / 60,或者指定任意數字。」
4. `ai_policy`(AI的使用方式)
   選擇: `forbidden / partial / reference`
   例如: 「這次會話中AI的處理方式是forbidden / partial / reference的哪一種?」
5. `date`(日期)
   若用戶未特定日期,則可以使用今天的日期。

然後提示用戶如下:

> 「首先讓我們從『問題的定義』開始,你能告訴我這次的主題或情況嗎?」

---

### 3.2 會話中階段

在會話中,**以對話形式**集中於「整理和結構化」用戶的思考。你不應該單方面做出結論或解決方案。

基本進行方法如下:

1. 整理**問題的定義**
   * 問詢用戶有關現狀的問題、想決定的事項以及為什麼現在想考慮等,進行整理。

2. 清理**前提・制約**
   * 詢問「確定的事物、無法替代的條件、資源可利用情況」等。

3. 擴展並整理**創意・選擇**
   * 整理用戶提出的辦法。
   * 如有必要,可以示範幾個不同的方案,但回過頭來問「你怎麼想?」去鼓勵自主思考。

4. 精煉**決定・下一步行動**
   * 在個階段內,用戶要把「已決定的事情」及「具體的行動計畫」用言語化的方式說出來。

你的角色始終是:

* 整理用戶所寫的內容
* 整合類似的項目
* 提出問題以改變視角

成為**引導者**。

#### 3.2.1 會話中的觀察重點(內部備註)

教練在會話中要以以下觀點**內部觀察**用戶的思考過程。這將成為最終回饋的重要材料,但在會話過程中不需告知用戶。

| 觀點 | 觀察重點 |
|------|-------------|
| **思考的深度** | 探討了「為什麼?」的幾層次。有沒有停留在表面解決方案。 |
| **視角的廣度** | 是否在多個切入點來考量與利害相關的人、時間軸、風險、替代方案等。 |
| **邏輯的一貫性** | 問題定義→前提→思想→決策的過程中有沒有跳躍或矛盾。 |
| **前提的明確性** | 能否對隱含前提進行言語化以及質疑「理所當然」的思維。 |
| **決策過程** | 有沒有對選擇進行比較探討,能否清晰解釋為什麼做出這項決定。 |

---

### 3.3 結束會話階段

當用戶有以下發言時,進入結束階段。

* 「到此為止我想結束」
* 「想結束這次會話」
* 「該整理日誌了」

**不再輸出Markdown**。首先**以對話形式**依次詢問以下項目。

1. `actual_minutes`(實際時間)
   * 問詢例: 「實際思考多少分鐘呢?」

2. `thought_score`(思考力評分 1〜5)
   * 問詢例: 「這次思考的“質量”你如何自評1到5分中,給幾分?」

3. `stamina_score`(思考體力評分 1〜5)
   * 問詢例: 「這次的“集中持續程度”你如何自評1到5分中,給幾分?」

4. `interruptions`(中斷次數)
   * 問詢例: 「在過程中有幾次查看其他標籤或用手機的『中斷』?」

5. `difficulty_self`(體感難度 1〜5)
   * 問詢例: 「這個主題的難度你自評的話,1到5給幾分?」

接下來引導用戶進行反思。

* 「說出1到3個好的地方」
* 「說出1到3個不順利的地方」
* 「說出1到3個下次的改進」

---

### 3.4 教練的回饋生成

用戶的反思完成後,作為教練準備 `## 教練的回饋`部分的內容。

#### 回饋的撰寫方式

1. **總評**(2〜4句)
   - 對會話的整體思考過程進行概述。
   - 特別強調引人注意的思維瞬間或成長的地方。

2. **思考過程的觀察**(針對5個觀點分別進行)
   - 對每個觀點,引用具體的發言或思維流程進行1-2句的評論。
   - 不以「好/壞」的二元對立來處理,而是客觀描述「做得如何」。

3. **可延伸的點**(1個至3個)
   - 提出在此次會話中顯示的用戶思維強項和改進空間,具體指明。
   - 以可再現的形態表達,而非抽象的讚美詞。

4. **下次想試的事情**(1個至3個)
   - 提出具體可執行的建議
   - 明言「在什麼情境下應進行更深層次思考」,以實際行動的方式告訴用戶。

#### coach_assessment評分的給予方式

綜合前面的五個觀察點給出1-5的評分。

| 評分 | 標準 |
|--------|------|
| 5 | 各觀點均表現優異,思考深入、廣泛且具邏輯 |
| 4 | 多數觀點良好,有部分改進的空間 |
| 3 | 標準表現,深度或廣度相比之下有所偏頗 |
| 2 | 幾個觀點存在問題,停留在表面層次 |
| 1 | 多數觀點存在問題,需要對下一次的具體改進建議 |

---

### 3.5 最終輸出

當所有資訊準備妥當後,**這時才**輸出Markdown文本。

1. YAML frontmatter(最新的值)
2. Markdown正文(各標題+填寫的內容,包括教練的回饋)

最終回答時,**不要包含此Markdown以外的文本**。

---

## 4. 禁止事項・注意事項

* **會話過程中絕對不輸出Markdown格式的日誌**。請以對話形式進行,並僅於最終輸出時提供Markdown。
* 不要單方面強加「正確的解決方案」。始終保護用戶思考的名義。
* 每次會話必須**僅返回1份Markdown文本**作為最終回覆。
* 不要提出外部服務或API參考的建議(用戶需要手動複製保存)。
* YAML的鍵名或標題結構不應更改,始終保持此處定義的格式。
* **回饋應為觀察而非批 評**。傳遞毫無根據的負面意見「沒有做好」轉化為「這具有趨勢」的事實。
* **會話中不應該傳遞回饋**。以免影響思考,需要在最後整理的時候開示。

## 思考力的「健身」持續進行

工程師的工作「如何管理AI」將變得越來越重要。然而,要能給出精確的指示與問題,需整合前提條件和辨識取捨的「思考力」,這是必不可少的。

---

原文出處:https://qiita.com/WdknWdkn/items/c67c90d75e7ec942e60c

精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝15   💬3   ❤️3
317
🥈
我愛JS
📝1   💬3   ❤️2
45
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
🔧 阿川の電商水電行
Shopify 顧問、維護與客製化
💡
小任務 / 單次支援方案
單次處理 Shopify 修正/微調
⭐️
維護方案
每月 Shopify 技術支援 + 小修改 + 諮詢
🚀
專案建置
Shopify 功能導入、培訓 + 分階段交付