AIと一緒に記事を書く: 指示の設計と評価

記事を書く作業をAIに任せたいと思ったとき、最初にやるのは「指示を書く」ことです。どんな記事を書いてほしいか、どんな構成にするか、どんな文体で書くか。指示を書いて、AIに渡して、出てきた記事を見て、また指示を直す。この繰り返しをしているうちに、あることに気づきます。

指示を直すたびに、自分が何を求めているのかが明確になっていく。AIの出力を見て「これは違う」と感じるとき、何が違うのかを言語化しなければならない。その言語化が、指示を改善するだけでなく、自分の中にあった暗黙の基準を顕在化させる。

この記事では、記事執筆をAIに委譲していく過程で見えてきた「改善サイクル」について整理します。成果物から指示を評価し、指示から成果物を評価し、その両方を俯瞰して仕組み自体を評価する。このメタ構造が、AIとの協働で本質的に価値のある部分だと考えています。

要点#

AIに仕事を任せるとき、価値があるのは「良い指示を書くこと」ではなく「指示を改善し続ける仕組みを作ること」です。

具体的な作業から始め、少しずつAIに委譲し、出てきた成果物を見て指示を直す。このサイクルを回すうちに、指示自体を評価する基準が必要になります。さらに進むと、その評価基準自体が適切かを問うことになります。成果物→指示→評価基準→評価基準の評価、というメタのメタへと視点が上がっていく。

この上昇が起きると、AIは単なる執筆代行ではなく、自分の思考を外在化し検証するパートナーになります。

具体から始める#

最初は、自分で記事を書きます。AIに頼らず、手を動かして書く。この段階で重要なのは、自分がどう考えて書いているかを観察することです。

どこで迷うか。何を調べるか。どの順番で書くか。どこを削るか。こうした判断の一つ一つが、後でAIに伝えるべき「指示」の素材になります。自分で書かずにいきなり指示を書こうとすると、暗黙に持っている基準が言語化されないまま残ります。

記事を書きながら、同時に「この判断をどう言葉にするか」を考えます。たとえば「導入は短くする」という判断をしたとき、なぜ短くしたのか。「読者が早く本題に入りたいから」なのか、「前置きが長いと離脱するから」なのか。理由を掘り下げると、より本質的な原則が見えてきます。

少しずつ委譲する#

次に、作業の一部をAIに任せてみます。いきなり全部を任せるのではなく、一部だけ。たとえば「このセクションの下書きを書いて」とか「この箇条書きを段落に直して」とか。

AIの出力を見て、期待と違う部分を見つけます。違うと感じたら、何が違うのかを言語化します。「もっと具体的に」では不十分です。「読者が自分の状況に当てはめられるレベルの具体」のように、何を基準に「具体的」と判断するかを明示します。

この言語化を繰り返すと、指示が少しずつ具体的になっていきます。最初は「良い記事を書いて」だったものが、「読者が早く判断できる」「核心が先に来る」「理由と限界がセットになる」といった原則に分解されていきます。

指示を評価させる#

ある程度指示がまとまったら、次のステップに進みます。AIに「この指示を評価して」と頼むのです。

これは奇妙に聞こえるかもしれません。指示を書いた本人がAIに評価させるなんて、意味があるのか。しかし、やってみると驚くほど有用です。AIは指示を客観的に読み、構造的な問題（重複、矛盾、曖昧さ）を指摘できます。自分では気づかなかった「暗黙の前提」が、AIの目には「欠けている情報」として映ります。

この段階で、評価の基準が必要になります。何を基準に「良い指示」と判断するのか。私たちは3層のフレームワークを使いました。

構造層（読めるか）: 分量、順序、重複、粒度
意味層（わかるか）: 明確性、具体性、一貫性、完全性
機能層（使えるか）: 再現性、適用可能性、柔軟性、検証可能性

構造と意味が良くても、実際に使って期待通りの成果物が出なければ意味がありません。逆に、機能層で問題が出たとき、構造層・意味層のどこに原因があるかを追えることが重要です。

成果物から仕組みを再評価する#

さらに進むと、評価基準自体を問うことになります。

指示を改善し、AIに記事を書かせ、その記事を見たときに「指示通りだけど、何か違う」と感じることがあります。指示は守られている。評価基準も満たしている。でも、良い記事になっていない。

このとき問うべきは「指示が悪い」ではなく「評価基準が悪い」です。何を測っていたのか。本当に測るべきものを測っていたのか。評価基準自体を成果物に照らして検証する必要があります。

たとえば、最初は「記事の型」を固定していました。導入→要点→背景→本質→実践→注意点→まとめ、という順番です。この型に従えば「良い記事」になるはずでした。しかし、事例紹介やアイデア記事を書こうとすると、型に合わせようとして不自然になりました。

型を評価基準にしていたことが問題でした。型の背後にある本質（読者が早く判断できる、核心が先に来る、など）を抽出し、それを評価基準にすることで、様々な種類の記事に適用できるようになりました。

メタのメタへ#

この「評価基準を評価する」という視点は、さらに上に続きます。

評価基準を評価するための基準は何か。それを評価するための基準は何か。無限後退に陥りそうですが、実際には「成果物の品質」という現実がストッパーになります。どれだけ美しいフレームワークを作っても、出てくる記事が良くなければ意味がない。最終的には成果物に戻ってくる。

このサイクルを図にすると、こうなります。

成果物（記事）から学び、生成指示と評価基準の両方を更新し続けるループ。

成果物から指示を評価し、指示を改善して成果物を作る。同時に、成果物から評価基準自体を評価し、必要なら評価基準を改善する。この二重のループが回ることで、指示も評価基準も継続的に改善されていきます。

何が起きているのか#

この改善サイクルで起きていることは、単なる「AIへの業務委譲」ではありません。

自分の中にあった暗黙の基準が、言語化されて外に出る。外に出た基準がAIによって検証される。検証結果を見て、基準自体を問い直す。この過程で、自分が「良い記事」と呼んでいたものの本質が明確になっていきます。

AIは鏡のような役割を果たします。自分の思考を映し出し、曖昧な部分を浮き彫りにする。「なんとなく良い」では通じないので、「何が良いのか」を言語化せざるを得ない。その言語化が、自分の思考を深める。

これは記事執筆に限った話ではありません。AIに何かを任せようとするとき、同じ構造が現れます。具体的な作業から始め、少しずつ委譲し、成果物から指示を評価し、評価基準自体を問い直す。このサイクルを回せるかどうかが、AIとの協働の質を決めます。

注意点#

このアプローチには限界があります。

すべてを言語化できるわけではない。 複雑な判断や文脈依存の高い判断は、指示だけでは伝わりません。そういった部分は、例示を増やすか、人間がレビューする前提で設計します。

改善サイクルにはコストがかかる。 指示を書き、評価し、改善し、また成果物を作る。この繰り返しは時間がかかります。一度だけ使う指示なら、このコストは回収できません。繰り返し使う指示だからこそ、改善に投資する価値があります。

「良い成果物」の定義は外部にある。 評価基準をどれだけ洗練させても、「良い記事とは何か」の最終判断は読者が下します。自己完結した改善サイクルに陥らないよう、外部からのフィードバックを取り入れる必要があります。

まとめ#

AIに記事を書かせる過程で見えてきたのは、「良い指示を書く」ことより「指示を改善し続ける仕組みを作る」ことの重要性でした。

具体的な作業から始め、少しずつAIに委譲し、成果物を見て指示を直す。指示自体を評価させ、評価基準を明示する。成果物が期待と違うとき、指示だけでなく評価基準自体を問い直す。このメタのメタへと視点が上がっていく過程が、AIとの協働で本質的に価値のある部分です。

最初から完璧な指示を書こうとするより、改善サイクルを回せる状態で始める方が現実的です。そのサイクルの中で、自分が何を求めているのかが明確になっていきます。

（ちなみにこの記事自体、まさにそのサイクルの中で生まれました。記事の指示を評価し、評価基準を作り、その評価基準を記事にして、その記事をまた評価して……。考えすぎると頭が痛くなりますね。）

付録: 指示ドキュメントの評価方法#

本文中で触れた「評価基準」の具体例として、以下に全文を付録として掲載します。

# 指示ドキュメントの評価方法
 
指示ドキュメント（方針、ガイドライン、ルール集など）を評価するためのフレームワーク。
 
## 評価の目的
 
指示ドキュメントは「読み手（人間またはAI）が意図通りの成果物を生成できるようにする」ために存在する。評価の目的は、その指示が目的を達成できるかを検証することにある。
 
## 評価の3層構造
 
指示ドキュメントの品質は、以下の3層で評価する。
 
### 1. 構造層（読めるか）
 
指示が物理的・認知的に読みやすいか。
 
| 観点 | 良い状態 | 悪い状態 |
|------|----------|----------|
| 分量 | 必要十分。1画面で概要が把握できる | 長すぎて全体像が見えない、または短すぎて情報が足りない |
| 順序 | 抽象→具体、または依存関係順に並ぶ | 関連する項目が散らばっている |
| 粒度 | 各セクションの詳細度が揃っている | 一部だけ詳細、他は曖昧 |
| 重複 | 同じ内容が複数箇所にない | 同じルールが別の言葉で繰り返される |
| 参照性 | 必要な情報にすぐたどり着ける | 探さないと見つからない |
 
**評価方法:**
- 目次だけで全体構造が把握できるか
- 任意の項目を探すのに何秒かかるか
- 同じ内容を説明している箇所が複数ないか
 
### 2. 意味層（わかるか）
 
指示の意図が正しく伝わるか。
 
| 観点 | 良い状態 | 悪い状態 |
|------|----------|----------|
| 明確性 | 解釈が一意に定まる | 読み手によって解釈が分かれる |
| 具体性 | 行動に移せるレベルで書かれている | 抽象的で何をすればいいかわからない |
| 一貫性 | 指示同士が矛盾しない | AとBで言っていることが違う |
| 完全性 | 必要な情報が揃っている | 判断に必要な情報が欠けている |
| 例示 | 具体例があり理解を助ける | 抽象的な説明のみ |
 
**評価方法:**
- 指示を読んだ後、具体的な行動を3つ挙げられるか
- 2人の読み手が同じ解釈をするか
- 「〜の場合はどうするか」に答えられるか
 
### 3. 機能層（使えるか）
 
指示が実際に目的を達成できるか。
 
| 観点 | 良い状態 | 悪い状態 |
|------|----------|----------|
| 再現性 | 誰が読んでも同じ品質の成果物が出る | 読み手によって成果物の品質が大きく異なる |
| 適用可能性 | 想定するケースをカバーしている | 例外ケースで破綻する |
| 柔軟性 | 様々なパターンに適用できる | 特定のパターンにしか使えない |
| 検証可能性 | 成果物が指示を満たしているか判定できる | 満たしているかどうか曖昧 |
| 改善可能性 | 問題があったとき修正箇所が特定できる | どこを直せばいいかわからない |
 
**評価方法:**
- 指示に従って成果物を作り、品質を検証する
- 異なる種類のケースで適用してみる
- 成果物の問題点から指示の改善点を逆算できるか
 
## 評価プロセス
 
### Step 1: 目的の確認
 
指示ドキュメントが何を達成しようとしているかを明確にする。
 
- 誰が読むか（人間、AI、両方）
- 何を生成するか（コード、文章、判断など）
- どんな品質を期待するか
 
### Step 2: 構造層の評価
 
ドキュメントを俯瞰し、構造的な問題を洗い出す。
 
```
チェック項目:
□ 全体の分量は適切か
□ セクションの順序は論理的か
□ 重複している内容はないか
□ 粒度は揃っているか
□ 必要な情報にすぐアクセスできるか
```
 
### Step 3: 意味層の評価
 
各セクションを読み、意味的な問題を洗い出す。
 
```
チェック項目:
□ 解釈が一意に定まるか
□ 具体的な行動に移せるか
□ 指示同士に矛盾はないか
□ 判断に必要な情報は揃っているか
□ 具体例は十分か
```
 
### Step 4: 機能層の評価
 
実際に指示を使って成果物を作り、機能的な問題を洗い出す。
 
```
チェック項目:
□ 指示通りに作った成果物は期待品質を満たすか
□ 異なるケースでも適用できるか
□ 成果物が指示を満たしているか判定できるか
□ 問題があったとき修正箇所を特定できるか
```
 
### Step 5: 改善の優先順位付け
 
発見した問題を以下の基準で優先順位付けする。
 
| 優先度 | 基準 |
|--------|------|
| 高 | 成果物の品質に直接影響する |
| 中 | 読み手の効率に影響する |
| 低 | あると便利だが必須ではない |
 
## 評価の観点（AIエージェント向け）
 
AIエージェントが指示を読む場合、人間とは異なる観点が必要になる。
 
### AIエージェント固有の観点
 
| 観点 | 説明 |
|------|------|
| トークン効率 | 必要な情報が少ないトークンで伝わるか |
| 参照の明確性 | 「上記」「前述」などの曖昧な参照がないか |
| 条件の網羅性 | 判断分岐の条件が明示されているか |
| 出力形式の明確性 | 期待する出力の形式が具体的か |
| エラーハンドリング | 判断できない場合の対処が書かれているか |
 
### AIエージェント向けチェックリスト
 
```
□ 曖昧な指示語（これ、それ、上記など）を使っていないか
□ 暗黙の前提を明示しているか
□ 判断基準が定量的または具体的か
□ 例外ケースの扱いが書かれているか
□ 優先順位が明確か（矛盾する指示があった場合どちらを優先するか）
```
 
## 評価結果の記録
 
評価結果は以下の形式で記録する。
 
```markdown
## 評価対象
- ドキュメント名:
- 評価日:
- 評価者:
 
## 評価結果サマリ
| 層 | 評価 | 主な問題点 |
|----|------|------------|
| 構造層 | ○/△/× | |
| 意味層 | ○/△/× | |
| 機能層 | ○/△/× | |
 
## 詳細
 
### 構造層
- 良い点:
- 問題点:
- 改善案:
 
### 意味層
- 良い点:
- 問題点:
- 改善案:
 
### 機能層
- 良い点:
- 問題点:
- 改善案:
 
## 改善の優先順位
1. （高）
2. （中）
3. （低）
```
 
## メタ評価：この評価方法自体の評価
 
評価方法自体も以下の観点で定期的に見直す。
 
| 観点 | 問い |
|------|------|
| 有用性 | この評価方法で問題が発見できているか |
| 効率性 | 評価にかかる時間は妥当か |
| 網羅性 | 見落としている観点はないか |
| 適用性 | 様々な種類の指示ドキュメントに使えるか |
 
評価方法自体に問題があれば、このドキュメントを改善する。

AIエージェント

プロンプト設計

ドキュメント

評価

林裕輔

代表取締役 / ソフトウェアエンジニア

業務分解と実装定着を重視し、PoCから本番導入・運用まで伴走。

AIと一緒に記事を書く: 指示の設計と評価

要点#

AIに仕事を任せるとき、価値があるのは「良い指示を書くこと」ではなく「指示を改善し続ける仕組みを作ること」です。

この上昇が起きると、AIは単なる執筆代行ではなく、自分の思考を外在化し検証するパートナーになります。

具体から始める#

最初は、自分で記事を書きます。AIに頼らず、手を動かして書く。この段階で重要なのは、自分がどう考えて書いているかを観察することです。

少しずつ委譲する#

指示を評価させる#

ある程度指示がまとまったら、次のステップに進みます。AIに「この指示を評価して」と頼むのです。

この段階で、評価の基準が必要になります。何を基準に「良い指示」と判断するのか。私たちは3層のフレームワークを使いました。

構造層（読めるか）: 分量、順序、重複、粒度
意味層（わかるか）: 明確性、具体性、一貫性、完全性
機能層（使えるか）: 再現性、適用可能性、柔軟性、検証可能性

成果物から仕組みを再評価する#

さらに進むと、評価基準自体を問うことになります。

メタのメタへ#

この「評価基準を評価する」という視点は、さらに上に続きます。

このサイクルを図にすると、こうなります。

成果物（記事）から学び、生成指示と評価基準の両方を更新し続けるループ。

何が起きているのか#

この改善サイクルで起きていることは、単なる「AIへの業務委譲」ではありません。

注意点#

このアプローチには限界があります。

まとめ#

AIに記事を書かせる過程で見えてきたのは、「良い指示を書く」ことより「指示を改善し続ける仕組みを作る」ことの重要性でした。

付録: 指示ドキュメントの評価方法#

本文中で触れた「評価基準」の具体例として、以下に全文を付録として掲載します。

# 指示ドキュメントの評価方法
 
指示ドキュメント（方針、ガイドライン、ルール集など）を評価するためのフレームワーク。
 
## 評価の目的
 
指示ドキュメントは「読み手（人間またはAI）が意図通りの成果物を生成できるようにする」ために存在する。評価の目的は、その指示が目的を達成できるかを検証することにある。
 
## 評価の3層構造
 
指示ドキュメントの品質は、以下の3層で評価する。
 
### 1. 構造層（読めるか）
 
指示が物理的・認知的に読みやすいか。
 
| 観点 | 良い状態 | 悪い状態 |
|------|----------|----------|
| 分量 | 必要十分。1画面で概要が把握できる | 長すぎて全体像が見えない、または短すぎて情報が足りない |
| 順序 | 抽象→具体、または依存関係順に並ぶ | 関連する項目が散らばっている |
| 粒度 | 各セクションの詳細度が揃っている | 一部だけ詳細、他は曖昧 |
| 重複 | 同じ内容が複数箇所にない | 同じルールが別の言葉で繰り返される |
| 参照性 | 必要な情報にすぐたどり着ける | 探さないと見つからない |
 
**評価方法:**
- 目次だけで全体構造が把握できるか
- 任意の項目を探すのに何秒かかるか
- 同じ内容を説明している箇所が複数ないか
 
### 2. 意味層（わかるか）
 
指示の意図が正しく伝わるか。
 
| 観点 | 良い状態 | 悪い状態 |
|------|----------|----------|
| 明確性 | 解釈が一意に定まる | 読み手によって解釈が分かれる |
| 具体性 | 行動に移せるレベルで書かれている | 抽象的で何をすればいいかわからない |
| 一貫性 | 指示同士が矛盾しない | AとBで言っていることが違う |
| 完全性 | 必要な情報が揃っている | 判断に必要な情報が欠けている |
| 例示 | 具体例があり理解を助ける | 抽象的な説明のみ |
 
**評価方法:**
- 指示を読んだ後、具体的な行動を3つ挙げられるか
- 2人の読み手が同じ解釈をするか
- 「〜の場合はどうするか」に答えられるか
 
### 3. 機能層（使えるか）
 
指示が実際に目的を達成できるか。
 
| 観点 | 良い状態 | 悪い状態 |
|------|----------|----------|
| 再現性 | 誰が読んでも同じ品質の成果物が出る | 読み手によって成果物の品質が大きく異なる |
| 適用可能性 | 想定するケースをカバーしている | 例外ケースで破綻する |
| 柔軟性 | 様々なパターンに適用できる | 特定のパターンにしか使えない |
| 検証可能性 | 成果物が指示を満たしているか判定できる | 満たしているかどうか曖昧 |
| 改善可能性 | 問題があったとき修正箇所が特定できる | どこを直せばいいかわからない |
 
**評価方法:**
- 指示に従って成果物を作り、品質を検証する
- 異なる種類のケースで適用してみる
- 成果物の問題点から指示の改善点を逆算できるか
 
## 評価プロセス
 
### Step 1: 目的の確認
 
指示ドキュメントが何を達成しようとしているかを明確にする。
 
- 誰が読むか（人間、AI、両方）
- 何を生成するか（コード、文章、判断など）
- どんな品質を期待するか
 
### Step 2: 構造層の評価
 
ドキュメントを俯瞰し、構造的な問題を洗い出す。
 
```
チェック項目:
□ 全体の分量は適切か
□ セクションの順序は論理的か
□ 重複している内容はないか
□ 粒度は揃っているか
□ 必要な情報にすぐアクセスできるか
```
 
### Step 3: 意味層の評価
 
各セクションを読み、意味的な問題を洗い出す。
 
```
チェック項目:
□ 解釈が一意に定まるか
□ 具体的な行動に移せるか
□ 指示同士に矛盾はないか
□ 判断に必要な情報は揃っているか
□ 具体例は十分か
```
 
### Step 4: 機能層の評価
 
実際に指示を使って成果物を作り、機能的な問題を洗い出す。
 
```
チェック項目:
□ 指示通りに作った成果物は期待品質を満たすか
□ 異なるケースでも適用できるか
□ 成果物が指示を満たしているか判定できるか
□ 問題があったとき修正箇所を特定できるか
```
 
### Step 5: 改善の優先順位付け
 
発見した問題を以下の基準で優先順位付けする。
 
| 優先度 | 基準 |
|--------|------|
| 高 | 成果物の品質に直接影響する |
| 中 | 読み手の効率に影響する |
| 低 | あると便利だが必須ではない |
 
## 評価の観点（AIエージェント向け）
 
AIエージェントが指示を読む場合、人間とは異なる観点が必要になる。
 
### AIエージェント固有の観点
 
| 観点 | 説明 |
|------|------|
| トークン効率 | 必要な情報が少ないトークンで伝わるか |
| 参照の明確性 | 「上記」「前述」などの曖昧な参照がないか |
| 条件の網羅性 | 判断分岐の条件が明示されているか |
| 出力形式の明確性 | 期待する出力の形式が具体的か |
| エラーハンドリング | 判断できない場合の対処が書かれているか |
 
### AIエージェント向けチェックリスト
 
```
□ 曖昧な指示語（これ、それ、上記など）を使っていないか
□ 暗黙の前提を明示しているか
□ 判断基準が定量的または具体的か
□ 例外ケースの扱いが書かれているか
□ 優先順位が明確か（矛盾する指示があった場合どちらを優先するか）
```
 
## 評価結果の記録
 
評価結果は以下の形式で記録する。
 
```markdown
## 評価対象
- ドキュメント名:
- 評価日:
- 評価者:
 
## 評価結果サマリ
| 層 | 評価 | 主な問題点 |
|----|------|------------|
| 構造層 | ○/△/× | |
| 意味層 | ○/△/× | |
| 機能層 | ○/△/× | |
 
## 詳細
 
### 構造層
- 良い点:
- 問題点:
- 改善案:
 
### 意味層
- 良い点:
- 問題点:
- 改善案:
 
### 機能層
- 良い点:
- 問題点:
- 改善案:
 
## 改善の優先順位
1. （高）
2. （中）
3. （低）
```
 
## メタ評価：この評価方法自体の評価
 
評価方法自体も以下の観点で定期的に見直す。
 
| 観点 | 問い |
|------|------|
| 有用性 | この評価方法で問題が発見できているか |
| 効率性 | 評価にかかる時間は妥当か |
| 網羅性 | 見落としている観点はないか |
| 適用性 | 様々な種類の指示ドキュメントに使えるか |
 
評価方法自体に問題があれば、このドキュメントを改善する。

AIエージェント

プロンプト設計

ドキュメント

評価

林裕輔

代表取締役 / ソフトウェアエンジニア

業務分解と実装定着を重視し、PoCから本番導入・運用まで伴走。

AIと一緒に記事を書く: 指示の設計と評価

要点#

具体から始める#

少しずつ委譲する#

指示を評価させる#

成果物から仕組みを再評価する#

メタのメタへ#

何が起きているのか#

注意点#

まとめ#

付録: 指示ドキュメントの評価方法#

関連記事

DeskOne Studioを作った理由: ドキュメントワークにも、Cursorのような加速を

GitHubリポジトリをAIの記憶領域として使う

エージェントの可能性を広げるツール最適化: 文字列出力を中間表現にする

AIと一緒に記事を書く: 指示の設計と評価

要点#

具体から始める#

少しずつ委譲する#

指示を評価させる#

成果物から仕組みを再評価する#

メタのメタへ#

何が起きているのか#

注意点#

まとめ#

付録: 指示ドキュメントの評価方法#

関連記事

DeskOne Studioを作った理由: ドキュメントワークにも、Cursorのような加速を

GitHubリポジトリをAIの記憶領域として使う

エージェントの可能性を広げるツール最適化: 文字列出力を中間表現にする