校正AIプロジェクト キャッチアップブリーフ

対象:慶應研究室×出版社 共同の校正AIプロジェクト(PM兼開発)着任前の予習 / 想定読了時間:2時間 / 作成:2026-07-04(改訂版) / 特徴:専門用語はすべて初出時に説明し、各概念に具体例を付けた

この資料の知識は2026年前半時点のもの。モデル名・価格は変化が速いので、数字は「桁感」だけ信用し、正確な値は着任時に最新情報で確認すること。逆に、第1部の原理・第3部の設計論・評価の考え方はモデルが変わっても古くならない。この資料の価値の8割は後半にある。
目次と時間配分
  1. 第1部 LLMの基礎知識 — 原理からAPIまで(35分)
  2. 第2部 周辺知識 — 校正・校閲の実務とNLPの先行研究(20分)
  3. 第3部 校正AIの設計論 — 本体(45分)
  4. 第4部 PMとしての立ち回り(15分)
  5. 用語集(リファレンス、通読不要)
  6. 降車前の課題(5分)

第1部 LLMの基礎知識35分

1-1. LLMは何をしているか:「続きを予測する」だけの機械

ChatGPTやClaudeのようなLLM(大規模言語モデル)の中身は、驚くほど単純な一つの機能でできている。「ここまでの文章の続きとして、次に来る言葉は何か?」を確率で予測する。これだけだ。

「吾輩は猫で」と入力すると、モデル内部では「ある: 92%、あった: 3%、す: 2%…」のような確率のリストが作られ、最有力の「ある」が選ばれる。これを1語ずつ延々と繰り返すと文章になる。君との会話も、コードの生成も、校正の指摘も、すべて「もっともらしい続き」の連鎖にすぎない。

「予測しているだけ」という一点から、実務で重要な性質が3つ導ける。

性質① 出力は確率的で、揺れる。同じ質問でも毎回微妙に違う答えが返りうる。サイコロを振っているのに近い(振り方を固くする設定は後述)。校正のように「同じ原稿には同じ指摘」が求められる用途では、この揺れをどう抑えるかが設計課題になる。

性質② ハルシネーション(もっともらしい嘘)は故障ではなく、仕組み上の必然。モデルは「正しいこと」を出そうとしているのではなく「続きとして自然なこと」を出している。知らないことを聞かれても、自然な続きは作れてしまう。

「村上春樹の小説『雪の図書館』のあらすじを教えて」と聞くと、そんな小説は存在しないのに、それらしいあらすじを堂々と生成することがある。「存在しない」と答えるより「それらしいあらすじ」の方が、文章の続きとして自然だからだ。校正AIの文脈では「間違っていない箇所を、間違っていると自信満々に指摘してくる」形で現れる。だから第3部では「AIの指摘をどう検証するか」が設計の中心になる。

性質③ 「数える・照合する」が苦手。LLMは計算機ではなくパターン補完機なので、機械的な正確さが要る作業を平気で間違える。

「この段落は何文字ですか?」と聞くと、486文字の段落を「約520文字です」と自信を持って答えたりする。人間なら数え直せば正確に出るが、LLMは「数えている」のではなく「それっぽい数字を生成している」。→ 校正AIでは「誤りが原稿の何文字目にあるか」をLLMに報告させてはいけない(3-3で対策)。

最後に、LLMの内部構造について一つだけ。中身はTransformer(トランスフォーマー)という仕組みで、その心臓部がattention(注意機構)。乱暴に言えば「文中のすべての語のペアについて、どれとどれが関係しているかを計算し、文脈全体を踏まえて次の語を決める仕組み」だ。

「支店長は本社からの監査を終えた頭取を見送ったあと、の残したメモを読み返した」——この「彼」が頭取を指すことを、人間は文全体から判断する。attentionはまさにこれを機械的にやっている。遠く離れた語同士の関係(てにをはの呼応、指示語、文脈上の矛盾)を捉えられるのはこの仕組みのおかげで、これこそが従来の校正ソフトにできなかったこと。逆に言えば、文脈が関係ない機械的なチェックは、従来技術で十分できている(3-2の設計に効いてくる)。

1-2. トークンとコンテキストウィンドウ:LLMの「読み方」と「作業机の広さ」

LLMは文章を1文字ずつではなく、トークンという単位で読み書きする。トークンは「よく出る文字のかたまり」で、単語より少し細かい。

「今日は校正の勉強をした」は、たとえば「今日 / は / 校正 / の / 勉強 / をした」のように6トークン程度に分割される(分割ルールはモデルごとに違う)。日本語はおおむね1文字≒1〜1.5トークン。英語より日本語の方がトークン数が嵩む=「割高」になる、と覚えておけばいい。
単行本1冊≒10万字≒10〜15万トークン。この換算はコスト計算・分割設計のすべての基礎になるので、これだけは暗記する。

コンテキストウィンドウは、モデルが一度に扱える(読める+書ける)トークン数の上限。モデルの「作業机の広さ」だと思えばいい。机に載らない資料は読めないし、載せた資料の分だけ料金がかかる。2026年時点の主要モデルは20万〜100万トークン級まであり、「本1冊が机に載る」時代にはなった。ただし丸ごと載せることには罠が2つある。

結論として、実務では長文を数千字の「チャンク」(かたまり)に分割して処理するのが基本になる(3-4で設計論をやる)。

1-3. モデルはどう作られるか:3段階の学習と、その副作用

会話できるLLMは3段階で作られる。人材育成にたとえると分かりやすい。

  1. 事前学習:ウェブ・書籍などの膨大なテキストで「続きの予測」をひたすら訓練する。たとえるなら、図書館の本を全部読ませて言葉と世界知識を叩き込む段階。数百億円かかるのはここで、これをやれる会社は世界に数社しかない。
  2. SFT(教師あり微調整):「質問→模範回答」のペアを見せて、指示に従う振る舞いを教える。新人研修で接客マニュアルを覚えさせる段階。
  3. RLHF(人間のフィードバックによる強化学習):複数の回答に人間が優劣をつけたデータで「好まれる答え方」に寄せる。顧客アンケートで応対を矯正する段階。

実務への含意は2つ。

① モデルには知識カットオフ(学習データの締め日)があり、それ以降の出来事・新語・新刊は知らない。

② RLHFの副作用で、モデルは「親切な書き換え」をしたがる。「読みやすくしてあげよう」という方向に訓練されているので、校正だけ頼んでも文体まで直してくる。この「過剰修正」癖が校正AI最大の地雷になる(3-3で正面から扱う)。

1-4. APIの基本設定:校正ではtemperature=0

LLMをプログラムから使うときはAPI(プログラム用の窓口)を呼ぶ。1回の呼び出しは「設定+指示文を送る→出力が返る」という単純なやりとりで、主要な設定は3つだけ覚えればいい。

設定意味校正AIでは
temperature出力のランダム性。0だと毎回ほぼ同じ答え、高いと多様で創造的0一択0=「マニュアル通りに毎回同じ対応をする担当者」、高=「毎回違う案を出すブレスト要員」。校正に創造性は不要
system prompt会話全体に効く役割・制約の指示。ユーザーの発言より優先される「業務命令書」校正方針・スタイルガイド・出力形式をここに固定する
max_tokens出力の上限長指摘リストが途中で切れないよう余裕を持たせる

1-5. プロンプトの書き方:魔法ではなく仕様書

「プロンプトエンジニアリング」と大層な名前がついているが、実態は優秀だが初日のアルバイトに渡す作業指示書を書く技術だ。効くパターンは実質5つに集約される。

  1. 役割と文脈を与える:「あなたは出版社の校閲者です。対象は一般向けビジネス書で、読者は社会人です」。前提を与えるほど判断がブレなくなる。指示なしだと、小説の会話文の「ら抜き言葉」(わざとかもしれない)まで直そうとする。
  2. few-shot(実例を見せる):望ましい入出力の例を2〜5個プロンプトに含める。言葉で説明するより例を見せる方が、粒度が正確に伝わる。
  3. 「やらないこと」を明記する:やることのリストより効く。「文体の好み・言い回しの改善には踏み込まない。明白な誤りのみ指摘する」。
  4. 工程を分ける:「①まず固有名詞を全部リストアップ→②本文と照合」のように分解する。1回の呼び出しに全部やらせるより、単機能の呼び出しを直列につなぐ方が精度も検証のしやすさも上がる。
  5. 出力形式を固定する:自由な文章で返させない(次項)。
few-shotの実物イメージ(system promptに入れる):
## 指摘する例
原文: 「シュミレーションの結果を検証した」
指摘: 「シュミレーション」→「シミュレーション」(誤表記)

## 指摘しない例
原文: 「結果はまあまあだった」
理由: 口語的だが誤りではない。文体には踏み込まない
「この程度は指摘する/しない」というさじ加減は言葉で説明しにくいが、例なら正確に伝わる。そして出版社の過去の校正記録(赤字)は、この実例の宝の山になる。

1-6. 構造化出力とツール呼び出し:開発者として最重要のAPI機能

構造化出力(JSONモード):出力を、あらかじめ指定した型(スキーマ)どおりのJSON(プログラムで扱いやすいデータ形式)に強制する機能。主要なAPIは「指定した型に100%従った出力」を保証するモードを持っている。

自由文で返させると「3行目の『しました』の前に不要な空白があるようです。あと全体的に読点が多い印象です」のような、プログラムで処理できない曖昧な返事が来る。構造化出力なら{"quote": "しま した", "type": "誤字", "suggestion": "しました"}のような機械処理できるデータで返る。校正AIの出力(指摘リスト)は必ずこれで受ける。自由文をあとから解析する設計は事故のもと。

ツール呼び出し(tool use / function calling):モデルに「使っていい関数の一覧」を渡しておくと、モデルが「この関数をこの引数で実行してほしい」と返してくる仕組み。実行するのはこちらのコードで、結果をモデルに返すと続きを考える。LLMが苦手な正確な処理(数える・検索する・照合する)を外部に逃がすための仕組みだと理解すればいい。

「この本で『引越し』と『引っ越し』はそれぞれ何回出てくる?」— LLMに直接聞くと間違える(性質③)。代わりにcount_occurrences(単語)という関数を渡しておけば、モデルは「この関数を『引越し』で呼んで」と要求し、コードが正確に数え、モデルはその結果を使って「表記が混在しています。多数派の『引っ越し』に統一を推奨」と判断する。判断はLLM、計算はコードという分業。

エージェントとは、このツール呼び出しをループさせて(呼ぶ→結果を見る→次を決める)、多段のタスクを自律的に進めさせる構成のこと。君が日常使っているcodexやClaude Codeがまさにこれ。MCP(Model Context Protocol)は、ツール群をモデルにつなぐ配線の標準規格で、2025年以降のデファクト。

1-7. RAGとembeddings:モデルに「資料を持ち込ませる」技術

embeddings(埋め込み):テキストを「意味を反映した数値の座標」に変換する技術。意味が近い文章は座標も近くなる。

「引越し」と「転居」は文字は全然違うが、embeddingsの座標上では隣同士になる。だから「キーワードの一致」ではなく「意味での検索」ができる。「住まいの移動に関するルールを探して」で両方ヒットする。

RAG(Retrieval-Augmented Generation:検索拡張生成):質問に関連する文書をまず検索で取ってきて、それをプロンプトに同梱してから答えさせる構成。モデル自体を再学習させずに、手元の資料を「読ませて」答えさせられる。

出版社のスタイルガイドが500ページあるとする。チャンクを校正するたびに500ページ全部を渡すのは高くつくし、注意も散る。そこで「このチャンクは数字と単位の話が多い→数字表記のルールのページだけ検索して同梱」とやるのがRAG。
ただし——用語集が50ページ程度なら、今のモデルの机(コンテキストウィンドウ)には丸ごと載る。RAGは検索の精度という新たな問題を持ち込むので、「まず全部入れる。溢れたらRAG」が2026年の正しい順序。最初からRAG基盤を作り込むのは過剰設計になりがち。

1-8. ファインチューニング:モデル自体を追加訓練する(たぶん最初は不要)

ファインチューニング(FT)は、既存モデルに自前のデータで追加学習させ、振る舞いを恒久的に変えること。プロンプトが「指示書を渡す」なら、FTは「研修を受けさせる」。LoRAという低コストな方式(モデル全体ではなく小さな追加部品だけ学習する)が主流。

手段たとえ向くケース
プロンプト+few-shot指示書と見本を渡すほぼすべての初期段階
RAG資料室を使わせる参照知識が大きい・頻繁に更新される
ファインチューニング研修で体に叩き込む①基準が言語化しきれず、事例数千件で教える方が早い ②小型モデルを鍛えて費用・速度・機密要件を満たす ③研究として比較実験したい
鉄則:プロンプトで精度の天井を確かめてからFTを検討する。研究室からは「ファインチューニングしましょう」という提案が出やすい(研究になるから)が、PMとしては「まずプロンプトでベースラインを」と返す。例外は「未公開原稿を外部のAPIに送れない」という契約制約が付いた場合で、そのときは手元で動かせるオープンモデル+LoRAが一気に本命になる。これは技術ではなく契約の問題(4-3)。

1-9. reasoningモデル:「考えてから答える」モデル

2024年末以降、回答の前に内部で長い下書き(思考)を書いてから答えるreasoningモデルが主流化した。即答させると間違える複雑な問題(論理・数学・長い推論の連鎖)に強い。

校正での使いどころ:「3章で主人公は17歳の高校2年生。7章の『翌年の夏』の場面で『19歳の彼』とある——これは矛盾か?」のような、複数の情報をつなげて推論する校閲タスク。単純な誤字探しにreasoningモデルを使うのは、九九の検算に博士を雇うようなもので、思考の分まで課金されるだけ損。タスクの難しさでモデルを使い分ける(3-8)。

1-10. モデル地図とコスト感(2026年前半時点・要最新確認)

つまり本1冊(約15万トークン)を1回チェックさせるのは、軽量モデルなら缶コーヒー1本分、最上位モデルでもランチ1回分。人間の校正が1冊数万〜十数万円であることと比べると2〜3桁安い。——これがこの事業が商売として成立する根本の理由であり、逆に「APIコストの節約」を頑張る優先度が低い理由でもある(3-6)。

第2部 周辺知識 — 校正・校閲の実務とNLPの先行研究20分

出版社の人と話すとき、ここを知らないと一発で素人認定される。逆にここを押さえていれば「分かっている外部PM」として扱われる。時間あたりの費用対効果が最も高いパート

2-1. 校正と校閲は別の仕事

校正校閲
問い「表記として正しいか」「内容として正しいか」
対象誤字・脱字・衍字(えんじ=余分な字)、表記ゆれ、用字用語事実関係、固有名詞、数字の整合、論理矛盾、差別表現、設定の不整合
性質機械的・網羅的知識・調査・文脈理解
「1985年に創業した当社は、30年の歴史を持つ」(2026年刊行の本)——表記はどこも間違っていないので校正は素通りする。しかし2026−1985=41年なので校閲は赤字を入れる。
LLM以前のツールが自動化できていたのはほぼ校正側だけ。校閲側に踏み込めるのがLLMの新規性であり、同時に事故リスク(ハルシネーション)が跳ね上がる領域でもある。プロジェクト名が「校正AI」でも、相手がどちらを期待しているかは初回に必ず確認する。

2-2. 出版の校正ワークフロー:相手の日常を知る

「引っ越し/引越し/引越」のどれが正しいか?——答えは「正しさの問題ではなく、その社がどれに統一すると決めているかの問題」。A社は「引っ越し」、B社は「引越し」でどちらも正解。つまり校正AIは顧客ごとにルールを設定できる作りでなければ商品にならない。この一点を理解しているだけで、出版社との会話の解像度が変わる。
  • 相手の動機を見誤らない:出版業界は校正・校閲人材の不足と外注費が構造課題。相手が欲しいのは多くの場合「人間の校正者の置き換え」ではなく、一次スクリーニングによる省力化(AIが下読みして怪しい箇所を絞り、人間は最終判断に集中する)。「全自動化します」と言うと現場は身構える。「校正者の道具を作ります」が正しいポジショニング。
  • 2-3. 先行プロダクト:競合と参照点

    製品提供元ひとこと
    Just Right!ジャストシステム出版・企業の校正支援の定番。ルール&辞書ベース。「既存のやり方」の代表としてまず名前が出る
    Typoless朝日新聞社新聞社の校閲資産+AI。表記チェックに強い。サブスク
    文賢ウェブライダーWeb文章向けの推敲・校閲支援
    ShodoゼンプロダクツAI校正SaaS。API提供あり
    textlint / prhOSS(無料公開)校正ルールをコードで書ける「文章のチェッカー」。ルール層の実装参考として必見
    Word / Google Docs最低限の文章校正機能。常に比較対象にされるベースライン

    初回MTGまでにTypolessとShodoは触っておく(無料枠やデモがある)。「既存製品で足りないのはどこか」がこのプロジェクトの存在理由のはずで、それを自分の言葉で言えるのはPMの信用になる。

    2-4. NLPの先行研究:GECという分野がある

    2-5. 研究室サイドが持ち込みそうな観点

    大学の研究室が共同研究に求めるのは、通常論文になる新規性(新しい評価手法、データセット構築、モデル比較)とデータ。出版社が求めるのは動く道具と省力化。この2つは目的も締切(学会 vs 年度予算)も違う。PMの仕事はこの翻訳で、定石は「両方の利害が重なる作業に工数を寄せる」こと。その筆頭が評価データセットの構築(研究室には論文の材料、出版社には品質保証の根拠、会社にはプロダクト資産になる)。詳しくは4-1。

    第3部 校正AIの設計論 — 本体45分

    3-1. タスク分解:「校正して」は一つの仕事ではない

    着任後まずやるべきは、「校正AI」というふわっとした要望を種類別のタスク表に分解すること。種類ごとに、最適な技術も、難しさも、間違えたときの被害も全く違うからだ。

    カテゴリ具体例最適手段難易度
    誤変換・誤字・脱字・衍字「精確な資料」(正確)、「食べれる」(ら抜き)、「ののしり」の重複「のの のしり」LLM(文脈判断が本体)
    表記ゆれ同じ本の中に「引っ越し」23回と「引越し」4回が混在形態素解析+集計(プログラム)。LLMほぼ不要
    用字用語・ハウスルール社の方針が「子ども」なのに「子供」と書かれているルール辞書+LLMで例外判定(固有名詞「子供の日」は直さない等)低〜中
    文法・呼応の破れ「決して忘れる」(→決して忘れない)、主語と述語のねじれLLM
    数字・固有名詞の内部整合3章「1985年創業」⇔7章「1987年創業」。登場人物の名前の表記が途中で変わる抽出はLLM+照合はプログラム中〜高
    事実確認(外部知識)「富士山の標高3,776m」は合っているかLLM+検索ツール。ハルシネーション最大の危険地帯
    差別表現・不適切表現言い換え候補の提示辞書+LLM。最終判断は必ず人間中(判断が重い)
    文体・リズムの改善冗長表現の指摘そもそもスコープに入れるか自体を要判断。好みの領域で、信頼を失いやすい
    PoC(Proof of Concept:小さく作って価値を実証する試作)の定石は「簡単で頻度が高いもの」から:表記ゆれ+用字用語+明白な誤字でまず確実に価値を見せ、そのあと整合チェック・校閲領域へ進む。逆に事実確認から入ると、初回のハルシネーション事故一発で全体の信頼を失う。

    3-2. アーキテクチャ:ルール層+LLM層のハイブリッド

    2026年時点の校正AIの筋のいい構成は、ほぼ以下に収束している。

    原稿(テキスト抽出・正規化)
       │
       ├─ [A] 決定的処理層(プログラム)……「そろばん担当」
       │     形態素解析→表記ゆれ集計、用語辞書との照合、
       │     数字・単位の抽出、正規表現ルール(textlint/prh的なもの)
       │     → 高精度・ほぼゼロ円・毎回同じ結果。機械的な指摘はここで刈り取る
       │
       ├─ [B] LLM層(チャンクごと)……「文脈担当」
       │     文脈依存の誤字脱字、文法、呼応、意味の通らなさ
       │     入力: チャンク本文+文書全体の情報(用語表・登場人物表)
       │     出力: 構造化された指摘リスト(3-3)
       │
       ├─ [C] 文書横断層……「通しで読む担当」
       │     [A][B]の結果を突き合わせ、章をまたぐ不整合
       │     (固有名詞・数字・設定)を照合
       │
       └─ [D] 検証層……「ダブルチェック担当」
             [B][C]の指摘を別の呼び出しで再検証(3-7)
             → 確信度つきで人間のレビュー画面へ

    設計思想は一言で、「LLMは文脈判断だけに使い、数える・照合する・網羅するはプログラムにやらせる」という分業。安くなり、正確になり、「なぜこの指摘が出たか」の説明もつく。

    なぜ「全部LLMに投げる」構成ではダメか。「引っ越し23回 vs 引越し4回」の混在検出を例にすると——LLMにチャンクごとに渡す方式では、各チャンクには片方しか出てこないことが多く、混在という「全体の情報」は原理的に見えない。一方プログラムなら全文を数秒で数え上げて確実に検出できる。逆に「昨日、彼は学校へ行きます」(時制の不一致)はルールでは書き切れないが、LLMなら一発で捉える。お互いの得意分野が綺麗に補完関係にある

    3-3. 出力設計:「書き換えるな、指摘せよ」

    校正AIで誰もが最初に踏む地雷が過剰修正(overcorrection)。LLMに全文を渡して「校正して」と頼むと、誤りの修正の「ついで」に文体まで直した全文を返してくる。

    入力:「俺はその時、なんつーか、言葉にできない感じがしてた。」
    LLMが返しがちな出力:「私はその時、何と言うか、言葉にできない感覚を覚えていた。」
    ——誤字は一つもないのに、著者の文体(このキャラの一人称・口調)が破壊された。小説なら作品の破壊であり、出版の世界では重大な越権行為。1-3で説明した「親切な書き換え」訓練の副作用がここで牙をむく。

    これが致命的な理由は3つ。①著者の文体は商品そのもの。②全文書き換えで返されると「どこを変えたのか」の差分検証をこちらでやる羽目になる。③書き換えの過程で、触るべきでない箇所を壊す(意味の改変・文の欠落)リスクがある。

    正解は、全文を返させず、「指摘のリスト」だけを構造化出力(1-6)で返させること。

    {
      "issues": [
        {
          "quote": "会議の資料を準備しま した。",  // 原文の該当箇所を一字一句そのまま引用させる
          "category": "typo",            // 誤字脱字|表記ゆれ|文法|整合|事実|表現
          "severity": "must_fix",        // 必須修正|修正推奨|提案
          "suggestion": "準備しました。",
          "reason": "「しま した」に不要な空白(衍字)",
          "confidence": "high"           // モデル自身の確信度
        }
      ]
    }
    位置ズレ問題(実装で最初に効く急所):LLMに「何文字目に誤りがあるか」を報告させてはいけない。1-1の性質③の通り、LLMは文字の位置計算が壊滅的に苦手で、「1,247文字目です」と平気でズレた数字を返す。
    正解は上のスキーマのように該当箇所の原文をそのまま引用させ、位置の特定はプログラム側で文字列検索して行うこと。おまけが付いてくる:引用が原文と一致しなければ、その指摘は「原文にない箇所を指摘した」=ハルシネーションとして自動で捨てられる。位置特定と検証が一つの設計で同時に解決する、この分野でいちばん美しい定石。

    3-4. 長文の扱い:チャンク設計

    本1冊をどう分割してLLMに渡すか。設計ポイントは4つ。

    3-5. 評価(eval):このプロジェクトの本体はここ

    断言するが、校正AIの成否はモデル選定でもプロンプトでもなく、評価の設計で決まる。理由は単純で、プロンプトを変えた・モデルを替えた・ルールを足した——そのたびに「良くなったのか悪くなったのか」を数字で判定できなければ、開発は感想の言い合いになって前に進まないからだ。かまのさんの会社がLLM品質保証をプロダクトにしていることからも、ここが商売の核であることは明らか。

    評価の組み立て方(5ステップ)

    ① ゴールドセット(正解つき評価データ)を作る。最良の素材は出版社の過去の赤字入りゲラ——「実際の原稿に、実際に出た誤りと、プロの直し」がセットになった完璧な教材。もらえない場合は、きれいな文章にスクリプトで誤りを混入して人工的に作る(誤変換・脱字・表記ゆれを機械的に注入)。人工データは誤りの種類が偏る欠点があるが、開発サイクルを回し始めるには十分。

    ② 指標を2つに分けて測る。ここが最重要概念。

    原稿に本当の誤りが100個あるとする。AIが80件指摘し、うち60件が本物の誤り、20件は言いがかりだった。
    再現率(recall)=100個中60個を捕まえた=60% …「見逃しの少なさ」。見逃しは出版事故に直結するので、製品の価値はここ。
    適合率(precision)=80件の指摘中60件が正しい=75% …「指摘の信頼度」。誤指摘(言いがかり)は編集者の時間を奪い、数回続くとツールごと信用を失って使われなくなる導入の生死はここ。
    両者はトレードオフ(疑わしきをすべて指摘すればrecallは上がるがprecisionが下がる)。「recallは人間の補完として高く、precisionは編集者が我慢できる水準——体感、指摘の7〜8割は当たっていてほしい——以上」のように、カテゴリ別に目標を置く。

    ③ カテゴリ別に集計する。全体スコア1本だと「どこを直せばいいか」が分からない。3-1の分解表がそのまま評価の軸になる。

    ④ 「正解は一つではない」問題に対処する。「彼が学校行った」の直し方は「学校行った」でも「学校行った」でも正しい。提案が正解と完全一致したかで採点すると厳しすぎるので、「検出できたか(誤り箇所を当てたか)」と「提案が妥当か」を分けて採点する。後者の判定はLLM-as-judge(別のLLMに審判をさせる手法)で自動化できるが、審判にも癖がある(自分に似た文章を高く評価しがち等)ので、定期的に人間の判定と突き合わせて審判自体を検品する。

    ⑤ 回帰テストとして自動化する。プロンプトやモデルを変えるたびにゴールドセット全体を自動で流し、スコアの変化を見る。ソフトウェア開発の自動テストと完全に同じ思想で、君のエンジニアリング感覚がそのまま活きる。

    初週にPMとして言うべき台詞:「まず評価データセットとベースライン計測を作りましょう。話はそれからです」。これが言えるPMと言えないPMで、プロジェクトの半年後が変わる。しかもこの評価セットは、研究室には論文の材料、出版社には品質の根拠、会社にはプロダクト資産という三方良しの成果物になる(4-1)。

    3-6. コスト試算の型:会議で即答できるように

    前提: 単行本1冊 10万字 ≒ 13万トークン
    
    チャンク4,000字 × 約25本
    + オーバーラップと共通の指示文で入力は1.5倍ほどに膨らむ
    + パスは「下準備(用語抽出)→本チェック→検証」で実質2.5周
    
    → 1冊あたり 入力≒50万トークン、出力≒8万トークン 規模
    
    軽量〜中位モデル: 1冊 数十円〜数百円
    最上位モデル:     1冊 数百円〜数千円
    (比較: 人間の校正は1冊 数万〜十数万円)

    含意:APIコストは事業の障害にならない。制約はコストではなく精度と信頼。だから「安いモデルで節約」を早期に頑張る意味は薄く、まず最上位モデルで精度の天井を確認→届くと分かってから安いモデルに置き換えられるか試す、の順番が正しい。逆をやると「精度が出ないのはモデルが安いからか、設計が悪いからか」が切り分けられなくなる。

    3-7. ハルシネーション対策:多層の防波堤

    1. 引用一致チェック(3-3の再掲):指摘のquoteが原文に実在するかをプログラムで照合。実在しない指摘は自動で捨てる。最も安くて最も強い1枚目の防波堤。
    2. 検証パス:1回目の指摘を、別のプロンプト(または別のモデル)に渡して「この指摘は妥当か?この修正で原文の意味は変わらないか?」と再判定させる。たとえるなら、校正者の指摘を校閲部長がもう一度見る体制。体感でprecisionが大きく上がる。コストは倍近くなるが、3-6の通り問題にならない。
    3. 確信度の閾値運用:モデル自身に確信度を申告させ、低いものは画面上で区別する(または出さない)。
    4. 事実確認カテゴリには検索ツールを持たせ、出典URLを必ず添付させる。出典のない事実指摘は表示しない。「富士山の標高が違います」という指摘は、国土地理院のページを添えて初めて画面に出る。
    5. 最終判断は人間(human-in-the-loop):AIの役割は「指摘の提案」まで。原稿に反映するかは編集者が決める。品質の問題であると同時に、出版社との信頼関係と、事故時の責任設計の問題。

    3-8. モデル選定の考え方

    第4部 PMとしての立ち回り15分

    4-1. 三者の利害マップ

    アクター欲しいもの時間軸地雷
    出版社校正コスト削減。現場が実際に使える道具四半期〜年度誤指摘の多いツールは、現場が文句を言わず黙って使わなくなる。校正者は「仕事を奪う道具」への警戒を持ちうる
    慶應研究室論文になる新規性、データセット学会の締切プロダクト都合の泥仕事(データ整備・UI)に工数を割く動機が構造的に薄い
    かまのさんの会社納品・継続契約・事例化(LLM品質保証プロダクトとの相乗効果)月次スコープ膨張で赤字化。研究の時間軸と商売の時間軸の衝突

    PMの仕事はこの3つの時間軸の通訳。定石は「評価データセットの構築」を最初の共同成果物に置くこと——3者の利害が一点で重なる稀有な作業だからだ(研究室:論文の材料/出版社:品質の根拠/会社:資産)。

    4-2. eval-firstのPoC進行(最初の1か月の型)

    1. W1:要件の言語化。対象文書(単行本?雑誌?小説?実用書?)、対象カテゴリ(3-1の表を見せて指させる)、成功の定義。サンプル原稿とハウスルールの受領。
    2. W2:ゴールドセットv0(数十ページ分で十分)+ベースライン計測。既存ツール(Just Right!等)と素のLLMのスコアを並べる。ここで出る数字がその後の全議論の土台
    3. W3:ハイブリッド構成(3-2)の最小実装でスコアを改善。カテゴリを絞る勇気を持つ。
    4. W4:編集者に触ってもらうデモ。見た目はCLIでもスプレッドシート出力でもいい。現場の「使う/使わない」の生の反応が、precision目標値を決める

    アンチパターン:初月にUIを作り込む(中身の精度が出る前の画面は無意味)/全カテゴリ同時着手/デモ用に都合のいいサンプルを選んで期待値を吊り上げる(次のデモで必ず自分の首を絞める)。

    4-3. データ・法務:最初に確認しないと全部やり直しになる

    4-4. 成功指標を数字で定義する

    「いい感じの校正AI」は指標ではない。例:「誤字脱字のrecall 85%以上・全体のprecision 75%以上(ゴールドセット計測)」「1冊あたりの校正時間を30%削減」「編集者の指摘採用率50%以上」。着任時点でこうした目標値は存在しない可能性が高い。存在しないこと自体を最初の論点にするのがPMの初仕事。

    4-5. 初回MTGで聞くべき質問リスト

    用語集(リファレンス)通読不要

    トークン
    LLMが読み書きする最小単位。日本語1文字≒1〜1.5トークン。課金と上限の単位。
    コンテキストウィンドウ
    1回の呼び出しでモデルが扱えるトークン数の上限。「作業机の広さ」。
    system prompt
    会話全体に効く役割・制約の指示。「業務命令書」。
    temperature
    出力のランダム性。0=毎回ほぼ同じ。校正では0。
    few-shot
    望ましい入出力の実例を2〜5個見せて挙動を合わせる手法。
    ハルシネーション
    もっともらしい嘘の生成。「続きの予測」という仕組みの必然的な副産物。
    lost in the middle
    長い入力の中間部への注意が落ちる現象。長文一括処理の敵。
    構造化出力 / JSONモード
    出力を指定した型のJSONに強制するAPI機能。
    tool use / function calling
    モデルが外部の関数の実行を要求できる仕組み。「判断はLLM、計算はコード」の分業を実現する。
    エージェント
    ツール呼び出しをループさせ、多段のタスクを自律的に進める構成。
    MCP
    ツール・データ源をLLMにつなぐ標準規格。
    embeddings
    テキストを意味の座標(数値ベクトル)に変換する技術。意味検索の基盤。
    RAG
    関連文書を検索してプロンプトに同梱してから生成させる構成。「資料の持ち込み」。
    ファインチューニング / LoRA
    自前データでモデルを追加学習させること。LoRAは低コストな部分学習方式。
    reasoningモデル
    答える前に内部で長い思考を回すモデル。複雑な推論に強いが高くつく。
    GEC
    Grammatical Error Correction。文法誤り訂正の研究分野。研究室側の共通言語。
    形態素解析
    日本語を単語に区切り品詞を付ける伝統NLP。網羅的な集計では今も主力。
    ゴールドセット
    正解つきの評価データ。開発の羅針盤。
    precision / recall
    適合率(指摘の正しさ=信頼)と再現率(誤りの捕捉率=価値)。
    LLM-as-judge
    出力の良し悪しを別のLLMに審判させる評価手法。審判自体の検品が必要。
    human-in-the-loop
    最終判断に人間を挟む運用設計。
    過剰修正(overcorrection)
    頼んでいない文体改変までモデルがやってしまうこと。校正AI最大の地雷。
    PoC
    Proof of Concept。小さく作って価値を実証する試作。
    校正 / 校閲
    表記の正しさを見るのが校正、内容の正しさを見るのが校閲。
    ゲラ / 赤字
    校正用の試し刷り/そこに書き込む修正指示。
    初校・再校・念校・校了
    ゲラ往復の工程名。
    突き合わせ / 素読み
    原稿との逐字照合/通読による違和感検出。
    ハウスルール
    出版社ごとの表記統一基準。正誤ではなく方針。

    降車前の課題5分

    読んで終わりにしない。降りる前に、この資料を見返さずに、Obsidianに自分の言葉で書く:

    1. 初回MTGで自分が最初に提案すること(1文)
    2. このプロジェクトが失敗するとしたら最も可能性が高いシナリオ(1文)
    3. 初週に自分が作る成果物の仮説(3行以内)

    ヒントは本文中にすべてある。書けなければ読めていないので、該当セクションだけ読み直す。