PJ38 Phase 10 - 3モデル統合レビュー

レビュワー構成

Opus 4.6 改善提案者

Phase 9 全結果 + コードベース + Vault ドキュメントを参照。16提案を優先度P0〜P5で整理。特に CatBoost 比較と馬単戦略追加を具体的に設計。

トークン90,019

ツール使用22回

提案数16件

GPT 5.5 改善提案者

Phase 9 結果 + Vault内の既存分析レポート（oana-strategy-analysis-opus.md）を自主的に発掘・参照。パラメータ感度分析を独自に実施し定量的な推奨値を提示。

モデルgpt-5.5 (xhigh)

自主調査Vault + コード精査

提案数8件（定量付き）

Grok 4.20 ゼロベースレビュワー

過去の結果・数値を一切教えず、システム設計のみを提示。公平性担保のための独立レビュー。構造的欠陥の指摘に注力。

モデルgrok-4.20-non-reasoning

提供情報アーキテクチャのみ

提案数6領域・18サブ提案

3モデル合意事項

3モデルが独立に同じ結論に達した項目は信頼性が高い。

全モデル一致（3/3）

二値ラベルの限界: LambdaRank を二値ラベルで使うのは情報ロスが大きい。段階ラベルへの移行を推奨（ただし面×バリアント問題の解決が前提）
Kelly 基準のベットサイジング: Flat bet → Fractional Kelly への移行。Opus: 条件付き Kelly、GPT: 1/4 Kelly、Grok: Fractional + Meta-Kelly
ドローダウン制御の実装: 月次損失制限 + ベットサイズ自動カット。全モデルが「実資金投入の前提条件」と位置づけ
特徴量の時間窓最適化: 一律90日 → 条件別・カテゴリ別の動的窓。Opus: 距離別、Grok: 全般的なTime Decay

2モデル一致（2/3）

CatBoost / 代替 GBDT の検証: Opus + Grok。カテゴリカル特徴量（血統・脚質・場コード）の処理改善を期待
ListMLE / Plackett-Luce 直接最適化: Grok + Opus（Two-Stage Stacking として言及）。現在の「LambdaRank→PL変換」の2段構えを1段に
レースコンテキスト特徴量: Grok + Opus。レース全体のレベル・ペース予測・メンバー能力分散
重馬場スペシャリスト特徴量: Opus + Grok。馬場×馬の適性交互作用が不足
min_odds 引き下げ: GPT + Opus（ワイド戦略として同趣旨）。ベット機会増 = 統計的確信度向上

1. モデル改善提案

提案	提案者	期待インパクト	難易度	リスク	優先度
段階的 label_gain で LambdaRank 再設計	Grok Opus	★★★★★	低	面×バリアント分裂（Phase 9 で確認済み）	P2
CatBoost YetiRank 比較実験	Opus	AUC +0.005〜0.015	低	学習時間2〜3倍	P2
ListMLE（PL直接最適化）	Grok	★★★★（oana親和性高）	中	学習不安定	P3
Two-Stage Stacking（LR + WinCls メタラーナー）	Opus	AUC +0.003〜0.008	中	ネストCV必要・過学習リスク	P3
条件付き特徴量の時間窓最適化	Opus Grok	AUC +0.002〜0.005	低	低	P1
重馬場スペシャリスト特徴量	Opus Grok	ROI +5〜10pp	低	低	P2
Transformer / Set Transformer（中長期）	Grok Opus	AUC +0.01〜0.02	高	データ量不足リスク	P5
WinCls axis_confidence フィルタ	GPT	ROI +5〜10pp	中	CV予測出力追加が前提	P3

2. ベッティング戦略提案

提案	提案者	期待インパクト	難易度	備考
min_odds 30→15 に引き下げ	GPT	利益3〜5倍増 / ROI 167〜177%	引数変更のみ	ベット機会3倍増で統計確信度が P(ROI>100%)=99.9% に到達
min_ev = 3.0	GPT	ROI +5〜13pp	引数変更のみ	低 EV 馬を除外。リスクなし
条件付き Kelly 分数最適化	Opus	利益額 +20〜40%	低	オッズ帯別に Kelly 分数を変動（1/8〜1/2）
馬単（Exacta）戦略追加	Opus	ROI +15〜30pp	中	PL で P(1st,2nd) 計算可能。NL_O4 ETL が前提
ワイド戦略追加	Opus	ROI +10〜20pp	低	控除率22.5%（馬連25%より有利）。ヘッジ用
VS 閾値の条件別（クラス別）動的設定	Opus	ROI +5〜15pp	低	G1: VS≥2.5 / OP: 2.0 / 1〜3勝: 1.5 / 新馬: 3.0
期待値ポートフォリオ最適化（二次計画法）	Grok	★★★★	中	共分散を考慮したベットサイズ配分
馬単「逆目」戦略	Opus	市場非効率性が umaren 以上	中	1番人気が2着に落ちるケースの過小評価を狙う
フィルタ多層化（エントロピー + レースクラス + 流動性）	Grok	★★★★	中	VS だけでなく、確率分布のエントロピーでベット精度を上げる

3. リスク管理提案

ドローダウン制御（3モデル全合意・P0）

閾値	アクション	提案者
月次 -15%	ベットサイズ 50% カット	Grok
月次 -20%	ベットサイズ 50% カット	Opus
月次 -25%	全停止	Grok
月次 -30%	一時停止（手動再開）	Opus

推奨: -20% で半減、-30% で停止（Opus案）。Telegram 通知必須。

Kelly 基準の実装

モデル	推奨
GPT	1/4 Kelly 固定（bankroll 0.3%/点）
Opus	条件付き Kelly（オッズ帯別 1/8〜1/2）
Grok	Fractional + Meta-Kelly（シャープレシオ連動）

Phase 1: GPT 案（1/4 固定）で開始 → Phase 2: Opus 案（条件付き）へ段階移行

追加リスク管理提案

提案	提案者	概要
Bayesian Performance Analysis	Grok	結果を「スキル成分」と「ラック成分」に分解。運と実力の切り分け
モデル劣化検知 + 自動リトレイン	Opus	ECE / Brier Score 監視。閾値超過で自動リトレイン（最低30日間隔）
バンクロール月次リバランス	Opus	3戦略の残高ベースリバランス（Oracle bankroll_log テーブル）

4. データパイプライン提案

提案	提案者	期待インパクト	難易度
NL_KH 調教タイム取得・統合	Opus	AUC +0.005〜0.010（最大未利用データ源）	高
馬体重トレンド特徴量	Opus	ROI +3〜5pp	低
天候予報統合（気象庁API）	Opus	ROI +2〜5pp	中
pedigree_edges Gen2 修正（祖父データ接合）	Opus	AUC +0.002〜0.005	中
レースコンテキスト特徴量（能力指数分散・ペース予測）	Grok	★★★★★	中〜高
騎手・調教師コンテキスト適応力	Grok	★★★★	中

警告・落とし穴（Grok ゼロベース指摘）

Grok が独立レビューで指摘した構造的リスク

落とし穴	深刻度	対応方針
展開予想データリーク: JVLink の展開予想特徴量が事後データ（レース結果後に生成されたもの）を含んでいないか	最重大	TYB（前日予想）と SE（成績）の時系列を厳密に確認。Train/Test 境界で SE が Train に混入していないか検証
WF-CV の開催日単位漏れ: 同一開催日の異なるレースが Train/Val に分割されると情報漏洩	重要	現行の month 単位スプリットで同一開催日が跨る可能性を検証。日単位の厳密分割を検討
人気馬の Silent Bias: モデルが無意識に人気馬を過剰評価。オッズを使わなくても、枠順・馬体重・騎手実績が人気と相関する特徴量を経由して間接的にオッズ情報が漏入	重要	人気度をオフセット項として扱う GLM 的アプローチ、または残差学習を検討

Grok 独自視点: 「二値ラベル + LambdaRank は本質的に矛盾」

Grok は結果を知らない状態で、「二値ラベルで LambdaRank を回すのは本来の設計思想と矛盾する」と即座に指摘。 Phase 9 で Option B を検証した際の「面×バリアント分裂問題」とも整合する。ただし Grok の「即時廃止」推奨は、Phase 9 で turf soft の赤字リスク（ROI 89%）が確認されている点を踏まえると時期尚早。 シャドーラン蓄積後の段階的移行が現実的。

Phase 10 推奨ロードマップ

優先度	施策	主提案者	期待効果	時期
P0	ドローダウン制御（-20% 半減 / -30% 停止）	全モデル	破産確率 <0.1%	即時（実資金投入前）
P1	min_odds 30→15 引き下げ（シャドーランで検証）	GPT	利益3〜5倍	シャドーラン並行
P1	1/4 Kelly ベットサイジング	GPT	bankroll 成長率最適化	シャドーラン並行
P1	特徴量の時間窓最適化（距離別・騎手30日窓追加）	Opus Grok	AUC +0.002〜0.005	シャドーラン並行
P1	VS 閾値の条件別化（クラス別動的設定）	Opus	ROI +5〜15pp	シャドーラン並行
P2	CatBoost YetiRank 比較実験	Opus	AUC +0.005〜0.015	シャドーラン100bet後
P2	ワイド戦略追加	Opus	ROI +10〜20pp	NL_O5 実 EV 稼働確認後
P2	重馬場スペシャリスト特徴量	Opus Grok	ROI +5〜10pp	梅雨シーズン前
P2	馬体重トレンド特徴量	Opus	ROI +3〜5pp	シャドーラン並行
P3	条件付き Kelly（オッズ帯別 1/8〜1/2）	Opus	利益額 +20〜40%	100bet 蓄積後
P3	展開予想データリーク検証	Grok	信頼性担保	CatBoost 実験と同時
P3	Two-Stage Stacking / ListMLE	Opus Grok	AUC +0.003〜0.008	CatBoost 評価後
P4	馬単（Exacta）戦略	Opus	ROI +15〜30pp	NL_O4 ETL 後
P4	NL_KH 調教タイム統合	Opus	AUC +0.005〜0.010	jrvltsql スキーマ拡張後
P5	Transformer / Set Transformer	Grok Opus	AUC +0.01〜0.02	Phase 11 以降

Phase 10 の成功基準

シャドーラン 100bet 完了（2026-05-24〜 / 4〜6週間）: 実レースでベースライン ROI 再現性を確認
P0 ドローダウン制御実装: 実資金投入の前提条件
P1 施策の並行実装: min_odds 引き下げ + Kelly + 時間窓最適化 + VS 条件別化
統計確信度 P(ROI>100%) ≥ 99%: 200bet 以上で CI 下限 > 100% を達成

PJ38 Phase 10 計画 — 3モデル統合レビュー