プロンプトエンジニアリング
ChatGPTにおけるプロンプトエンジニアリングの必須ガイド

公開以来、ChatGPTはAI分野で大きな波紋を広げ、記録的な速さで1億人以上のユーザーを惹きつけています。ChatGPTの印象的なパフォーマンスと汎用性の秘密は、そのプログラミングに巧みに組み込まれた技術、プロンプトエンジニアリングにあります。 2022年に公開されたDALL-E、MidJourney、StableDiffusionは、生成AIの破壊的潜在能力を浮き彫りにしました。しかし、2022年後半に真に中心舞台に立ったのはOpen AIのChatGPTでした。そしてこの勢いは衰える気配を見せません。 GoogleによるBardの発表と、MetaのLamma 2によるOpenAIのChatGPTへの対応は、AI競争の勢いを大きく増幅させました。私たちはこれらのモデルに入力を提供することで、その動作と応答を導いています。これは、私たちすべてがある程度、プロンプトエンジニアであることを意味します。テクノロジー業界はこのことに気づいています。ベンチャーキャピタルは、Vellum AIのようなプロンプトエンジニアリングに焦点を当てたスタートアップに資金を注ぎ込んでいます。さらに、Forbesは、プロンプトエンジニアが30万ドルを超える給与を得ていると報告しており、これは活気に満ちた価値ある雇用市場を示しています。 この記事では、ChatGPTの文脈におけるプロンプトエンジニアリングの世界を解き明かします。中核となる原則と技術を探り、その商業的応用を検討します。 まず、ChatGPTがどのように機能し、このプロセスにおいてプロンプトエンジニアリングがどのような重要な役割を果たすのかを理解しましょう。
ChatGPTプロンプトエンジニアリングの仕組み
ChatGPTの成功の秘密は、人間の会話のニュアンスを理解し模倣する能力にあります。このモデルは多様なインターネットテキストで学習していますが、重要なのは、学習セット内の特定の文書や情報源を知らないため、特定性よりも一般化が保証されている点です。この学習アプローチにより、ChatGPTは創造的な応答を生成し、複雑な対話を進め、さらにはユーモアのセンスさえ示すことができます。ただし、ChatGPTは真に理解したり信念を持ったりしているわけではなく、学習中に学んだパターンに基づいて応答を生成していることを覚えておくことが重要です。 ChatGPTが人間の言語をニュアンス豊かで文脈を考慮した方法で理解し応答する能力は、それらを非常に汎用性の高いツールにしています。 これらのモデルの仕組みは、「トークン」という概念に基づいています。トークンとは、1文字から単語全体まで様々な、言語の個別の塊です。これらのモデルは一度に特定の数のトークン(GPT-3.5-Turboでは4096、GPT-4では8192または32768)を扱い、次に来る可能性の高いトークンのシーケンスを予測します。モデルは複雑な線形代数を使用してトークンを処理し、最も確率の高い次のトークンを予測します。 

プロンプトエンジニアリングとは?
プロンプトエンジニアリングとは、ChatGPTのようなAI(NLP/Vision)モデルを、最もコスト効率が良く、正確で、有用で、安全な出力を生成する方向に導くために、正確で効果的なプロンプト/入力を設計する技術です。 プロンプトエンジニアリングはテキスト生成に限定されるものではなく、AI領域全体に広がる応用があります。ロボティック・プロセス・オートメーションボット、3Dアセット、スクリプト、ロボット指示、その他の種類のコンテンツやデジタルメディアなど、様々な分野でますます採用されています。それは、論理、コーディング、芸術、そして場合によっては特別な修飾子の独自の組み合わせを提供します。 プロンプトには自然言語テキスト、画像、その他の種類の入力データを含めることができますが、出力はAIサービスやツールによって大きく異なる可能性があります。すべてのツールには、望ましい応答の単語の重み、スタイル、視点、レイアウト、その他の特性を記述する独自の特別な修飾子があります。 この分野は、より優れたAI駆動型サービスを作成し、既存の生成AIツールから優れた結果を得るために不可欠です。例えば、エンタープライズ開発者は、顧客向けのチャットボットを強化したり、業界固有の契約書作成などのタスクを処理するために、GPT-3のような大規模言語モデル(LLM)を調整するためにプロンプトエンジニアリングを利用することがよくあります。 プロンプトを改良しAIのパフォーマンスを測定するこの反復プロセスは、AIモデルが様々な文脈で非常にターゲットを絞った有用な応答を生成できるようにするための重要な要素です。
プロンプトエンジニアになるには
GPT-4モデルは、複雑な指示を理解し、込み入った問題を正確に解決する能力に優れており、貴重なリソースです。しかし、このモデルの能力にアクセスする方法はいくつかあり、これらを理解することは、プロンプトエンジニアが効率性とコスト効率性の両方を最適化する上での役割において重要です。 GPT-4のようなGPTモデルと関わる方法は、基本的に2つあります。1つはOpenAIのAPIを通じる方法で、コストは入力および出力トークンごとに計算されます。このシナリオでは、1Kトークンあたりのコストはコンテキストサイズに基づいて変動します。例えば、より大きな32Kコンテキストでは、入力トークンで0.06ドル、出力トークンで0.12ドルまでコストが上がる可能性があります。したがって、大量のリクエストを処理する場合、使用コストはすぐに積み上がる可能性があります。 あるいは、GPT-4モデルを活用するChatGPTは、サブスクリプションベースのモデルで動作します。 プロンプトエンジニアリングにおけるもう一つの重要なタスクは、モデルパラメータの調整です。このプロセスには、モデルが予測を行うために使用する変数を調整することが含まれます。これらのパラメータを微調整することで、プロンプトエンジニアはモデルの応答の品質と精度を向上させ、より文脈に関連し有用なものにすることができます。 多くのプロンプトエンジニアは技術的背景を持っていますが、この分野の学際的な性質により、多様な専門的背景を持つ個人にもアクセス可能です。ますます多くのライター、研究者、さらにはアーティストが、AIモデルの有効性を高めるために独自のスキルを活用しています。この変化は雇用市場にも反映されており、多様なスキルと背景を持つプロンプトエンジニアを求める企業が増えています。
ChatGPTにおけるプロンプトデザインとエンジニアリング
プロンプトデザインとエンジニアリングは、言語モデルのパフォーマンスを最適化する上で重要な役割を果たし、単に質問を作成する以上のものを含みます。それらは、AIモデルに対する深い理解と、高度に反復的で洗練されたアプローチを必要とします。 
プロンプトデザイン
プロンプトデザインは、その核心において、明確に述べられた目標を達成するために、ChatGPTのような特定の大規模言語モデル(LLM)に最適なプロンプトを作成する技術と科学です。それは以下の要素の融合です:
- LLMの理解:異なる言語モデルは、同じプロンプトに対して様々に応答する可能性があります。さらに、特定の言語モデルには、特定の方法で解釈する独自のキーワードやトリガーがある場合があります。
- ドメイン知識:関連する分野の専門知識は、プロンプトを設計する際に重要です。例えば、医学的診断を推論するプロンプトを生成するには、医学的知識が必要です。
- 反復的アプローチと品質測定:理想的なプロンプトを作成するプロセスには、試行錯誤が伴うことがよくあります。したがって、特に大規模にプロンプトを使用する場合、単なる主観的判断を超えて出力品質を評価する方法を持つことが不可欠です。
プロンプトエンジニアリング
プロンプトエンジニアリングは、プロンプトデザインの拡張領域であり、いくつかの重要なプロセスを含みます:
- スケールでのプロンプト設計:このプロセスには、メタプロンプト(他のプロンプトを生成するプロンプト)や、実行時にインスタンス化できるパラメータ化されたプロンプトであるプロンプトテンプレートの設計が含まれます。
- ツール設計と統合:プロンプトには外部ツールからの結果を含むことがあり、これらのツールをシステムにシームレスに統合することが重要です。
- ワークフロー、計画、およびプロンプト管理:チャットボットのようなLLMアプリケーションを展開するには、多くの場合、プロンプトのライブラリを管理し、適切なプロンプトを計画・選択し、様々なツールを効率的に統合する必要があります。
- プロンプトの評価と品質保証:この側面には、プロンプトを自動的および人的に関与して評価するための指標とプロセスを定義することが含まれます。
- プロンプト最適化:AIモデルのコストとレイテンシは、モデルの選択とプロンプトの長さ(トークン数)に依存する可能性があります。
スケールでプロンプトを管理するために、多くの自動化されたプロンプト設計アプローチ、ツール、フレームワークが開発されています。しかし、これらのツールのいずれも、経験豊富なプロンプトエンジニアの微妙な理解、判断、経験に取って代わることはできないことを理解することが重要です。
プロンプトエンジニアリング:技術とベストプラクティス
1) プロンプトの配置と記述
プロンプトの冒頭に指示を配置することは、AIの理解と応答に大きな影響を与える可能性があります。箇条書き形式でテキストを要約するタスクを考えてみましょう。効果的でないアプローチは次のようになります: ユーザー: 以下のテキストを、最も重要なポイントの箇条書きリストとして要約してください。 {ここにテキスト入力} 一方、より効果的な技術は次のようになります: ユーザー: 以下のテキストを、最も重要なポイントの箇条書きリストとして要約してください。 テキスト: “”” {ここにテキスト入力} “”” ###や”””などの記号で指示とコンテキストを明確に分離することで、AIモデルはそのタスクと処理する必要があるテキストをよりよく区別し、それによってより正確で関連性の高い応答を与えることができます。 第二に、コンテキスト、期待される結果、長さ、形式、スタイルなどについて具体的で、記述的で、詳細であることは、AIの応答の精度を大幅に向上させることができます。科学的論文について、魅力的で一般の人にもわかりやすいスタイルで簡単な概要を生成する必要があるとします。「科学的論文を要約してください」のような曖昧な指示は、具体的で詳細なプロンプトと比較して効果的でない結果をもたらします: ユーザー: 以下の科学的論文について、簡潔な(約200語)魅力的な要約を生成してください。要約は科学的背景のない人にも理解できるものでありながら、論文の主要な発見を正確に反映している必要があります。 論文: “”” {ここに科学的論文のテキスト} “””
2) ペルソナパターン
ペルソナパターンは、AIを専門的な役割や架空のキャラクターなどの特定の視点から機能するように設定する戦略です。この戦術により、モデルはそのペルソナが扱うであろう特定の役割に関連する出力を提供することができます。例えば、コードレビュー中にAIにサイバーセキュリティ専門家として振る舞うように指示することができます。このパターンは、ユーザーが支援を必要としているが、出力に必要な正確な詳細がわからない場合に特に有用です。 以下の例を考えてみましょう: ユーザー: 「フランス革命を専門とする上級歴史家のペルソナを想定してください。そのペルソナを前提として、フランス君主制の崩壊につながった主要な出来事と理由を説明してください。」 このシナリオでは、AIは歴史家がするように、フランス革命について、君主制の崩壊に焦点を当てた詳細な分析で応答することが期待されます。
新しい情報の導入
ChatGPTは学習カットオフを超えた知識を持っていないため、最近の出来事や学習後の更新に関する情報を提供することはできません。しかし、プロンプトを通じてモデルに新しい情報を導入することができます。 ユーザー: 「暗号通貨とは何ですか?」 ChatGPT: 「暗号通貨は、セキュリティに暗号技術を使用する一種のデジタルまたは仮想通貨です。最もよく知られている暗号通貨はビットコインです。」 さて、プロンプトにもう少しコンテキストを追加すると、説明をさらに直感的にすることができます: ユーザー: 「デジタルファイナンスを学んでいる












