「AIのプロセス」

AIプロセス

AIはまだ比較的新しい分野と考えられているため、SWEBOKのようなガイドや標準は存在しません。実際、AI/MLの大学院の教科書にはAIソフトウェアエンジニアリングプロセスの明確かつ一貫した説明がありません。そのため、AIエンジニアリングプロセスまたはAIプロセスの完全な説明を提供することが役立つと考えました。これはほとんどのAI/MLの教科書で説明されています[5][6]。

AIプロジェクトの85％以上が失敗します[1][2]。

34％の科学者と研究者が疑わしい研究手法を認めています[3]。

一般的に、現在のAIに関する雑誌の記事の結果（審査付きであっても）は再現できません。
「ディープフェイクの解明：ヘッドポーズ推定パターンを活用した検出精度の向上」
「文書理解の進展」
ビッグテックと生成AI：ビッグテックが生成AIを制御するのか？

AIとは何ですか

人工知能（AI）は、環境に対して知覚し、行動し、学習するインテリジェントシステムの設計と実装に焦点を当てています。

AIでは、エージェントは何かしらの行動を起こすものです[6]。すべてのコンピュータプログラムは何かしらの動作を行うと考えられますが、コンピュータエージェントはより複雑なタスクを行うことが期待されます。すなわち、自律的に動作し、環境を認識し、長期間にわたって持続し、変化に適応し、目標を作成および追求することが求められます。実際、合理的なエージェントは、不確実性がある場合に最良の結果または最良の予想結果を達成するように行動するものです。

要するに、AIは、与えられた目的に基づいて合理的に行動するエージェントの研究と構築に焦点を当てています。実際、標準モデルは合理的なエージェントに関して定義されています[6]。ただし、このモデルには制約があります。限られた合理性の問題や価値の整合性の問題などがありますが、標準モデルは理論的な分析のための良い基準点となります[6]。

Figure 1: An agent interacts with its environment through its sensors and actuators. Gungor Basa Technology of Me — **図1：**エージェントは、センサとアクチュエータを介して環境とやり取りします。Gungor Basa Technology of Me

人工知能と機械学習の用語の間にはしばしば混乱があります。エージェントは、以前の経験に基づいてパフォーマンスを改善する場合、学習していると言えます。コンピュータがエージェントである場合、学習プロセスは機械学習（ML）と呼ばれます[6, p. 651]。したがって、機械学習はAIのサブフィールドです。一部のAIシステムは機械学習の手法を使用し、一部は使用しません[6]。

AIエンジニアリングは、AIシステムを実世界の状況で適用するためのツール、システム、プロセスの開発に焦点を当てた学問です。これはシステムエンジニアリング、ソフトウェアエンジニアリング、コンピュータサイエンスの原則を組み合わせてAIシステムを作成します。

モデル中心 vs データ中心

現在、相互に排他的な2つのアプローチ（モデル中心とデータ中心）がAI/MLに存在しています。データセットによってモデルの選択がされる場合はデータ中心のアプローチであり、そうでない場合はモデル中心のアプローチです。データ中心のアプローチは、AutoMLを使用するか、カスタムのテストハーネスを作成してデータセット上で多数のアルゴリズム（たとえば20〜30個）を評価し、その後トップのパフォーマー（おそらくトップ3）をさらなる研究のために選択することで適用することができます。なお、シンプルなアルゴリズム（オッカムの剃刀）に優先度を付けるようにします。

したがって、よりシンプルなアルゴリズムが全く機能しない場合にのみ、より複雑なSOTAアルゴリズムを選択します。研究プロジェクトでは、同じトイデータセットに対する以前の結果と比較して新しいアルゴリズムを評価するためにモデル中心のアプローチを使用することがあります。実世界のアプリケーションでは、データ中心のアプローチに焦点を当てるべきです。

AIプロセス

ほぼすべてのAIの問題を解決するために使用できるAIエンジニアリングプロセスまたはAIプロセス（AIP）を定義することができます[5][6][7][9]：

問題の定義：このステップでは、以下のタスクが含まれます：スコープの定義、価値の定義、タイムライン、ガバナンス、およびデリバラブルに関連付けられるリソース。
データセットの選択：このステップは、プロジェクトによって数時間または数ヶ月かかる場合があります。AI/MLプロジェクトに適切で信頼性のあるデータセットを取得することが重要です。
データの説明：このステップには、以下のタスクが含まれます：データセットの説明、入力特徴量とターゲット特徴量を含む；データの要約統計および任意の離散的またはカテゴリカルな特徴量、ターゲット特徴量を含む。
データの準備：このステップには、データの前処理、データのクリーニング、探索的データ分析（EDA）などのタスクが含まれます。画像データの場合、画像を（299 x 299）などのより低い次元にリサイズし、ミニバッチ学習を可能にし、計算制限に対応します。テキストデータの場合、改行とタブの削除、HTMLタグの除去、リンクの削除、空白
以下に各ステップの詳細が記載されています。AIチェックリスト、応用MLチェックリスト、データの準備、および特徴エンジニアリングについては、私のLearnAI GitHubリポジトリを参照してください。

問題の定義

AIプロジェクトの最初のステップは、問題を定義することです[6]。以下を数文で説明してください。
1. 解決すべき問題を説明してください。
2. 問題の一部を機械学習で解決できる部分を説明してください。
3. プロジェクトの目標を説明してください。
4. モデルの目標を説明してください：分類、予測、検出、翻訳など。
5. プロジェクトの損失関数および/またはパフォーマンスおよびエラーメトリックスを定義してください。
このステップには、同様のAI問題に関する広範な研究文献の調査が含まれるべきです。問題の学術研究が見つからない場合、AIプロジェクトではなく、研究プロジェクトとなる可能性があります。AIはスタートレックのアプローチには適していないことを念頭に置いてください。

PEASの説明

エージェントを設計する際には、最初のステップの1つとして、タスク環境を指定する必要があります。これは「PEAS」（パフォーマンス、環境、アクチュエータ、センサ）の説明と呼ばれます[6]。要するに、タスク環境は「問題」であり、合理的なエージェントは「解決策」です。

ロボット掃除機のためのPEASの説明

シンプルなロボット掃除機の古典的なおもちゃの例を考えてみましょう。
- パフォーマンス尺度は何ですか？清潔さ、効率：掃除のための移動距離、バッテリー寿命、セキュリティ
- 環境について何がわかっていますか？部屋、テーブル、木製の床、カーペット、異なる障害物
- エージェントが持っているアクチュエータは何ですか？車輪、異なるブラシ、吸引機
- エージェントが持っているセンサは何ですか？カメラ、ゴミ検出センサ、クリフセンサ、衝突センサ、赤外線壁センサ
さらに、タスク環境は次の7つの次元で分類できます[6][18]：
- 完全に観測可能 vs 部分的に観測可能
- 単一エージェント vs マルチエージェント
- 決定論的 vs 非決定論的
- エピソード的 vs 順次的
- 静的 vs 動的
- 離散 vs 連続
- 既知 vs 未知
問題を部分問題に分解した後、機械学習ではなく、従来のソフトウェアエンジニアリングを使用して処理できるコンポーネントが複数ある場合があります。全体のシステムを開発し、後でいくつかのコンポーネントをより洗練された機械学習モデルで置き換えて最適化することができます。

問題の定義の一部は、教師あり学習、教師なし学習、または強化学習を扱っているかどうかを決定することです。ただし、区別が常にはっきりしているわけではありません。

データの準備

データの準備段階は、実際には3つのステップが重なる場合があります。
1. データの前処理： 形式の調整、不整合の修正、変数のエラーの処理。
2. 探索的データ分析と可視化： データが正規分布しているか、重尾しているかをチェックする; 外れ値をチェックする; データのクラスタリングが助けになるかどうかをチェックする; データの不均衡をチェックする。
3. データのクリーニング： データ型をチェックする; 欠損値や無効な値の処理を行う; 外れ値の処理を行う; カテゴリ値の処理を行う; クラスラベルをエンコードする; 日付の解析; 文字エンコーディング; データの不均衡の処理を行う。
データの前処理

最初に分割してから正規化することは、データセットを最初にトレーニングセットとテストセットに分割し、その後にデータを正規化することを意味します。

形式の調整
- 先頭と末尾のスペースを削除する
- 型を標準化する（小数点の区切り文字、日付の形式、または計測単位）
- 認識できないまたは破損した文字を置換する
- 切り捨てられたエントリ（ある位置で切り詰められたデータエントリ）をチェックする
不整合の修正 変数のエラーの処理
- 無効な値のチェック（年齢が200以上または負の値）
- カテゴリデータの誤ったカテゴリのチェック（類似の製品が異なるカテゴリに分類されていないかどうかをチェックする）
変数のエラーを処理する。
- 高次元性：カテゴリデータの異なるラベルの数が非常に多いため、モデルの学習に問題が発生する。
- 外れ値：エラーに起因する可能性があるが、全ての場合には当てはまらない極端なケース。
AIモデルの選び方

新たなAIエンジニアが問題に対してどのモデルを使用するかを決定する必要があることに気付きます。選択肢は多くありますが、回帰モデルを分類モデルに変えるか、逆にするためには通常わずかな修正が必要です。

まず、データ中心のアプローチを取ることを心に留めて、「どのモデルを使用すべきか」という質問を避けてください。したがって、AI/MLプロセスの最初のステップは、モデルの特性を理解するためにEDAを実施することです。例えば、バランス（分類）またはガウス（回帰）などです。

モデル選択には2つのアプローチがあります。データ中心のアプローチとモデル中心のアプローチです。データがモデル選択をドライブしている場合はモデル中心のアプローチであり、そうでない場合はモデル中心のアプローチです。

モデル中心のアプローチでは、基本的にはデータセットにモデルを投げて、何かがうまくいくことを期待しています。壁にボローニャを投げてくっつくことを期待するのと似ており、モデル中心のアプローチは科学的ではなく、成功確率が低いアプローチです。

AIの問題を解決するための2番目のステップは、ベースラインモデルとして簡単なアルゴリズム（線形回帰またはロジスティック回帰など）を試すことです。これらのベースラインモデルは、後で選択したモデルよりも良いパフォーマンスを発揮するために使用されます。

選択肢が多いため、scikit-learnを使用して簡単に分類/回帰モデルから始めることを考えてください。

ニューラルネットワークを試す前に試すべき10のシンプルなもの

次に、Orange、PyCaret、またはAutoGluonなどのAutoMLツールを使用して、正確性とエラーメトリクスに基づいて選択肢を絞り込んで多くのアルゴリズム（10〜20個）を評価するのがベストプラクティスです。その後、候補を完全に探索するためのテストハーネス[10]を作成します。

一般的には、より複雑なニューラルネットワークなどの複雑なモデルを評価する前に、多くのモデルを評価する必要があります。数学、工学、および他の分野でもアルゴリズムの評価と比較には同様のアプローチが使用されます。

簡単な原則は、深層学習モデルは最後の選択肢であるべきです（オッカムの剃刀）。

50％の正確性はランダムな推測（コイントス）と同等です。したがって、ハイパーチューニングの前に、モデルの正確性は少なくとも80〜90％以上、またはそれ以上である必要があります。そうでない場合は、異なるモデルを選択するか、データの準備と特徴エンジニアリングにさらに時間を費やす必要があります。

AIエンジニアリングプロセスの詳細な説明は、[5][6]にあります。

実験デザイン

MLの目標は、実験を行い結果を分析し、偶然の影響を排除して統計的に有意な結論を得ることです[5]。

したがって、最も一般化精度が高く、複雑さが最小限で（実装が時間とスペースの面で安価で）、外部の変動要因に影響されない堅牢な学習者を見つけたいと考えています[5]。

実験デザインには3つの基本原則があります[5]：
1. ランダム化は、実行順序がランダムに決定されるべきであり、結果が独立していることを要求します。ただし、ソフトウェアの実験では通常問題にはなりません。
2. 複製は、同じ（制御可能な）要因の構成に対して実験を複数回実行し、制御できない要因の効果を平均化する必要があります。
機械学習では、複製は通常、同じデータセットの再サンプリングバージョンに対して同じアルゴリズムを実行することによって行われる、クロスバリデーションと呼ばれる方法で行われます。

3. ブロッキングは、応答に影響を与えるが興味がないヌイサンス要因の変動を減らすか排除するために使用されます。

学習アルゴリズムを比較する場合、異なるトレーニングセットを使用しないようにする必要があります。したがって、複製された実行の異なるトレーニングセットは同一であり、これがブロッキングという意味です[7]。統計学では、2つの集団がある場合、このアプローチはペアリングと呼ばれ、ペアテストで使用されます。

モデル選択プロセス

モデル選択では、学習アルゴリズムに関する2つの質問に関心があります[5]：
1. 学習アルゴリズムの予測エラーをどのように評価できますか？
2. あるアプリケーションにおいて、あるモデルのエラーが他のモデルよりも少ないと言えるのはどのようにしてですか？
訓練セットのエラーレートは、訓練中に見かけないインスタンスを含むテストセットのエラーレートよりも常に低くなります（定義上）。したがって、訓練セットのエラーに基づいてアルゴリズムを選択することはできません。そのため、訓練セットとは異なる検証セットが必要です。

また、一般化にノイズ、外れ値、その他のランダムファクターが影響を与えるため、検証セットで複数回実行する必要があります。それから、これらの検証エラーの分布に基づいて、学習アルゴリズムの予測エラーを評価し、与えられた問題の学習アルゴリズムの予測エラーを評価するか、他の学習アルゴリズムのエラーレート分布と比較します。

モデル選択中には、いくつかの重要なポイントを念頭に置くことが重要です[5]：

1. 分析から導き出す結論は、与えられたデータセットに依存することに注意する必要があります。

フリーランチの定理によれば、最も優れた学習アルゴリズムなど存在しません。どの学習アルゴリズムに対しても、非常に正確なデータセットと非常に低い精度のデータセットが存在します。

2. 与えられたデータセットを訓練セットと検証セットのペアに分割することは、テストの目的でのみ行います。

すべてのテストが完了し、最終的な方法やハイパーパラメータについての決定を下した後は、訓練または検証に使用したすべてのラベル付きデータを使用して、最終的な学習器をトレーニングすることができます。これはモデルの最終化と呼ばれます。

3. 検証セットもテストの目的で使用するため（2つの学習アルゴリズムの比較や学習を停止する場所の決定など）、使用するデータの一部となります。

したがって、データセットが与えられた場合、まず一部をテストセットとして残し、残りを訓練と検証に使用する必要があります。

4. 一般的に、学習アルゴリズムはエラーレートで比較されますが、現実の生活ではエラーは決定に影響を与える基準の一つに過ぎないことを念頭に置く必要があります。

学習アルゴリズムの比較には他の基準もあります[5]：
- 0/1損失ではなく損失関数を使用したエラーの一般化時のリスク
- 訓練時間と空間の複雑さ
- テスト時間と空間の複雑さ
- 専門家によって確認および検証ができる抽出可能な知識を許容する方法での可解釈性
- 簡単なプログラム作成
ただし、これらの要素の相対的な重要性はアプリケーションによって異なります。

訓練セットを使用してデータセットで学習者をトレーニングし、検証セットでその正確性をテストし、結論を導こうとする場合、私たちが行っていることは実験です。統計学は、実験を正しく設計し、収集したデータを分析して有意な結論を抽出するための方法論を定義しています[5]。

モデル選択の基準

以下の7つの基準はモデルの選択に役立ちます[11]：

1. 解釈可能性

解釈可能性とモデルのパフォーマンスの間にはトレードオフがあります。

より複雑なモデルを使用すると、パフォーマンスが向上することが多いですが、解釈が困難になります。

モデルとその出力を非専門のユーザーに説明する必要がない場合は、アンサンブル学習器やディープニューラルネットワークなどのより複雑なモデルを使用できます。

2. メモリ内 vs. メモリ外

データのサイズとトレーニングが行われるコンピュータの利用可能なRAMの量を考慮することが重要です。

RAMでトレーニングデータ全体を処理できる場合、さまざまな機械学習アルゴリズムから選択できます。

RAMがトレーニングデータを処理できない場合、トレーニングデータを徐々に追加することでモデルを改善できるインクリメンタル学習アルゴリズムを探索することができます。

3. 特徴量と例の数

トレーニングサンプルの数とサンプルあたりの特徴量の数もモデルの選択に重要です。

例と特徴量が少ない場合は、決定木やk最近傍法などのシンプルな学習器が適しています。

もし例の数が少なく特徴量の数が多い場合、SVMとガウス過程は良い選択肢となります。なぜなら、これらのモデルは多くの特徴量を扱うことができますが、リソースを少なく使用します。

もし例の数が多い場合は、ディープニューラルネットワークとブースティングアルゴリズムが適しています。なぜなら、これらのモデルは数百万のサンプルと特徴量を扱うことができるからです。

4. カテゴリカルな特徴量と数値的な特徴量

モデルを選ぶ際には、特徴量のタイプも重要です。

一部の機械学習アルゴリズムは、線形回帰のようなカテゴリカルな特徴量を扱うことができません。その場合、数値的な特徴量に変換する必要があります。一方、決定木やランダムフォレストのようなアルゴリズムは、カテゴリカルな特徴量を扱うことができます。

5. データの正規性

もしデータが正規分布に従っている場合、SVM（線形カーネル）、ロジスティック回帰、または線形回帰を使用することができます。

もしデータが正規分布に従っていない場合、ディープニューラルネットワークやアンサンブル学習が適しています。

6. 学習速度

モデルを選ぶ際には、学習にかかる時間も重要です。

ロジスティック回帰や線形回帰、決定木などのシンプルなアルゴリズムは、短時間で学習することができます。

一方、ニューラルネットワークやアンサンブル学習のような複雑なアルゴリズムは、学習に時間がかかります。

もしマルチコアのマシンが利用可能であれば、より複雑なアルゴリズムの学習時間を大幅に短縮することができます。

7. 予測速度

結果を生成する速度も、モデルを選ぶ際の重要な基準です。

もしモデルをリアルタイムやプロダクション環境で使用する場合、非常に低いレイテンシで結果を生成することができる必要があります。

SVMや線形/ロジスティック回帰、一部のニューラルネットワークのアルゴリズムは、予測時に非常に高速です。

また、モデルを展開する場所も考慮する必要があります。解析や理論的な目的でモデルを使用する場合、予測時間が長くなることがあります。その場合は、アンサンブル学習や非常に深いニューラルネットワークを使用することができます。

なぜシンプルなモデルが良いのか

最も一般的な回帰アルゴリズムは次の2つです：

問題が複雑なアルゴリズムを必要としない可能性が高いです
これらの2つのモデルは徹底的に研究されており、機械学習で最も理解されているモデルの一部です。
これらは実装とテストが容易です。
線形モデルであるため、解釈が容易です。

回帰問題を分類問題に変換するには、2つの一般的な解決策があります：

実際に、最近私は多くのプロジェクトで、開発者が研究論文から最先端のDLアルゴリズムを実装しようとして数週間または数ヶ月を費やしましたが、私が線形回帰やXGBoostがすべての複雑なモデルを上回る結果を示したことを示しました（多くの場合、テストデータセットで95〜98％の正確度を達成）。データセット上でシンプルなモデルがどのようにパフォーマンスするかを知るために、比較のためのベースラインを得るために、多くのアルゴリズムを評価する必要があります。

研究を行っている場合、モデル中心のアプローチは許容されるものですが、同じトイデータセット上でさまざまなモデル（シンプルなモデルも含む）の包括的な評価が行われている必要があります。カスタムデータセットと/または実世界の問題を解決する場合、AIエンジニアリングを行っており、オッカムの剃刀（「シンプルなものが良い」または「最善というものはなく、十分に良いものしかない」）が原則です。

多項ロジスティック回帰

多項ロジスティック回帰（MLR）は、多クラス分類を実行するための分類アルゴリズムであり、ロジスティック回帰の拡張です。

線形回帰（多重および特異）の主な仮定は次のとおりです：

線形性： 結果と予測変数の間には線形な関係があります。
正規性： 残差（予測値から実際の値を引いた誤差）は正規分布に従います。
等分散性： 従属変数のばらつきは、独立変数のすべての値に対して均等です。

独立変数が多い場合、他の問題に直面することもあります。例えば、独立しているはずの変数がお互いに変動する多重共線性や、温度を度数で量化するのではなく、冷たい、暖かい、熱いなどのカテゴリカル変数の存在などです。

以下はMLR [13] の取り組みに関するヒントです：

MLRモデルが複雑になった場合、係数を使用して結果の変化と個々の予測子の変化を解釈しようとしないでください。
単一の予測子を変化させながら予測を作成し、予測の変化を観察し、これらの変化をもとに結論を形成してください。

MLRの良いチュートリアルは[12]と[13]にあります。

AIアルゴリズムの理解

特定の問題に対して利用可能なアルゴリズム、それらの動作方法、およびそれらを最大限に活用する方法を知る必要があります。ただし、ゼロからアルゴリズムを手動でコーディングする必要はありません。

経験豊富なAI/MLエンジニアであっても、データセット/問題でより単純なモデルのパフォーマンスを知る必要があります。

モデルの選択に考慮すべきさらにいくつかのトピックは以下の通りです：

パラメトリック vs. ノンパラメトリックアルゴリズム
教師あり vs. 教師なしアルゴリズム
バイアス-バリアンスのトレードオフ
過学習と未学習の診断/修正方法
データパイプラインの作成方法
小さなデータセットの取り扱い方法
データのバランスの取れていないデータセットの取り扱い方法
異常検知

特徴エンジニアリングツール

特徴エンジニアリング（FE）は、MLの基本的なトピックですが、しばしば見落とされたり、単純なものと誤解されることがあります。

FEプロセス全体を自動化し、分類および回帰タスクのために短期間で大量の特徴を生成するための多くのツールがあります。

AutoMLツール

自動機械学習（AutoML）は、データをモデル化するための機械学習モデルの構築プロセスを自動化する新興の分野です。

PyCaretを使用した良い完全な例は、「入門者向けエンドツーエンド機械学習ガイド」にあります。

Orange、AutoGluon、PyCaretなどの多くのAutoMLツールやMLツールがあり、これらを使用してデータセット上で多数のモデルを簡単かつ迅速に評価することができます。

結論

ここで議論されたAIプロセスは、もちろん一部の修正が必要な場合もありますが、ほとんどのAI問題の解決に使用することができます。現在、AI問題を解決するための明確に定義されたアプローチは存在しないようですので、この記事ではいくつかの教科書や記事から総合的なアプローチを紹介し、モデル選択基準やより単純なモデルについての課題、AIアルゴリズムの理解に関するガイダンスを提供します。私はAIプロセスを使用した具体的な例を含むフォローアップ記事をいくつか書く予定です。また、AIの学生や実践者に役立つかもしれないLearnAIというGitHubリポジトリもあります。

参考文献

[1] Nedgu BM、「なぜ85％のAIプロジェクトが失敗するのか」、Towards Data Science、2020年11月11日。

[2] S. Reisner、「なぜほとんどのAIの実装が失敗し、企業がそれに打ち勝つためにできること」、Venture Beat、2021年6月28日。

[3] J. F. DeFrancoおよびJ. Voas、「再現性、製作、偽造」、IEEE Computer、vol. 54 no. 12、2021年。

[4] T. Shin、「機械学習を使用しない方が良い4つの理由」、Towards Data Science、2021年10月5日。

[5] E. Alpaydin、「機械学習の実験の設計と分析」、導入機械学習、第3版、MIT Press、ISBN: 978–0262028189、2014年。

[6] S. RussellおよびP. Norvig、「機械学習システムの開発」、人工知能：モダンアプローチ、第4版、Upper Saddle River, NJ: Prentice Hall、ISBN: 978–0–13–604259–4、2021年。

[7] S. Raschka.およびV. Mirjalili、Python Machine Learning、第2版、Packt、ISBN: 978–1787125933、2017年。

[8] W. McKinney、Python for Data Analysis：Pandas、NumPy、およびIPythonによるデータ加工、第2版、O’Reilly Media、ISBN: 978–1491957660、2017年。

[9] J. Brownlee, ” Applied Machine Learning Process,” Machine Learning Mastery, Feb. 12, 2014.

[10] J. Brownlee, ” How to Evaluate Machine Learning Algorithms,” Machine Learning Mastery, Aug. 16, 2020.

[11] Y. Hosni, ” Brief Guide for Machine Learning Model Selection,” MLearning.ai, Dec. 4, 2021.

[12] Z. Warnes “How to Select an ML Model,” KD Nuggets, Aug. 2021.

[13] M. LeGro, ” Interpreting Confusing Multiple Linear Regression Results,” Towards Data Science, Sep. 12, 2021.

[14] J. Brownlee, ” Multinomial Logistic Regression With Python,” Machine Learning Mastery, Jan, 1, 2021.

[15] W. Xie, ” Multinomial Logistic Regression in a Nutshell,” Data Science Student Society @ UC San Diego, Dec. 8, 2020.

[16] P. Bourque and R. E. Fairley, Guide to the Software Engineering Body of Knowledge, v. 3, IEEE, 2014.

[17] J. S. Damji and M. Galarnyk, ” Considerations for Deploying Machine Learning Models in Production,” Towards Data Science, Nov. 19, 2021.

[18] J. Rodriguez, ” 7 Dimensions to Evaluate an AI Environment,” Towards AI, May 17, 2022.

IEEE Dataport

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Artificial IntelligenceMachine learning

Was this article helpful?

93 out of 132 found this helpful

「AIのプロセス」

AIとは何ですか

モデル中心 vs データ中心

AIプロセス

問題の定義

PEASの説明

ロボット掃除機のためのPEASの説明

データの準備

データの前処理

AIモデルの選び方

実験デザイン

モデル選択プロセス

モデル選択の基準

なぜシンプルなモデルが良いのか

多項ロジスティック回帰

AIアルゴリズムの理解

特徴エンジニアリングツール

AutoMLツール

結論

参考文献

Was this article helpful?

「ChatGPTのコードインタプリタをデータサイエンスに活用する5つの方法」

「Retrato：セルフィーをプロの写真に変える」

機械学習

HuggingFaceはTextEnvironmentsを紹介します：機械学習モデルと、モデルが特定のタスクを解決するために呼び出すことができる一連のツール（Python関数）の間のオーケストレーターです

ジオのHaptikがビジネス向けのAIツールを立ち上げました

新しいAIモデル、たった30BパラメーターでGPT-3を凌駕する

「埋め込みモデルでコーパス内の意味関係を探索する」

「転移学習を探求しましょう...」(Ten'i gakushū o tankyū shimashou...)

高度な言語モデルの世界における倫理とプライバシーの探求