本書の特徴
最新のマルチモーダルAIをアプリやサービスで活用する!
「はじめに」「本書の構成」「目次」をPDFファイルでご覧いただけます。
「Gemini」は、Googleが開発した最新の生成AIで、本書では2024年5月の正式版リリース「Gemini 1.5 Pro」「Gemini 1.5 Flash」にも対応しています。
Geminiは、OpenAIの最新モデル「GPT-4o」に対して、現時点でテキストや画像だけでなく「動画」「音声」が一般ユーザーでも扱える「マルチモーダルAI」であることが大きな特徴です。また、Android端末やiPhoneなどのエッジデバイスに対応した「Gemini Nano」も公開されています。
本書は、Geminiの「API」を使うことでカスタマイズしたチャットAIを自社のサービスやアプリに組み込むための方法をステップ・バイ・ステップで解説した書籍です。
プログラミングは、Google Colabを使ってPythonのコーディングで行うことができるほか、スマホアプリの開発で使われる「Andorid Studio」や「Xcode」の開発環境でも行うことが可能です。
また、定番のAI開発フレームワーク「LlamaIndex」と「LangChain」の最新版の解説も解説しました。これらを使うことで、より高度なアプリ開発を容易に行うことが可能になります。
ダウンロードデータは、ZIP形式で圧縮されています。WinZip(Windows)やStuffit(Macintosh)等のアプリケーションで解凍してご使用ください。
目次
1章 Geminiの概要とはじめ方
1-1 Geminiの概要
1-2 Geminiのはじめ方
1-3 人工知能と機械学習と深層学習
1-4 自然言語処理の深層学習モデル
2章 Geminiの利用法
2-1 Geminiの使い方
2-2 Google AI Studioの使い方
2-3 Vertex AI Studioの使い方
3章 Python開発環境の準備
3-1 Pythonの概要
3-2 Google Colabの概要
3-3 Pythonの文法
4章 Gemini API(Python編)
4-1 テキスト生成
4-2 マルチモーダル
4-3 埋め込み
4-4 Function Calling
4-5 ファインチューニング
4-6 Vertex AI Gemini API
5章 Gemini API(Andorid編)
5-1 テキスト生成
5-2 マルチモーダル
5-3 ローカルLLM
6章 Gemini API(iOS編)
6-1 テキスト生成
6-2 マルチモーダル
6-3 ローカルLLM
7章 LlamaIndex
7-1 LlamaIndexのはじめ方
7-2 LlamaIndexのカスタマイズ
7-3 データローダー
7-4 ベクトルストア
7-5 評価
8章 LangChain
8-1 LangChainのはじめ方
8-2 LLM
8-3 PromptTemplate
8-4 OutputParser
8-5 Chain
8-6 ChatBot
8-7 RAG
8-8 Agent