ローカルLLMインストールサービス

ご購入いただいたシステムにローカルLLMが使用できるコンテナ(docker)環境をインストールします。

クラウドに依存せず、社内・所内で完結するプライベートなローカルLLM(オンプレミス生成AI)環境をDockerコンテナとしてインストールします。
セキュリティ面で優れたDockerのrootlessモードで環境構築します。
システム受取後すぐにローカルLLMをご利用いただけます。

サイズが異なる4つのLLMをプリインストールするため、お客様のシステムスペックに適したLLMを選択してご利用いただけます。
クラウドサービスと異なりローカルで完結するため、外部に公開できない情報を取り扱う際にも最適です。
デフォルトで3件の同時リクエストに対応しているため複数人での利用にも適しています。VRAM使用量が増えますが、同時リクエスト数は変更可能です。

  • *同時リクエスト数を超えた後のリクエストは 実行中のリクエストが完了するまで待機状態となります。
  • *リクエストを同じタイミングで多数行うとリクエストが滞留しコンテナの再起動が必要な場合があります。

お客様の用途にあわせたシステム構成でインストールサービスをご利用いただけます。一般的にはGPUのみでLLMを動かすイメージがあり、使用するLLMサイズより大きいVRAMのGPUを選択することが多いかと思います。しかし小さいLLMであればCPU+GPUでも十分な推論速度を出すことが可能です。VRAMが小さいGPUでも本インストールサービスにてLLMをお試しいただけます。

システム構成要件

  • OS:Ubuntu 24.04 LTS (インストールにあたり、OSインストールディスクの60GB程度を使用します。)
  • NVIDIA製GPU 1枚以上搭載

LLM

日本語に特化した以下モデルをインストールします。
  • *2025年10月時点(随時アップデート)
  • *利用にあたっては各LLMの利用規約に準拠した運用をしてください。

フレームワーク: Ollama

Ollamaの利点はユーザビリティに優れている点です。特に「LLMの切り替え」「GPUのVRAMより大きいモデルの利用」について専門的な知識を必要とせず行うことができます。

<LLMの切り替え>

Open WebUI上のプルダウンメニューでLLMの切り替えが可能です。複数人が別々のモデルを使用するケースなどにも対応できます。

<GPUのVRAMより大きいモデルの利用>

GPUのVRAMより大きいサイズのLLMを動かす場合、VRAMにオフロードできない分をシステムメモリに自動的にオフロードする機能を有しているため推論速度の低下はありますがエラーになることなく動作します。

ユーザインタフェース: Open WebUI

WEBベースの直感的なLLM利用が可能です。

一元的なモニタリングサービス

Grafanaを利用したモニタリングWEBサービスをインストールします。WEBサービスにアクセスするだけで以下の項目をモニタリング可能です。 

  • GPU Avgerage Temperature
  • GPU Power Total
  • GPU Energy Draw Total
  • GPU Power Usage
  • GPU Memory Used
  • GPU Memory Used Percentage
  • GPU Utilization
  • GPU Temperature
  • GPU SM Clocks
  • CPU Utilization
  • CPU Memory Used
  • CPU Memory Used Percentage