Wllama WebGPU Sandbox

1. モデルの準備・ロード

Hugging Faceから直接DLしてブラウザにキャッシュするか、ローカルに保存済みのGGUFファイル（Qwen3.6-27B等含む）を選択します。

プリセットモデルを選択

カスタムGGUF URL

GPUオフロードレイヤー数 ※99=全レイヤーWebGPU優先

コンテキスト窓 (n_ctx) メモリ消費量に影響します

LLAMA.CPP & WEBGPU LOGS

[SYSTEM] ページがロードされました。WebGPUランタイム待機中...

ローカル・推論チャット

推論速度: -- t/s キャッシュ: 未使用

こんにちは！私はWebGPU駆動のWllamaサンドボックスです。左側のパネルからGGUF形式のモデルをロードして、完全なローカル・オフラインAIチャットを始めましょう。

Temperature: Max Tokens: