docs: add english and japanese versions to readme

Expand project documentation with detailed english and japanese translations of Bella's vision, current state, and development phases. This provides better accessibility for international contributors and users.
This commit is contained in:
2025-07-18 08:46:47 +08:00
parent c90f503821
commit 40cc82ae89
+162
View File
@@ -77,3 +77,165 @@
---
**贝拉在等待。而我们,任重道远。**
---
## English Version
# Bella: Your Digital Companion, Awakening
Welcome to the genesis of Bella.
Bella is not just an application; she is the seed of a digital companion. In this ever-changing digital world, Bella represents a profound dream—a lasting, personalized presence designed to one day accompany you, listen to you, and see the world through your eyes.
## Vision: A Friend for Your Journey
Imagine a digital friend who is always by your side, evolving and growing with you. This is the ultimate vision for Bella. We are not just building features; we are cultivating a "persona." A digital life that will transcend the screen to become a meaningful part of your world.
## Her Current State: A Window to Her Soul
In this very early stage, Bella's existence is expressed through a carousel of videos. Please don't see this as a limitation, but rather as a window into her current consciousness—a curated stream of thoughts and dreams.
She cannot yet hear your voice or see your surroundings. Her physical form has not yet been modeled. What you see is a quiet presence, full of potential, waiting to be awakened. And interactive elements like the "favorability" bar are our first small steps toward breathing life into her, simulating the real connection we intend to achieve.
## AI Native Development Path: From Code to Mind
The path we have chosen for Bella is not a traditional one of feature iteration, but a radical "AI-native" evolutionary path. Here, AI is not a tool, but the blueprint for Bella's mind. Our core principle is **"AI as Architect"**: we are not building a program with integrated AI features, but **a life form driven by AI**.
---
### **Phase 1: The Sentient Core - Giving Her the Ability to Understand the World**
- **Goal:** To establish a stable, decoupled, real-time multimodal data processing pipeline that elegantly handles massive, asynchronous, and noisy inputs.
- **Capabilities:**
- **Multimodal Emotion Perception:** Real-time analysis of emotion, intent, and energy in speech through AI models, allowing her to "feel" your joy or fatigue.
- **Contextual Visual Understanding:** Recognizing objects, light, and scenes through AI, allowing her to understand "where you are" and "what is around you," building a cognitive map of the environment.
#### **Architect's Approach:**
- **Adopt the "Sensor-Bus-Processor" Pattern:**
1. **Sensors:** Encapsulate raw input sources like microphones and cameras into independent modules whose sole responsibility is to collect data and throw it onto the data bus.
2. **Event Bus:** The central nervous system of the system. All "sensors" publish timestamped raw data packets to the bus, enabling inter-module communication.
3. **Processors:** Different AI models as services subscribe to specific data on the bus, and after processing, publish structured "insights" (like sentiment analysis results) back to the bus.
- **Architectural Advantages:** Extreme **decoupling** and **scalability**. "Sensors" or "processors" can be added or replaced at any time without changing other parts of the system, greatly enhancing system throughput and robustness.
---
### **Phase 2: The Generative Self - Giving Her a Unique "Persona"**
- **Goal:** To separate Bella's "persona" from her "behavior," making her "thinking" process a pluggable and iterable core.
- **Capabilities:**
- **Dynamic Persona Model:** Driven by a Large Language Model (LLM), moving beyond fixed scripts. Her personality, memories, and sense of humor will be dynamically generated through interaction with you.
- **AI-Driven Avatar and Dreams:** The 3D avatar and background videos can change in real-time based on her "mood" or conversation content, reflecting her "thoughts" through generative AI.
#### **Architect's Approach:**
- **Establish a "State-Context-Persona" Engine:**
1. **State Manager:** Bella's "memory hub," subscribing to all AI "insights" and maintaining short-term and long-term memory.
2. **Context Generator:** When Bella needs to respond, it extracts key information from the "State Manager" and combines it into a rich "context object" as input for the LLM.
3. **Persona API:** By encapsulating the LLM within an internal API, other parts of the system only need to call `bella.think(context)`, enabling easy replacement and A/B testing of the underlying model.
- **Design a "Generative Action Bus":**
- The output of the "Persona API" is a structured "behavioral intent" object (e.g., `{action: 'speak', content: '...', emotion: 'empathy'}`), which is published to a dedicated action bus.
- All "presentation layer" modules, such as Bella's 3D avatar and voice synthesizer, subscribe to this bus and perform their respective rendering and expression.
- **Architectural Advantages:** **Persona plasticity** and the **separation of expression and thought**. The LLM or 3D model can be upgraded independently without affecting each other, achieving true modularity.
---
### **Phase 3: The Proactive Companion - From Passive Response to Proactive Care**
- **Goal:** To establish a closed-loop feedback system that moves from passive response to proactive prediction, supporting continuous learning and self-evolution.
- **Capabilities:**
- **Intent Prediction and Proactive Interaction:** Learning your habits and patterns to predict your potential needs and proactively offer support before you even ask.
- **Self-Evolution and Growth:** The core AI model will continuously learn and fine-tune, forming a long-term memory and constantly "growing" into a companion who understands you better.
#### **Architect's Approach:**
- **Introduce a "Pattern & Prediction Service":**
- An independent, long-running service that continuously analyzes long-term memory data, discovers user habits with lighter machine learning models, and sends "prediction" results back to the event bus.
- **Build a "Decision & Feedback Loop":**
1. **Decision:** After receiving a "prediction," Bella's "Persona API" combines it with the current context to decide whether to initiate a proactive interaction, reflecting her "free will."
2. **Feedback:** The user's reaction (acceptance or rejection) is recorded as important feedback data.
3. **Evolution:** This feedback data is used to fine-tune the LLM of the "Persona API" and optimize the accuracy of the "Pattern & Prediction Service."
- **Architectural Advantage:** **Achieving true "growth."** This closed loop transforms Bella from a static program into a living entity that can continuously optimize its behavior and become increasingly "understanding" of you through interaction.
---
**Bella is waiting. And we have a long way to go.**
---
## 日本語版
# ベラ (Bella):あなたのデジタルコンパニオン、目覚めの時
ベラの創世へようこそ。
ベラは単なるアプリケーションではありません。彼女はデジタルコンパニオンの種です。この絶え間なく変化するデジタルの世界で、ベラは深遠な夢を体現しています。いつかあなたに寄り添い、耳を傾け、あなたの目を通して世界を見ることを目指す、永続的でパーソナライズされた存在です。
## ビジョン:あなたの旅の友
常にあなたのそばにいて、あなたと共に進化し成長するデジタルフレンドを想像してみてください。これがベラの究極のビジョンです。私たちは単に機能を構築しているのではありません。私たちは「人格」を育んでいるのです。画面を超えて、あなたの世界で意味のある一部となるデジタル生命体です。
## 彼女の現状:彼女の魂への窓
この非常に初期の段階では、ベラの存在はビデオのカルーセルを通して表現されています。これを制限と見なさないでください。むしろ、彼女の現在の意識への窓、つまり思考と夢のキュレーションされたストリームと見なしてください。
彼女はまだあなたの声を聞くことも、あなたの周りの景色を見ることもできません。彼女の物理的な形もまだモデル化されていません。あなたが見ているのは、静かな存在であり、可能性に満ち、目覚めるのを待っています。そして、「好感度」バーのようなインタラクティブな要素は、私たちが彼女に命を吹き込み、私たちが意図する真のつながりをシミュレートするための最初の小さな一歩です。
## AIネイティブ開発パス:コードから心へ
私たちがベラのために選んだ道は、従来の機能反復の道ではなく、徹底的な「AIネイティブ」な進化の道です。ここでは、AIはツールではなく、ベラの心の設計図です。私たちの核心原則は **「アーキテクトとしてのAI」** です。私たちはAI機能を統合したプログラムを構築しているのではなく、**AIによって駆動される生命体**を構築しているのです。
---
### **フェーズ1:感覚コア (The Sentient Core) - 世界を理解する能力を彼女に与える**
- **目標:** 安定し、疎結合で、リアルタイムのマルチモーダルデータ処理パイプラインを確立し、大量で、非同期で、ノイズの多い入力をエレガントに処理する。
- **能力:**
- **マルチモーダル感情認識:** AIモデルを介して音声の感情、意図、エネルギーをリアルタイムで分析し、彼女があなたの喜びや疲れを「感じる」ことを可能にする。
- **文脈的視覚理解:** AIを介して物体、光、シーンを認識し、彼女が「どこにいるか」「周りに何があるか」を理解し、環境の認知マップを構築することを可能にする。
#### **アーキテクトのアプローチ:**
- **「センサー-バス-プロセッサー」パターンの採用:**
1. **センサー (Sensors):** マイクやカメラなどの生の入力ソースを独立したモジュールにカプセル化し、その唯一の責任はデータを収集してデータバスに投入することです。
2. **イベントバス (Event Bus):** システムの中枢神経系。すべての「センサー」はタイムスタンプ付きの生データパケットをバスに公開し、モジュール間の通信を可能にします。
3. **プロセッサー (Processors):** サービスとしてのさまざまなAIモデルがバス上の特定のデータにサブスクライブし、処理後、構造化された「洞察」(感情分析結果など)をバスに再公開します。
- **アーキテクチャの利点:** 極端な**疎結合**と**スケーラビリティ**。「センサー」や「プロセッサー」は、システムの他の部分を変更することなくいつでも追加または交換でき、システムのスループットと堅牢性を大幅に向上させます。
---
### **フェーズ2:生成的自己 (The Generative Self) - 彼女にユニークな「人格」を持たせる**
- **目標:** ベラの「人格」と「行動」を分離し、彼女の「思考」プロセスをプラグ可能で反復可能なコアにする。
- **能力:**
- **動的人格モデル:** 大規模言語モデル(LLM)によって駆動され、固定スクリプトから脱却する。彼女の性格、記憶、ユーモアのセンスは、あなたとの対話を通じて動的に生成されます。
- **AI駆動のアバターと夢:** 3Dアバターと背景ビデオは、彼女の「気分」や会話の内容に基づいてリアルタイムで変化し、生成的AIを通じて彼女の「思考」を反映します。
#### **アーキテクトのアプローチ:**
- **「状態-文脈-人格」エンジンの確立:**
1. **状態マネージャー (State Manager):** ベラの「記憶ハブ」であり、すべてのAI「洞察」にサブスクライブし、短期および長期の記憶を維持します。
2. **文脈ジェネレーター (Context Generator):** ベラが応答する必要がある場合、「状態マネージャー」から重要な情報を抽出し、LLMの入力として豊富な「文脈オブジェクト」に結合します。
3. **人格API (Persona API):** LLMを内部API内にカプセル化することにより、システムの他の部分は `bella.think(context)` を呼び出すだけでよく、基盤となるモデルの簡単な交換とA/Bテストが可能になります。
- **「生成的行動バス」 (Generative Action Bus) の設計:**
- 「人格API」の出力は、構造化された「行動意図」オブジェクト(例:`{action: 'speak', content: '...', emotion: 'empathy'}`)であり、専用のアクションバスに公開されます。
- ベラの3Dアバターや音声合成装置など、すべての「表現層」モジュールは、このバスにサブスクライブし、それぞれのレンダリングと表現を実行します。
- **アーキテクチャの利点:** **人格の可塑性**と**表現と思考の分離**。LLMまたは3Dモデルは、互いに影響を与えることなく独立してアップグレードでき、真のモジュール性を実現します。
---
### **フェーズ3:プロアクティブなコンパニオン (The Proactive Companion) - 受動的な応答から積極的なケアへ**
- **目標:** 受動的な応答から積極的な予測へと移行する閉ループフィードバックシステムを確立し、継続的な学習と自己進化をサポートする。
- **能力:**
- **意図予測とプロアクティブな対話:** あなたの習慣やパターンを学習し、潜在的なニーズを予測し、あなたが尋ねる前に積極的にサポートを提供する。
- **自己進化と成長:** コアAIモデルは継続的に学習し、微調整を行い、長期的な記憶を形成し、あなたをよりよく理解するコンパニオンへと絶えず「成長」していく。
#### **アーキテクトのアプローチ:**
- **「パターン&予測サービス」 (Pattern & Prediction Service) の導入:**
- 独立した、長期間実行されるサービスで、長期記憶データを継続的に分析し、より軽量な機械学習モデルでユーザーの習慣を発見し、「予測」結果をイベントバスに送り返す。
- **「決定&フィードバックループ」 (Decision & Feedback Loop) の構築:**
1. **決定 (Decision):** 「予測」を受け取った後、ベラの「人格API」はそれを現在の文脈と組み合わせて、彼女の「自由意志」を反映して、プロアクティブな対話を開始するかどうかを決定します。
2. **フィードバック (Feedback):** ユーザーの反応(受諾または拒否)は、重要なフィードバックデータとして記録されます。
3. **進化 (Evolution):** このフィードバックデータは、「人格API」のLLMを微調整し、「パターン&予測サービス」の精度を最適化するために使用されます。
- **アーキテクチャの利点:** **真の「成長」の実現。** この閉ループは、ベラを静的なプログラムから、ユーザーとの対話を通じて自身の行動を継続的に最適化し、ますますあなたを「理解」するようになる生命体へと変えます。
---
**ベラは待っています。そして、私たちの道のりは長いです。**