核心架构与特性

系统架构概览

LLMESH 采用分层的去中心化架构，确保网络的可扩展性、安全性和高可用性。

┌─────────────────────────────────────┐
│          应用层 (Application Layer)   │
│  Web UI │ API Gateway │ Mobile App  │
├─────────────────────────────────────┤
│        服务层 (Service Layer)        │
│  路由服务 │ 负载均衡 │ 模型管理       │
├─────────────────────────────────────┤
│        网络层 (Network Layer)        │
│  P2P 协议 │ 消息传递 │ 节点发现       │
├─────────────────────────────────────┤
│        存储层 (Storage Layer)        │
│  模型存储 │ 元数据 │ 缓存管理         │
└─────────────────────────────────────┘

核心特性

🌐 真正的 P2P 架构

LLMESH 实现了完全去中心化的点对点架构，每个节点都具有以下能力：

模型托管：运行和提供 LLM 推理服务
请求路由：智能转发用户请求到最优节点
网络维护：参与网络拓扑的维护和优化

节点类型

class NodeType(Enum):
    FULL_NODE = "full"      # 完整节点：提供所有服务
    LIGHT_NODE = "light"    # 轻量节点：仅路由和缓存
    COMPUTE_NODE = "compute" # 计算节点：专注模型推理
    STORAGE_NODE = "storage" # 存储节点：专注模型存储

🔄 自愈网络机制

网络具备强大的自愈能力，能够自动应对各种故障情况：

故障检测算法

class HealthChecker:
    def __init__(self, check_interval=30):
        self.check_interval = check_interval
        self.failed_nodes = set()
    
    async def monitor_network(self):
        """持续监控网络健康状态"""
        while True:
            await self.check_all_peers()
            await asyncio.sleep(self.check_interval)
    
    async def check_node_health(self, node_id):
        """检查单个节点健康状态"""
        try:
            response = await self.ping_node(node_id, timeout=5)
            if response.status == "healthy":
                self.failed_nodes.discard(node_id)
                return True
            else:
                self.failed_nodes.add(node_id)
                await self.trigger_rerouting(node_id)
                return False
        except TimeoutError:
            self.failed_nodes.add(node_id)
            await self.trigger_rerouting(node_id)
            return False

自动重路由机制

class RoutingManager:
    def __init__(self):
        self.routing_table = {}
        self.backup_routes = {}
    
    async def find_alternative_route(self, failed_node, target_service):
        """寻找替代路由"""
        candidates = []
        for node_id, node_info in self.routing_table.items():
            if (node_id != failed_node 
                and target_service in node_info.services
                and node_info.load < 0.8):
                candidates.append((node_id, node_info.latency))
        
        # 按延迟排序，选择最优节点
        candidates.sort(key=lambda x: x[1])
        return candidates[0][0] if candidates else None

⚖️ 动态负载均衡

LLMESH 实现了智能的负载均衡机制，确保请求能够高效分发：

负载均衡算法

class LoadBalancer:
    def __init__(self):
        self.nodes = {}
        self.request_history = []
    
    def select_node(self, request_type, model_name):
        """基于多因素选择最优节点"""
        eligible_nodes = self.filter_capable_nodes(request_type, model_name)
        
        if not eligible_nodes:
            raise NoAvailableNodeError()
        
        # 综合评分算法
        best_node = None
        best_score = float('inf')
        
        for node in eligible_nodes:
            score = self.calculate_node_score(node)
            if score < best_score:
                best_score = score
                best_node = node
        
        return best_node
    
    def calculate_node_score(self, node):
        """计算节点综合评分（越低越好）"""
        latency_weight = 0.4
        load_weight = 0.3
        cost_weight = 0.2
        reputation_weight = 0.1
        
        score = (
            node.avg_latency * latency_weight +
            node.current_load * load_weight +
            node.service_cost * cost_weight +
            (1 - node.reputation_score) * reputation_weight
        )
        
        return score

🔒 隐私优先设计

所有通信都采用端到端加密，确保用户数据安全：

加密通信实现

import cryptography
from cryptography.fernet import Fernet
from cryptography.hazmat.primitives import hashes
from cryptography.hazmat.primitives.kdf.pbkdf2 import PBKDF2HMAC

class SecureCommunication:
    def __init__(self):
        self.private_key = self.generate_private_key()
        self.public_key = self.private_key.public_key()
    
    def encrypt_message(self, message: str, recipient_public_key) -> bytes:
        """加密消息"""
        # 生成会话密钥
        session_key = Fernet.generate_key()
        fernet = Fernet(session_key)
        
        # 加密消息内容
        encrypted_message = fernet.encrypt(message.encode())
        
        # 使用接收方公钥加密会话密钥
        encrypted_session_key = recipient_public_key.encrypt(
            session_key,
            padding.OAEP(
                mgf=padding.MGF1(algorithm=hashes.SHA256()),
                algorithm=hashes.SHA256(),
                label=None
            )
        )
        
        return {
            'encrypted_session_key': encrypted_session_key,
            'encrypted_message': encrypted_message
        }
    
    def decrypt_message(self, encrypted_data: dict) -> str:
        """解密消息"""
        # 解密会话密钥
        session_key = self.private_key.decrypt(
            encrypted_data['encrypted_session_key'],
            padding.OAEP(
                mgf=padding.MGF1(algorithm=hashes.SHA256()),
                algorithm=hashes.SHA256(),
                label=None
            )
        )
        
        # 解密消息内容
        fernet = Fernet(session_key)
        decrypted_message = fernet.decrypt(encrypted_data['encrypted_message'])
        
        return decrypted_message.decode()

网络协议

节点发现协议

class NodeDiscovery:
    def __init__(self, node_id):
        self.node_id = node_id
        self.known_peers = set()
        self.discovery_interval = 60
    
    async def bootstrap(self, bootstrap_nodes):
        """从引导节点开始发现网络"""
        for bootstrap_node in bootstrap_nodes:
            try:
                peers = await self.request_peer_list(bootstrap_node)
                self.known_peers.update(peers)
            except ConnectionError:
                continue
    
    async def periodic_discovery(self):
        """定期发现新节点"""
        while True:
            await self.discover_new_peers()
            await asyncio.sleep(self.discovery_interval)
    
    async def discover_new_peers(self):
        """通过现有节点发现新节点"""
        for peer in list(self.known_peers):
            try:
                new_peers = await self.request_peer_list(peer)
                self.known_peers.update(new_peers)
            except Exception:
                self.known_peers.discard(peer)

消息传递协议

class MessageProtocol:
    def __init__(self):
        self.message_handlers = {}
        self.pending_responses = {}
    
    def register_handler(self, message_type, handler):
        """注册消息处理器"""
        self.message_handlers[message_type] = handler
    
    async def send_request(self, target_node, message_type, payload):
        """发送请求消息"""
        message_id = self.generate_message_id()
        message = {
            'id': message_id,
            'type': message_type,
            'payload': payload,
            'timestamp': time.time(),
            'sender': self.node_id
        }
        
        await self.send_message(target_node, message)
        
        # 等待响应
        response = await self.wait_for_response(message_id, timeout=30)
        return response
    
    async def handle_incoming_message(self, message):
        """处理收到的消息"""
        message_type = message.get('type')
        
        if message_type in self.message_handlers:
            handler = self.message_handlers[message_type]
            response = await handler(message)
            
            if response:
                await self.send_response(message, response)

性能优化

缓存机制

class ModelCache:
    def __init__(self, max_size=1000):
        self.cache = {}
        self.max_size = max_size
        self.access_times = {}
    
    def get(self, cache_key):
        """获取缓存结果"""
        if cache_key in self.cache:
            self.access_times[cache_key] = time.time()
            return self.cache[cache_key]
        return None
    
    def set(self, cache_key, result):
        """设置缓存结果"""
        if len(self.cache) >= self.max_size:
            self.evict_oldest()
        
        self.cache[cache_key] = result
        self.access_times[cache_key] = time.time()
    
    def evict_oldest(self):
        """移除最久未使用的缓存项"""
        oldest_key = min(self.access_times.keys(), 
                        key=lambda k: self.access_times[k])
        del self.cache[oldest_key]
        del self.access_times[oldest_key]

通过这些核心特性和架构设计，LLMESH 网络能够提供高可用、高性能、安全可靠的去中心化 AI 服务。

PreviousLLMESH 项目概述 Next安装与快速开始

Last updated 1 day ago

┌─────────────────────────────────────┐ │ 应用层 (Application Layer) │ │ Web UI │ API Gateway │ Mobile App │ ├─────────────────────────────────────┤ │ 服务层 (Service Layer) │ │ 路由服务 │ 负载均衡 │ 模型管理 │ ├─────────────────────────────────────┤ │ 网络层 (Network Layer) │ │ P2P 协议 │ 消息传递 │ 节点发现 │ ├─────────────────────────────────────┤ │ 存储层 (Storage Layer) │ │ 模型存储 │ 元数据 │ 缓存管理 │ └─────────────────────────────────────┘

class NodeType(Enum): FULL_NODE = "full" # 完整节点：提供所有服务 LIGHT_NODE = "light" # 轻量节点：仅路由和缓存 COMPUTE_NODE = "compute" # 计算节点：专注模型推理 STORAGE_NODE = "storage" # 存储节点：专注模型存储

class HealthChecker: def __init__(self, check_interval=30): self.check_interval = check_interval self.failed_nodes = set() async def monitor_network(self): """持续监控网络健康状态""" while True: await self.check_all_peers() await asyncio.sleep(self.check_interval) async def check_node_health(self, node_id): """检查单个节点健康状态""" try: response = await self.ping_node(node_id, timeout=5) if response.status == "healthy": self.failed_nodes.discard(node_id) return True else: self.failed_nodes.add(node_id) await self.trigger_rerouting(node_id) return False except TimeoutError: self.failed_nodes.add(node_id) await self.trigger_rerouting(node_id) return False

class RoutingManager: def __init__(self): self.routing_table = {} self.backup_routes = {} async def find_alternative_route(self, failed_node, target_service): """寻找替代路由""" candidates = [] for node_id, node_info in self.routing_table.items(): if (node_id != failed_node and target_service in node_info.services and node_info.load < 0.8): candidates.append((node_id, node_info.latency)) # 按延迟排序，选择最优节点 candidates.sort(key=lambda x: x[1]) return candidates[0][0] if candidates else None

class LoadBalancer: def __init__(self): self.nodes = {} self.request_history = [] def select_node(self, request_type, model_name): """基于多因素选择最优节点""" eligible_nodes = self.filter_capable_nodes(request_type, model_name) if not eligible_nodes: raise NoAvailableNodeError() # 综合评分算法 best_node = None best_score = float('inf') for node in eligible_nodes: score = self.calculate_node_score(node) if score < best_score: best_score = score best_node = node return best_node def calculate_node_score(self, node): """计算节点综合评分（越低越好）""" latency_weight = 0.4 load_weight = 0.3 cost_weight = 0.2 reputation_weight = 0.1 score = ( node.avg_latency * latency_weight + node.current_load * load_weight + node.service_cost * cost_weight + (1 - node.reputation_score) * reputation_weight ) return score

import cryptography from cryptography.fernet import Fernet from cryptography.hazmat.primitives import hashes from cryptography.hazmat.primitives.kdf.pbkdf2 import PBKDF2HMAC class SecureCommunication: def __init__(self): self.private_key = self.generate_private_key() self.public_key = self.private_key.public_key() def encrypt_message(self, message: str, recipient_public_key) -> bytes: """加密消息""" # 生成会话密钥 session_key = Fernet.generate_key() fernet = Fernet(session_key) # 加密消息内容 encrypted_message = fernet.encrypt(message.encode()) # 使用接收方公钥加密会话密钥 encrypted_session_key = recipient_public_key.encrypt( session_key, padding.OAEP( mgf=padding.MGF1(algorithm=hashes.SHA256()), algorithm=hashes.SHA256(), label=None ) ) return { 'encrypted_session_key': encrypted_session_key, 'encrypted_message': encrypted_message } def decrypt_message(self, encrypted_data: dict) -> str: """解密消息""" # 解密会话密钥 session_key = self.private_key.decrypt( encrypted_data['encrypted_session_key'], padding.OAEP( mgf=padding.MGF1(algorithm=hashes.SHA256()), algorithm=hashes.SHA256(), label=None ) ) # 解密消息内容 fernet = Fernet(session_key) decrypted_message = fernet.decrypt(encrypted_data['encrypted_message']) return decrypted_message.decode()

class NodeDiscovery: def __init__(self, node_id): self.node_id = node_id self.known_peers = set() self.discovery_interval = 60 async def bootstrap(self, bootstrap_nodes): """从引导节点开始发现网络""" for bootstrap_node in bootstrap_nodes: try: peers = await self.request_peer_list(bootstrap_node) self.known_peers.update(peers) except ConnectionError: continue async def periodic_discovery(self): """定期发现新节点""" while True: await self.discover_new_peers() await asyncio.sleep(self.discovery_interval) async def discover_new_peers(self): """通过现有节点发现新节点""" for peer in list(self.known_peers): try: new_peers = await self.request_peer_list(peer) self.known_peers.update(new_peers) except Exception: self.known_peers.discard(peer)

class MessageProtocol: def __init__(self): self.message_handlers = {} self.pending_responses = {} def register_handler(self, message_type, handler): """注册消息处理器""" self.message_handlers[message_type] = handler async def send_request(self, target_node, message_type, payload): """发送请求消息""" message_id = self.generate_message_id() message = { 'id': message_id, 'type': message_type, 'payload': payload, 'timestamp': time.time(), 'sender': self.node_id } await self.send_message(target_node, message) # 等待响应 response = await self.wait_for_response(message_id, timeout=30) return response async def handle_incoming_message(self, message): """处理收到的消息""" message_type = message.get('type') if message_type in self.message_handlers: handler = self.message_handlers[message_type] response = await handler(message) if response: await self.send_response(message, response)

class ModelCache: def __init__(self, max_size=1000): self.cache = {} self.max_size = max_size self.access_times = {} def get(self, cache_key): """获取缓存结果""" if cache_key in self.cache: self.access_times[cache_key] = time.time() return self.cache[cache_key] return None def set(self, cache_key, result): """设置缓存结果""" if len(self.cache) >= self.max_size: self.evict_oldest() self.cache[cache_key] = result self.access_times[cache_key] = time.time() def evict_oldest(self): """移除最久未使用的缓存项""" oldest_key = min(self.access_times.keys(), key=lambda k: self.access_times[k]) del self.cache[oldest_key] del self.access_times[oldest_key]