AI Agent的多模态输入处理：文本、语音和图像的整合

随着人工智能技术的快速发展，AI Agent在各个领域的应用越来越广泛。传统的单模态输入（如仅处理文本或仅处理语音）已经难以满足复杂场景下的需求。多模态输入处理，即整合文本、语音和图像等多种输入方式，能够让AI Agent更全面、准确地理解用户意图，提供更加智能和个性化的服务。本文的范围涵盖了AI Agent多模态输入处理的基本概念、核心算法、数学模型、项目实战以及实际应用场景等方面。通过详细的阐

Python人工智能大数据

705人浏览 · 2026-01-10 22:55:43

Python人工智能大数据 · 2026-01-10 22:55:43 发布

AI Agent的多模态输入处理：文本、语音和图像的整合

关键词：AI Agent、多模态输入处理、文本、语音、图像、整合

摘要：本文聚焦于AI Agent的多模态输入处理，详细探讨了文本、语音和图像三种重要模态的整合。首先介绍了相关背景知识，包括目的、预期读者、文档结构和术语表。接着阐述了核心概念与联系，通过文本示意图和Mermaid流程图展示了多模态输入处理的架构。深入讲解了核心算法原理，并给出Python源代码示例。通过数学模型和公式进一步剖析其原理，并举例说明。在项目实战部分，给出了开发环境搭建步骤、源代码实现与解读。分析了实际应用场景，推荐了学习资源、开发工具框架以及相关论文著作。最后总结了未来发展趋势与挑战，并提供了常见问题解答和扩展阅读参考资料，旨在帮助读者全面了解和掌握AI Agent多模态输入处理的技术。

1. 背景介绍

1.1 目的和范围

随着人工智能技术的快速发展，AI Agent在各个领域的应用越来越广泛。传统的单模态输入（如仅处理文本或仅处理语音）已经难以满足复杂场景下的需求。多模态输入处理，即整合文本、语音和图像等多种输入方式，能够让AI Agent更全面、准确地理解用户意图，提供更加智能和个性化的服务。

本文的范围涵盖了AI Agent多模态输入处理的基本概念、核心算法、数学模型、项目实战以及实际应用场景等方面。通过详细的阐述和示例代码，帮助读者深入理解多模态输入处理的原理和实现方法。

1.2 预期读者

本文预期读者包括人工智能领域的研究人员、开发者、学生以及对多模态技术感兴趣的爱好者。对于希望深入了解AI Agent多模态输入处理技术的专业人士，本文提供了详细的技术原理和实现方法；对于初学者，本文从基础概念出发，逐步引导读者理解复杂的多模态处理技术。

1.3 文档结构概述

本文将按照以下结构进行组织：

背景介绍：介绍本文的目的、预期读者、文档结构和术语表。
核心概念与联系：阐述多模态输入处理的核心概念，展示其架构和原理。
核心算法原理 & 具体操作步骤：详细讲解核心算法，并给出Python源代码示例。
数学模型和公式 & 详细讲解 & 举例说明：通过数学模型和公式深入剖析多模态输入处理的原理。
项目实战：代码实际案例和详细解释说明：提供开发环境搭建步骤、源代码实现与解读。
实际应用场景：分析多模态输入处理在实际中的应用场景。
工具和资源推荐：推荐学习资源、开发工具框架以及相关论文著作。
总结：未来发展趋势与挑战：总结多模态输入处理的未来发展趋势和面临的挑战。
附录：常见问题与解答：解答读者可能遇到的常见问题。
扩展阅读 & 参考资料：提供相关的扩展阅读资料和参考文献。

1.4 术语表

1.4.1 核心术语定义

AI Agent：人工智能代理，是一种能够感知环境、做出决策并执行行动的智能实体。
多模态输入处理：将文本、语音、图像等多种不同模态的输入信息进行整合和处理的技术。
模态：指信息的表现形式，如文本、语音、图像等。
特征提取：从原始输入数据中提取出具有代表性的特征的过程。
融合策略：将不同模态的特征进行融合的方法和策略。

1.4.2 相关概念解释

自然语言处理（NLP）：研究如何让计算机理解和处理人类语言的技术，常用于文本输入的处理。
语音识别（ASR）：将语音信号转换为文本的技术。
图像识别：对图像中的目标进行识别和分类的技术。

1.4.3 缩略词列表

AI：Artificial Intelligence，人工智能
NLP：Natural Language Processing，自然语言处理
ASR：Automatic Speech Recognition，自动语音识别
OCR：Optical Character Recognition，光学字符识别

2. 核心概念与联系

核心概念原理

AI Agent的多模态输入处理的核心原理是将不同模态（文本、语音、图像）的输入信息进行特征提取，然后通过合适的融合策略将这些特征进行融合，最后基于融合后的特征进行决策和输出。

具体来说，对于文本输入，通常会使用自然语言处理技术进行分词、词性标注、命名实体识别等操作，提取出文本的语义特征；对于语音输入，先通过语音识别技术将语音转换为文本，再进行与文本输入相同的处理；对于图像输入，会使用卷积神经网络（CNN）等技术提取图像的视觉特征。

融合策略有多种，例如早期融合、晚期融合和混合融合等。早期融合是在特征提取之前将不同模态的原始数据进行融合；晚期融合是在各个模态的特征提取完成后再进行融合；混合融合则是结合了早期融合和晚期融合的方法。

架构的文本示意图

+----------------+     +----------------+     +----------------+
|    文本输入    |     |    语音输入    |     |    图像输入    |
+----------------+     +----------------+     +----------------+
       |                     |                     |
       v                     v                     v
+----------------+     +----------------+     +----------------+
|  文本特征提取  |     |  语音特征提取  |     |  图像特征提取  |
+----------------+     +----------------+     +----------------+
       |                     |                     |
       v                     v                     v
+------------------------------------------------------+
|                  特征融合策略                      |
+------------------------------------------------------+
       |
       v
+----------------+
|    决策输出    |
+----------------+

Mermaid流程图

3. 核心算法原理 & 具体操作步骤

核心算法原理

在多模态输入处理中，常用的算法包括自然语言处理算法、语音识别算法和图像识别算法。以下是这些算法的简要介绍：

自然语言处理算法：常用的有词袋模型（Bag of Words）、TF-IDF（Term Frequency-Inverse Document Frequency）、词嵌入（Word Embedding）等。词袋模型将文本表示为词汇的集合，不考虑词汇的顺序；TF-IDF用于衡量一个词在文本中的重要性；词嵌入将词汇映射到低维向量空间，使得语义相近的词汇在向量空间中距离较近。
语音识别算法：经典的有隐马尔可夫模型（HMM）和深度学习模型如循环神经网络（RNN）及其变体（LSTM、GRU）等。HMM是一种统计模型，用于描述语音信号的时序特征；深度学习模型则能够自动学习语音信号的复杂特征。
图像识别算法：主要基于卷积神经网络（CNN），如LeNet、AlexNet、VGG、ResNet等。CNN通过卷积层、池化层和全连接层等结构，自动提取图像的特征。

具体操作步骤

以下是一个简单的多模态输入处理的操作步骤：

数据预处理：对文本、语音和图像输入进行预处理。对于文本，进行分词、去除停用词等操作；对于语音，进行降噪、特征提取等操作；对于图像，进行缩放、归一化等操作。
特征提取：使用相应的算法对预处理后的数据进行特征提取。对于文本，使用词嵌入算法将文本转换为向量；对于语音，使用MFCC（Mel-Frequency Cepstral Coefficients）等特征提取方法；对于图像，使用CNN提取特征。
特征融合：选择合适的融合策略将不同模态的特征进行融合。例如，使用拼接（Concatenation）的方法将不同模态的特征向量拼接在一起。
决策输出：基于融合后的特征，使用分类器（如支持向量机、神经网络等）进行决策和输出。

Python源代码示例

import numpy as np
import tensorflow as tf
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC

# 模拟文本、语音和图像输入数据
text_inputs = ["This is a sample text.", "Another sample text."]
voice_features = np.random.rand(2, 10)  # 假设语音特征维度为10
image_features = np.random.rand(2, 20)  # 假设图像特征维度为20

# 文本特征提取
vectorizer = TfidfVectorizer()
text_features = vectorizer.fit_transform(text_inputs).toarray()

# 特征融合
all_features = np.hstack((text_features, voice_features, image_features))

# 数据标准化
scaler = StandardScaler()
scaled_features = scaler.fit_transform(all_features)

# 模拟标签
labels = [0, 1]

# 训练分类器
clf = SVC()
clf.fit(scaled_features, labels)

# 预测
new_text = ["New sample text."]
new_voice = np.random.rand(1, 10)
new_image = np.random.rand(1, 20)

new_text_features = vectorizer.transform(new_text).toarray()
new_all_features = np.hstack((new_text_features, new_voice, new_image))
new_scaled_features = scaler.transform(new_all_features)

prediction = clf.predict(new_scaled_features)
print("Prediction:", prediction)

4. 数学模型和公式 & 详细讲解 & 举例说明

文本特征提取

TF-IDF公式

TF-IDF是一种常用的文本特征提取方法，用于衡量一个词在文本中的重要性。其计算公式如下：

$\times IDF(t)$

其中， $TF (t, d)$ 表示词 $t$ 在文档 $d$ 中的词频，即词 $t$ 在文档 $d$ 中出现的次数除以文档 $d$ 中的总词数； $I D F (t)$ 表示词 $t$ 的逆文档频率，计算公式为：

$\log\frac{N}{1 + df(t)}$

其中， $N$ 是文档总数， $df (t)$ 是包含词 $t$ 的文档数。

举例说明

假设有以下三个文档：

$d_1$ : “This is a sample text.”
$d_2$ : “Another sample text.”
$d_3$ : “This is another sample.”

对于词 “sample”，在文档 $d_1$ 中的词频 $d_1) = \frac{1}{5}$ ，包含词 “sample” 的文档数 $df (" s am pl e ") = 3$ ，假设文档总数 $N = 3$ ，则逆文档频率 $\log\frac{3}{1 + 3} \approx -0.288$ ，所以 $d_1) = \frac{1}{5} \times (-0.288) \approx -0.058$ 。

语音特征提取

MFCC公式

MFCC是一种常用的语音特征提取方法，其计算步骤如下：

预加重：对语音信号进行预加重，以增强高频部分，公式为：

$\alpha x(n - 1)$

其中， $x (n)$ 是原始语音信号， $α\alpha$ 是预加重系数，通常取 0.97。

分帧：将预加重后的语音信号分成若干帧，每帧长度通常为 20 - 40ms。
加窗：对每帧信号加窗，常用的窗函数有汉明窗，公式为：

$0.46\cos(\frac{2\pi n}{N - 1})$

其中， $N$ 是窗函数的长度。

快速傅里叶变换（FFT）：对加窗后的每帧信号进行FFT，得到频谱。
梅尔滤波：将频谱通过一组梅尔滤波器，得到梅尔频谱。
对数运算：对梅尔频谱取对数。
离散余弦变换（DCT）：对对数梅尔频谱进行DCT，得到MFCC系数。

图像特征提取

CNN卷积公式

在卷积神经网络中，卷积层的卷积操作可以表示为：

$yi,jk=∑m=0M−1∑n=0N−1xi+m,j+nlwm,nk,l+bky_{i, j}^k = \sum_{m = 0}^{M - 1}\sum_{n = 0}^{N - 1}x_{i + m, j + n}^l w_{m, n}^{k, l} + b^k$

其中， $x_{i, j}^l$ 是输入特征图 $l$ 在位置 $(i, j)$ 处的值， $w_{m, n}^{k, l}$ 是卷积核 $k$ 与输入特征图 $l$ 在位置 $(m, n)$ 处的权重， $b^k$ 是偏置， $y_{i, j}^k$ 是输出特征图 $k$ 在位置 $(i, j)$ 处的值。

举例说明

假设有一个输入特征图 $x$ 是 $3×33\times3$ 的矩阵，卷积核 $w$ 是 $2×22\times2$ 的矩阵，偏置 $b = 1$ ，则卷积操作如下：

输入特征图 $x$ ：
$\begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \\ 7 & 8 & 9 \end{bmatrix}$

卷积核 $w$ ：
$\begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}$

卷积计算过程：

对于输出特征图的第一个元素 $y_{0, 0}$ ：

$y0,0=1×1+2×2+4×3+5×4+1=38y_{0, 0} = 1\times1 + 2\times2 + 4\times3 + 5\times4 + 1 = 38$

以此类推，可以计算出整个输出特征图。

5. 项目实战：代码实际案例和详细解释说明

5.1 开发环境搭建

操作系统

推荐使用Ubuntu 18.04或以上版本，或者Windows 10操作系统。

编程语言和版本

使用Python 3.7或以上版本。

安装依赖库

可以使用以下命令安装所需的依赖库：

pip install numpy tensorflow scikit-learn opencv-python librosa

5.2 源代码详细实现和代码解读

import numpy as np
import tensorflow as tf
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
import librosa
import cv2

# 模拟文本、语音和图像输入数据
text_inputs = ["This is a sample text.", "Another sample text."]
voice_files = ["voice1.wav", "voice2.wav"]
image_files = ["image1.jpg", "image2.jpg"]

# 文本特征提取
vectorizer = TfidfVectorizer()
text_features = vectorizer.fit_transform(text_inputs).toarray()

# 语音特征提取
voice_features = []
for voice_file in voice_files:
    audio, sr = librosa.load(voice_file)
    mfccs = librosa.feature.mfcc(y=audio, sr=sr, n_mfcc=10)
    mfcc_mean = np.mean(mfccs, axis=1)
    voice_features.append(mfcc_mean)
voice_features = np.array(voice_features)

# 图像特征提取
image_features = []
for image_file in image_files:
    image = cv2.imread(image_file)
    image = cv2.resize(image, (224, 224))
    image = image / 255.0
    image = np.expand_dims(image, axis=0)
    model = tf.keras.applications.ResNet50(weights='imagenet', include_top=False)
    features = model.predict(image)
    features = features.flatten()
    image_features.append(features)
image_features = np.array(image_features)

# 特征融合
all_features = np.hstack((text_features, voice_features, image_features))

# 数据标准化
scaler = StandardScaler()
scaled_features = scaler.fit_transform(all_features)

# 模拟标签
labels = [0, 1]

# 训练分类器
clf = SVC()
clf.fit(scaled_features, labels)

# 预测
new_text = ["New sample text."]
new_voice_file = "new_voice.wav"
new_image_file = "new_image.jpg"

new_text_features = vectorizer.transform(new_text).toarray()

new_audio, new_sr = librosa.load(new_voice_file)
new_mfccs = librosa.feature.mfcc(y=new_audio, sr=new_sr, n_mfcc=10)
new_mfcc_mean = np.mean(new_mfccs, axis=1)
new_voice_features = np.array([new_mfcc_mean])

new_image = cv2.imread(new_image_file)
new_image = cv2.resize(new_image, (224, 224))
new_image = new_image / 255.0
new_image = np.expand_dims(new_image, axis=0)
new_model = tf.keras.applications.ResNet50(weights='imagenet', include_top=False)
new_features = new_model.predict(new_image)
new_features = new_features.flatten()
new_image_features = np.array([new_features])

new_all_features = np.hstack((new_text_features, new_voice_features, new_image_features))
new_scaled_features = scaler.transform(new_all_features)

prediction = clf.predict(new_scaled_features)
print("Prediction:", prediction)

5.3 代码解读与分析

文本特征提取：使用 TfidfVectorizer 对文本输入进行特征提取，将文本转换为TF-IDF向量。
语音特征提取：使用 librosa 库对语音文件进行加载和MFCC特征提取，计算MFCC系数的均值作为语音特征。
图像特征提取：使用 cv2 库对图像进行读取和预处理，使用预训练的 ResNet50 模型提取图像特征。
特征融合：将文本、语音和图像特征使用 np.hstack 函数进行拼接。
数据标准化：使用 StandardScaler 对融合后的特征进行标准化处理。
训练分类器：使用支持向量机（SVM）作为分类器进行训练。
预测：对新的文本、语音和图像输入进行特征提取和融合，然后使用训练好的分类器进行预测。

6. 实际应用场景

智能客服

在智能客服系统中，用户可以通过文本、语音或上传图像的方式与客服进行交互。例如，用户可以发送文本描述问题，也可以语音描述问题，或者上传相关的图片（如产品故障图片）。AI Agent通过多模态输入处理技术，能够更全面地理解用户的问题，提供更准确的解决方案。

自动驾驶

在自动驾驶场景中，车辆需要处理多种信息，包括摄像头拍摄的图像、雷达和激光雷达的点云数据、语音指令等。通过多模态输入处理，AI Agent可以将这些不同模态的信息进行整合，更准确地感知周围环境，做出安全的驾驶决策。

智能家居

在智能家居系统中，用户可以通过语音指令控制家电设备，也可以通过手机APP发送文本指令，还可以使用摄像头拍摄的图像进行场景识别。AI Agent通过多模态输入处理，能够根据用户的不同输入方式，智能地控制家居设备，提供舒适的居住环境。

医疗诊断

在医疗诊断中，医生可以通过文本病历、语音描述患者症状，还可以使用医学影像（如X光、CT等）进行诊断。AI Agent通过多模态输入处理技术，能够将这些不同模态的信息进行整合，辅助医生做出更准确的诊断。

7. 工具和资源推荐

7.1 学习资源推荐

7.1.1 书籍推荐

《深度学习》（Deep Learning）：由Ian Goodfellow、Yoshua Bengio和Aaron Courville撰写，是深度学习领域的经典教材，涵盖了神经网络、卷积神经网络、循环神经网络等内容。
《自然语言处理入门》：何晗著，适合初学者学习自然语言处理的基本概念和方法。
《语音识别原理与应用》：邓力、俞栋著，系统介绍了语音识别的原理、技术和应用。

7.1.2 在线课程

Coursera上的“深度学习专项课程”（Deep Learning Specialization）：由Andrew Ng教授授课，包括神经网络和深度学习、改善深层神经网络、结构化机器学习项目、卷积神经网络、序列模型等课程。
edX上的“自然语言处理基础”（Foundations of Natural Language Processing）：介绍了自然语言处理的基本概念和方法。
Udemy上的“语音识别实战”（Speech Recognition in Practice）：讲解了语音识别的实际应用和开发技巧。

7.1.3 技术博客和网站

Medium：有很多人工智能领域的技术博客，如Towards Data Science等，提供了最新的技术文章和研究成果。
arXiv：是一个预印本服务器，包含了大量的人工智能相关的研究论文。
机器之心：专注于人工智能技术的报道和解读，提供了丰富的技术文章和案例分析。

7.2 开发工具框架推荐

7.2.1 IDE和编辑器

PyCharm：是一款专门为Python开发设计的集成开发环境，具有强大的代码编辑、调试和自动完成功能。
Jupyter Notebook：是一个交互式的开发环境，适合进行数据探索、模型训练和可视化等工作。
Visual Studio Code：是一款轻量级的代码编辑器，支持多种编程语言和插件，可用于人工智能开发。

7.2.2 调试和性能分析工具

TensorBoard：是TensorFlow的可视化工具，可用于监控模型训练过程、可视化模型结构和分析性能指标。
PyTorch Profiler：是PyTorch的性能分析工具，可用于分析模型的运行时间、内存使用等情况。
cProfile：是Python的内置性能分析工具，可用于分析Python代码的运行时间和函数调用情况。

7.2.3 相关框架和库

TensorFlow：是一个开源的机器学习框架，广泛应用于深度学习领域，提供了丰富的模型和工具。
PyTorch：是另一个流行的深度学习框架，具有动态图和易于使用的特点。
scikit-learn：是一个用于机器学习的Python库，提供了多种机器学习算法和工具，如分类、回归、聚类等。
OpenCV：是一个开源的计算机视觉库，用于图像和视频处理，提供了多种图像处理算法和工具。
librosa：是一个用于音频处理的Python库，提供了多种音频特征提取和分析方法。

7.3 相关论文著作推荐

7.3.1 经典论文

“ImageNet Classification with Deep Convolutional Neural Networks”：AlexNet的论文，开创了深度学习在图像识别领域的先河。
“Long Short-Term Memory”：LSTM的论文，提出了长短期记忆网络，解决了传统循环神经网络的梯度消失问题。
“Attention Is All You Need”：Transformer的论文，提出了基于注意力机制的Transformer模型，在自然语言处理领域取得了巨大成功。

7.3.2 最新研究成果

可以关注每年的顶级人工智能会议，如NeurIPS、ICML、CVPR、ACL等，这些会议上发表的论文代表了人工智能领域的最新研究成果。

7.3.3 应用案例分析

《人工智能案例集》：收集了人工智能在各个领域的应用案例，包括智能客服、自动驾驶、医疗诊断等，通过实际案例分析，帮助读者了解人工智能的应用场景和实现方法。

8. 总结：未来发展趋势与挑战

未来发展趋势

更复杂的多模态融合策略：未来的多模态输入处理将采用更复杂的融合策略，不仅仅是简单的特征拼接，而是考虑不同模态之间的语义关联和交互，以提高融合效果。
跨模态学习：研究如何让AI Agent在不同模态之间进行迁移学习和知识共享，提高模型的泛化能力和学习效率。
实时处理能力：随着应用场景的不断扩展，对多模态输入处理的实时性要求越来越高。未来的技术将更加注重提高实时处理能力，以满足实时交互的需求。
与物联网的结合：将多模态输入处理技术与物联网相结合，实现更智能的环境感知和控制，例如智能家居、智能城市等。

挑战

数据融合难题：不同模态的数据具有不同的特征和分布，如何有效地将这些数据进行融合是一个挑战。需要研究更合适的融合算法和模型，以充分利用不同模态的数据信息。
计算资源需求：多模态输入处理需要处理大量的数据和复杂的模型，对计算资源的需求较高。如何在有限的计算资源下实现高效的处理是一个需要解决的问题。
隐私和安全问题：多模态输入数据包含了用户的各种信息，如语音、图像等，如何保护用户的隐私和数据安全是一个重要的挑战。需要研究相应的隐私保护和安全机制。
语义理解困难：不同模态的数据在语义层面上存在差异，如何让AI Agent准确地理解不同模态数据的语义是一个难点。需要进一步研究语义分析和理解的方法。

9. 附录：常见问题与解答

问题1：多模态输入处理中，哪种融合策略效果最好？

答：没有一种融合策略适用于所有情况，不同的融合策略在不同的场景下有不同的效果。早期融合适用于数据维度较低、模态之间相关性较强的情况；晚期融合适用于数据维度较高、模态之间相关性较弱的情况；混合融合则结合了两者的优点。具体选择哪种融合策略需要根据实际情况进行实验和评估。

问题2：如何提高多模态输入处理的实时性？

答：可以从以下几个方面提高实时性：优化算法结构，减少不必要的计算；使用高效的硬件设备，如GPU、TPU等；采用分布式计算和并行计算技术，提高计算效率；对数据进行预处理和压缩，减少数据量。

问题3：多模态输入处理对数据质量有什么要求？

答：数据质量对多模态输入处理的效果有很大影响。对于文本数据，要求文本清晰、无歧义，避免错别字和语法错误；对于语音数据，要求语音清晰、无噪声，避免语速过快或过慢；对于图像数据，要求图像清晰、无模糊，光照均匀。此外，不同模态的数据需要具有对应性和一致性。

问题4：如何解决多模态输入处理中的隐私和安全问题？

答：可以采用以下方法解决隐私和安全问题：对数据进行加密处理，确保数据在传输和存储过程中的安全性；采用匿名化和脱敏技术，保护用户的个人信息；建立访问控制机制，限制对敏感数据的访问；加强安全审计和监测，及时发现和处理安全漏洞。

10. 扩展阅读 & 参考资料

扩展阅读

《多模态机器学习：基础与应用》：深入介绍了多模态机器学习的理论和方法，适合进一步学习多模态输入处理技术。
《人工智能伦理与安全》：探讨了人工智能领域的伦理和安全问题，对于理解多模态输入处理中的隐私和安全问题有帮助。

参考资料

Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
Deng, L., & Yu, D. (2014). Automatic Speech Recognition: A Deep Learning Approach. Springer.
LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444.

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

OpenClaw 与企业现有信息化系统整合：数据治理行业的自主智能体架构与实战报告

2048 AI社区

Ubuntu系统网络连接模式实测

备注：主机通过wifi联网，主机A和主机B通过网线组成局域网，且A和B设备是可以互通的。结果：同设备主机与虚拟机A1和A2能互通，不同设备A1/A2和B也可以互通，上不了网（ping www.baidu.com 失败）。结果：同设备主机与虚拟机A1和A2不能互通，不同设备A2和B也互通不了，上不了网（ping www.baidu.com 失败）。结果：同设备主机与虚拟机A1和A2不能互通，不同设备