AI 很好搜

AI大模型

MagicVideo-V2AI视频生成模型和框架，它通过将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块集成到一个端到端的视频生成流程中，能够生成高保真和美观的视频，并实现高分辨率视觉
KwaiYii快意大模型KwaiYii快意大模型是一系列大规模语言模型（LLM），包含多种参数规模的模型，如预训练模型（KwaiYii-Base）和对话模型（KwaiYii-Chat）。这些模型旨在提供高级别的语言理解和生成能力，以支持广
Google Imagen 3Google Imagen 3是 Google DeepMind 团队开发的最新文本到图像生成模型。Google Imagen 3的核心功能是能够根据用户的文本输入生成高分辨率、逼真的图像。它利用深度学习和自然语言处理技术，能够理解复杂的文本描述，并将其转化为视觉内容，满足用户
MuseVMuseV是由腾讯音乐娱乐集团的天琴实验室（TMElyra Lab）开源的虚拟人视频生成框架，基于扩散模型技术开发。
FLUX.1FLUX.1 是由Black Forest Labs开发的一套尖端AI图像生成模型，专注于高质量图像生成与编辑。
天谱乐天谱乐是全球首个多模态音乐生成大模型。它支持文生音乐、音频生音乐，还首创了图片、视频生音乐功能。用户可以通过输入文字、上传图片或视频等方式，快速生成长达3.5分钟的歌曲或音乐视频。
YuEYuE是开源AI音乐生成模型，能够将歌词转化为完整的歌曲。它支持多种音乐风格（如流行、金属、爵士、嘻哈等）和多语言（英语、中文、日语、韩语）。YuE 通过语义增强音频分词器、双分词技术、歌词链式思维生成和三阶段训练方案，解决了长
StreamMultiDiffusionStreamMultiDiffusion是一个革命性的实时交互式多文本到图像生成框架，它结合了基于区域的语义控制技术和加速技术，能够根据用户在特定区域输入的文本提示实时生成图像。
TangoFluxTangoFlux是一款由新加坡科技设计大学（SUTD）和英伟达（NVIDIA）联合开发的高效文本到音频生成模型。它能够快速将文本提示词转换为高质量的音频内容，支持多种音效和背景音乐的生成。
InspireMusicInspireMusic是由阿里巴巴通义实验室开源的音乐生成技术，旨在打造一个集音乐生成、歌曲生成和音频生成能力为一体的开源 AIGC 工具包。它基于多模态大模型技术，支持通过简单的文字描述或音频提示快速生成多种风格的高质量音乐作品。
BAAI EmuEmu是由北京智源人工智能研究院（BAAI）开发的多模态大模型，旨在通过统一的框架处理图像、文本和视频等多种模态数据。Emu 模型的核心特点是其强大的多模态生成和理解能力，能够实现从多模态输入到多模态输出的无缝转换。
SkyReels-V2SkyReels-V2 是由昆仑万维 SkyReels 团队开发的全球首个使用扩散强迫（Diffusion-forcing）框架的无限时长电影生成模型。它结合了多模态大语言模型（MLLM）、多阶段预训练、强化学习等前沿技术，能够生成高质量、无限时长的视频内容。
StarVectorStarVector是一个由 ServiceNow Research、Mila – Quebec AI Institute 和 ETS Montreal联合开发的开源多模态视觉语言模型，专门用于将图像和文本转换为高质量的可缩放矢量图形（SVG）代码。
CogVideoCogVideo是由智谱 AI 联合清华大学开发的一种开源文本到视频生成模型，基于 Transformer 架构，是一个 94 亿参数的Transformer模型。它通过继承预训练的文本到图像模型 CogView2，并在此基础上进行扩展和训练。
日日新SenseNova日日新SenseNova是商汤科技推出的一系列多模态融合大模型，旨在通过强大的多模态处理能力，实现文本、图像、视频等多种信息的原生融合，突破传统模型的限制。
Seed-TTSSeed-TTS 是一系列高质量文本到语音（TTS）模型，旨在生成高度逼真、自然流畅的语音。该模型基于深度学习和神经网络技术，通过大规模数据训练和复杂的算法设计，能够生成与人类语音几乎无法区分的语音。
天工SkyMusic天工SkyMusic是由昆仑万维推出的国内首个音乐SOTA（State-of-the-Art）模型，基于其“天工3.0”超级大模型构建。它采用先进的大模型音乐音频生成技术，能够实现端到端的音乐创作，包括乐器、人声、旋律等元素的一体化生成。
GPT-4oGPT-4o是OpenAI推出的一款强大的多模态语言模型，其名称中的“o”代表“Omni”，即全能的意思，凸显了其多功能的特性。能够实时进行音频、视觉和文本推理等多模态交互，该模型可以实时响应用户对话，甚至在语音对话中能捕捉用户声音中的情
GPTsGPTs（Generative Pre-trained Transformers）是由OpenAI开发的一系列基于生成式预训练变换器架构的人工智能模型。这些模型通过大规模的无监督学习，能够生成自然语言文本，并在多种自然语言处理任务中表现出色。
腾讯混元腾讯混元大模型（Tencent Hunyuan）是由腾讯公司全链路自主研发的通用大语言模型，具备强大的中文理解与创作能力、逻辑推理能力以及可靠的任务执行能力。该模型拥有万亿参数规模，采用混合