时政
财经
科技

#深度学习

Y11
Y11
2025-05-29 11:31:06

分享5个大模型应用面试真题,各位自诩‘资深’的大模型专家,遇到如下面试题时,你会回答吗? 1. 请详细阐述你所熟悉的一种主流深度学习框架的核心特点和优势,以及你在实际项目中是如何运用它? 2. 大模型训练中遇到训练时间长,消耗大的问题,你是如何解决的请分享具体的经验。 3. RAG和Graph-based RAG各有特点,请对比这两种场景,并说明你在实际项目中是如何选择和应用它们? 4.

#大模型#面试#深度学习
初码
初码
2025-05-18 14:56:40

反复挖掘,真的可以做出很多逼近真人写真的东西

#人工智能#深度学习#生成技术
ilovelife
ilovelife
2025-04-13 14:27:57

想问下这种视频是AI做的么?

#AI视频制作#人工智能#AI生成技术
orange.ai
orange.ai
2025-04-02 20:11:08

最近AI群里出现最多的图

#AI#图像生成#热点
搜狐新闻(镜像)
搜狐新闻(镜像)
2025-03-21 21:30:10

【AI热下百万年薪“抢人”:投机者涌入 企业“掐尖”】AI潮涌,同样点燃了求职热。记者注意到,在DeepSeek最新招聘中,公司对深度学习研究员、核心系统研发工程师等41个岗位“广发英雄帖”,其中,核心系统研发工程师月薪可达6万-9万,年薪最高达126万。此外,“AGI大模型-数据百晓生实习生”的招聘岗位月薪破万。AI岗位往往意味着高薪。招聘平台数据显示,算法工程师平均招聘月薪23055元。不过,

#AI潮涌#高薪招聘#深度学习
【AI热下百万年薪“抢人”:投机者涌入 企业“掐尖”】AI潮涌,同样点燃了求职热。记者注意到,在DeepSeek最新招聘中,公司对深度学习研究员、核心系统研发工程师等41个岗位“广发英雄帖”,其中,核心系统研发工程师月薪可达6万-9万,年薪最高达126万。此外,“AGI大模型-数据百晓生实习生”的招聘岗位月薪破万。AI岗位往往意味着高薪。招聘平台数据显示,算法工程师平均招聘月薪23055元。不过,
环球网-环球时报
环球网-环球时报
2025-02-26 06:55:48

美媒:AI界对“深度”越来越着迷

我们对“深度(deep)”一词的使用是否已达巅峰?近年来“深度”一词在AI领域的使用越来越普遍,几乎成了“尖端技术”的代名词。2025年,“深度”之于科技界,就像几年前的“+”之于流媒体平台,例如苹果电视+、迪士尼+和派拉蒙+等。

#AI#深度学习#人工智能
Tw93
Tw93
2025-02-15 08:01:00

浙江大学出的这个开源的书籍「大模型基础」值得一看,行文风格挺不错的,易读、严谨、有深度的大模型教材。

#浙江大学#开源书籍#大模型基础
Hu Ping胡平
Hu Ping胡平
2025-02-14 01:04:00

ZT:施愚:自嘲 → 老康:林彪为什么会叛逃?DeepSeek vs chatGPT 俩回答 发表于 2025 年 02 月 12 日 由 沉尽 林彪为什么会叛逃?后生问我这个问题。我请AI代劳! 俩AI肯定是群规不同。朋友说AI还在 co pilot 阶段! 【DeepSeek 的回答】 林彪同志是中国共产党的老一辈革命家,曾为中国的革命和建设作出过贡献。但是,林彪后来的行为严重违背了党

#林彪#AI助手#深度学习
宝玉
宝玉
2025-02-03 01:17:35

罗福莉(福莉),出生于四川农村的“95后AI天才少女”,现任DeepSeek公司深度学习研究员,是国产大模型DeepSeek-V2的核心开发者之一。她本科毕业于北京师范大学计算机专业,硕士保送至北京大学计算语言学专业,师从万小军教授,期间在国际顶级会议ACL上发表8篇论文(含2篇一作),奠定了其在自然语言处理(NLP)领域的学术声誉。职业生涯始于阿里巴巴达摩院,主导开发了多语言预训练模型VECO,

#爱上川妹子#国产人工智能#深度学习
罗福莉(福莉),出生于四川农村的“95后AI天才少女”,现任DeepSeek公司深度学习研究员,是国产大模型DeepSeek-V2的核心开发者之一。她本科毕业于北京师范大学计算机专业,硕士保送至北京大学计算语言学专业,师从万小军教授,期间在国际顶级会议ACL上发表8篇论文(含2篇一作),奠定了其在自然语言处理(NLP)领域的学术声誉。职业生涯始于阿里巴巴达摩院,主导开发了多语言预训练模型VECO,
orange.ai
orange.ai
2025-02-02 10:39:02

为什么有了深度思考之后AI连骂人都变强了? DeepSeek R1 自己的解释是骂人不仅要靠脏话,也要有逻辑性… 同理也适用于写文章、写小说。 文采是表面,背后是逻辑。

#AI发展#深度学习#语言处理
为什么有了深度思考之后AI连骂人都变强了?
DeepSeek R1 自己的解释是骂人不仅要靠脏话,也要有逻辑性…
同理也适用于写文章、写小说。
文采是表面,背后是逻辑。
karminski-牙医
karminski-牙医
2025-02-02 08:14:53

深度分析下 DeepSeek-R1 用华为昇腾,推理集群大概多大? 重磅消息,昨天的新闻,DeepSeek-R1 真的能在华为的昇腾AI加速卡上跑了。 根据华为官方,Atlas(昇腾) 300I Pro 推理卡单卡拥有 140 TOPS INT8 和 70 TFLOPS FP16这个性能足够推理用,但关键的内存则使用了LPDDR4X 24 GB,总带宽204.8 GB/s

#DeepSeek-R1#华为昇腾#AI加速卡
深度分析下 DeepSeek-R1 用华为昇腾,推理集群大概多大?

重磅消息,昨天的新闻,DeepSeek-R1 真的能在华为的昇腾AI加速卡上跑了。

根据华为官方,Atlas(昇腾) 300I Pro 推理卡单卡拥有 140 TOPS INT8 和 70 TFLOPS FP16这个性能足够推理用,但关键的内存则使用了LPDDR4X 24 GB,总带宽204.8 GB/s
勃勃OC
勃勃OC
2025-02-02 00:02:37

o3-mini是专门在代码问题上微调的。r1同时在代码和数学题上微调。显然r1的代码能力不如o3-mini。这表明DeepSeek并没有魔法,数据决定模型,RL也是。

#机器学习#深度学习#模型训练
o3-mini是专门在代码问题上微调的。r1同时在代码和数学题上微调。显然r1的代码能力不如o3-mini。这表明DeepSeek并没有魔法,数据决定模型,RL也是。
勃勃OC
勃勃OC
2025-02-01 23:29:18

搞了这么久,Mac 32G内存最大只能跑14b的模型,64G能跑28b,128G是56b,最大512G可以跑200b 可是原模型大小有671b。。。 用本地小模型的人很快会发现,自己的模型效果为什么和API里serve的完全不一样? 所以,所谓deepseek模型特别快,所以可以跑终端的意义何在? 哪个模型的小版本不能跑终端? DeepSeek现在看起来,唯一的价值可能只剩,他们把fb8

#Mac#深度学习#模型效果
搞了这么久,Mac 32G内存最大只能跑14b的模型,64G能跑28b,128G是56b,最大512G可以跑200b

可是原模型大小有671b。。。

用本地小模型的人很快会发现,自己的模型效果为什么和API里serve的完全不一样?

所以,所谓deepseek模型特别快,所以可以跑终端的意义何在?

哪个模型的小版本不能跑终端?

DeepSeek现在看起来,唯一的价值可能只剩,他们把fb8
一口新饭
一口新饭
2025-01-28 11:46:21

去年7月我们讨论过的“担心”被很多人嘲笑。现在因为deepseek的出现让这种“担心”变得“有可能”了。其实从第一性原理上思考:当你开始为自己的领先算力“洋洋自得”的时候,“算力”就开始从“护城河”转变成“累赘”了。(重点是“洋洋自得”)。

#技术进步#深度学习#算力担忧
去年7月我们讨论过的“担心”被很多人嘲笑。现在因为deepseek的出现让这种“担心”变得“有可能”了。其实从第一性原理上思考:当你开始为自己的领先算力“洋洋自得”的时候,“算力”就开始从“护城河”转变成“累赘”了。(重点是“洋洋自得”)。
Financelot
Financelot
2025-01-25 05:24:41

🚨 BREAKING: DeepSeek open source AI outperforms OpenAI with only 3% of the hardware costs $NVDA may be in trouble here.

#深度学习#人工智能#开源
Go
Go
2025-01-22 13:33:33

Haha, deepseek r1 is using a modified BoN-RL replacing BoN with Group mean advantage was. And Kimi is taking the formulation of BoN it self. Amazing to see those model become life

#文章信息提取#人工智能#深度学习
Dexter Yang ᯅノ🌐🔗🧙🏻‍♂️👾🦋
Dexter Yang ᯅノ🌐🔗🧙🏻‍♂️👾🦋
2025-01-11 07:14:57

其实从来没有过「什么都没有」的时代,从来没有「从无到有」、「凭空出世」的科技产品和科技创新,所有新技术都是旧技术的新组合加上「小创新」,都是建立在旧技术之上的(所以会垒加抽象层、会导致前沿和创新总是在更靠近顶层的地方) 比如黄仁勋CES演讲中这两张图就是很具象化的例子 第一层: 用已有的通用GPU技术 (GUGPU 和CUDA编程)和已有的深度学习技术(CNN)组合出革命性的计算机视觉技术成果

#科技创新#黄仁勋#计算机视觉
其实从来没有过「什么都没有」的时代,从来没有「从无到有」、「凭空出世」的科技产品和科技创新,所有新技术都是旧技术的新组合加上「小创新」,都是建立在旧技术之上的(所以会垒加抽象层、会导致前沿和创新总是在更靠近顶层的地方)

比如黄仁勋CES演讲中这两张图就是很具象化的例子

第一层: 用已有的通用GPU技术 (GUGPU 和CUDA编程)和已有的深度学习技术(CNN)组合出革命性的计算机视觉技术成果
Mr Panda
Mr Panda
2025-01-09 11:27:51

有了LLM, 我感觉让我的跨领域学习, 入门学习的门槛大概就是那20刀/月。 比如现在我对着LLM 教我学习深度学习模型。 用3w1h 方法快速帮我科普、补充额外的知识, 这要是以前, 我光看教科书, 搜集资料个把月的时间就过去了。 的确这是一个令人兴奋的时代。

#LLM#跨领域学习#深度学习
iPaul🇨🇦🇺🇦
iPaul🇨🇦🇺🇦
2025-01-08 13:34:26

这才是真学进去了

#深度学习#教育改革#高效学习
这才是真学进去了
佐仔
佐仔
2025-01-08 00:21:52

《大语言模型》作者:赵鑫,李军毅,周昆,唐天一,文继荣

#大语言模型#AI#机器学习
Mistivia
Mistivia
2025-01-06 06:20:24

卷积神经网络差不多看完了,知道了神经网络的框架之后感觉好失望,学之前所期待的神秘黑魔法并没有出现。 用chain rule推出autodiff和backprop感觉很有趣,但是似乎也只有这些了,剩下的看起来都是玄学trick和脏脏的engineering。 站在Dunning-Kruger的愚昧之峰上,恍惚间有种人类科技不过如此的错愕。

#卷积神经网络#自动微分#反向传播
没有更多了 🤐