డీప్ సీక్
ఈ వ్యాసంలోని సమాచారం సరైనదేనని రూఢీ చేసుకునేందుకు మరిన్ని మూలాలు కావాలి . (February 2025) |
![]() | |
స్థానిక పేరు | 杭州深度求索人工智能基础技术研究有限公司 |
---|---|
రకం | ప్రైవేటు సంస్థ |
పరిశ్రమ | సమాచార సాంకేతికత కృత్రిమ మేధ |
స్థాపన | 17 జూలై 2023[1] |
స్థాపకుడు |
|
ప్రధాన కార్యాలయం | హాంగ్జౌ, జెజియాంగ్, చైనా |
కీలక వ్యక్తులు |
|
యజమాని | హై ఫ్లయర్ |
ఉద్యోగుల సంఖ్య | Under 200 |
డీప్సీక్ (DeepSeek) చైనీస్ కృత్రిమ మేధస్సు కంపెనీ. ఇది పెద్ద భాషా నమూనాలను (LLMs) అభివృద్ధి చేస్తుంది. జెజియాంగ్ ప్రావిన్స్లోని హాంగ్జౌలో ప్రధాన కార్యాలయం కలిగిన డీప్ సీక్ కంపెనీ, చైనీస్ హెడ్జ్ ఫండ్ అయిన హై-ఫ్లయర్ (High-Flyer) ద్వారా నిధులు పొందుతోంది.
2023 జూలైలో హై-ఫ్లయర్ సహ వ్యవస్థాపకుడు లియాంగ్ వెన్ఫెంగ్ డీప్ సీక్ని స్థాపించారు. ఆయన రెండు కంపెనీలకు సీఈఓగా వ్యవహరిస్తున్నారు. 2025 జనవరిలో, డీప్ సీక్-R1 మోడల్తో పాటు డీప్ సీక్ చాట్బాట్ను ప్రారంభించింది. MIT లైసెన్స్ కింద విడుదలైన డీప్ సీక్-R1, OpenAI యొక్క GPT-4o మరియు o1 వంటి ఆధునిక పెద్ద భాషా నమూనాలతో సమానమైన ప్రతిస్పందనలను అందిస్తుంది. దీని శిక్షణ ఖర్చు ఇతర LLMలతో పోలిస్తే గణనీయంగా తక్కువగా ఉంది. కంపెనీ ప్రకారం, దీని V3 మోడల్ను US$6 మిలియన్ వ్యయంతో శిక్షణ ఇచ్చారు, ఇది 2023లో OpenAI యొక్క GPT-4 కు ఖర్చైన $100 మిలియన్తో పోలిస్తే చాలా తక్కువ. అలాగే, మెటా యొక్క సమాన మోడల్ అయిన Llama 3.1 కంటే సుమారు పది రెట్లు తక్కువ కంప్యూటింగ్ శక్తిని ఉపయోగించింది.
2025 జనవరి 20న, డీప్ సీక్ డీప్ సీక్-R1 మోడల్ ఆధారిత చాట్బాట్ను iOS మరియు Android కోసం ఉచితంగా విడుదల చేసింది; జనవరి 27 నాటికి, డీప్ సీక్ అమెరికాలోని iOS యాప్ స్టోర్లో ChatGPT ను అధిగమించి అత్యధికంగా డౌన్లోడ్ చేయబడిన ఉచిత యాప్గా నిలిచింది. దీంతో కృత్రిమ మేథకు సంబంధించిన చిప్ ఉత్పత్తులతో బాగా పెరిగిన ఎన్విడియా (Nvidia) షేర్ ధర 18% పడిపోయింది.
శిక్షణా పద్దతులు
[మార్చు]హై-ఫ్లయర్/డీప్సీక్ కనీసం రెండు కంప్యూటింగ్ క్లస్టర్లను నిర్వహిస్తుంది, ఫైర్-ఫ్లయర్, ఫైర్-ఫ్లైయర్ 2. ఫైర్-ఫ్లైయర్ 2 సహ-రూపకల్పన చేయబడిన సాఫ్ట్వేర్, హార్డ్వేర్ ఆర్కిటెక్చర్ను కలిగి ఉంటుంది. హార్డ్వేర్ వైపు, Nvidia GPUలు 200 Gbps ఇంటర్కనెక్ట్లను ఉపయోగిస్తాయి. క్లస్టర్ రెండు "జోన్లు"గా విభజించబడింది మరియు ప్లాట్ఫారమ్ క్రాస్-జోన్ పనులకు మద్దతు ఇస్తుంది. నెట్వర్క్ టోపోలాజీ రెండు ఫ్యాట్ ట్రీలు, అధిక బైసెక్షన్ బ్యాండ్విడ్త్ కోసం ఎంపిక చేయబడింది. సాఫ్ట్వేర్ వైపు:[2][3]
3FS
(ఫైర్-ఫ్లయర్ ఫైల్ సిస్టమ్): అసమకాలిక యాదృచ్ఛిక రీడ్ల కోసం ప్రత్యేకంగా రూపొందించబడిన పంపిణీ చేయబడిన సమాంతర ఫైల్ సిస్టమ్. ఇది డైరెక్ట్ I/O మరియు RDMA రీడ్ లను ఉపయోగిస్తుంది. ప్రామాణిక బఫర్డ్ I/O కి భిన్నంగా, డైరెక్ట్ I/O డేటాను కాష్ చేయదు. ఈ సందర్భంలో కాషింగ్ పనికిరానిది, ఎందుకంటే చదివిన ప్రతి డేటా యాదృచ్ఛికంగా ఉంటుంది మరియు తిరిగి ఉపయోగించబడదు.[4]hfreduce
: అసమకాలిక కమ్యూనికేషన్ కోసం లైబ్రరీ, మొదట Nvidia కలెక్టివ్ కమ్యూనికేషన్ లైబ్రరీ (NCCL) స్థానంలో రూపొందించబడింది.[5] ఇది ప్రధానంగా allreduce కోసం ఉపయోగించబడుతుంది, ముఖ్యంగా backpropagation సమయంలో ప్రవణతలు. GPUలో కెర్నల్స్ను నిరోధించకుండా ఉండటానికి ఇది CPUలో అసమకాలికంగా అమలు చేయబడుతుంది.[2] ఇది NCCL వంటి రెండు-ట్రీ ప్రసారాన్ని ఉపయోగిస్తుంది.[5]hfai.nn
: PyTorchలోtorch.nn
మాదిరిగానే న్యూరల్ నెట్వర్క్ శిక్షణ కోసం సాధారణంగా ఉపయోగించే ఆపరేటర్ల సాఫ్ట్వేర్ లైబ్రరీ.హైస్కేల్ డిస్ట్రిబ్యూటెడ్ డేటా పారలలిజం
(DDP): డేటా పారలలిజం (DP), పైప్లైన్ పారలలిజం (PP), టెన్సర్ పారలలిజం (TP), నిపుణుల పారలలిజం (EP), ఫుల్లీ షార్డ్డ్ డేటా పారలలిజం (FSDP) మరియు జీరో రిడండెన్సీ ఆప్టిమైజర్ (ZeRO) వంటి వివిధ రకాల పారలలిజాన్ని అమలు చేసే పారలల్ శిక్షణ లైబ్రరీ. ఇది బ్యాకెండ్లో NCCLని ఉపయోగించే PyTorch DDPని పోలి ఉంటుంది.HAI ప్లాట్ఫారమ్
: టాస్క్ షెడ్యూలింగ్, ఫాల్ట్ హ్యాండ్లింగ్ మరియు డిజాస్టర్ రికవరీ వంటి వివిధ అప్లికేషన్లు.[6]
2022 నాటికి, ఫైర్-ఫ్లైయర్ 2 625 నోడ్లలో 5000 PCIe] A100 GPUలను కలిగి ఉంది, ప్రతి ఒక్కటి 8 GPUలను కలిగి ఉంది.[5] మోడల్ సమాంతరత అవసరమయ్యే పెద్ద మోడళ్లకు శిక్షణ ఇవ్వడానికి వారు తరువాత NVLinks మరియు NCCLలను చేర్చారు.[7][2]
అభివృద్ధి, విడుదల చరిత్ర
[మార్చు]ప్రధాన వెర్షన్లు | విడుదల తేదీ | ప్రధాన వేరియంట్లు | వ్యాఖ్యలు |
---|---|---|---|
DeepSeek కోడర్ | 2 నవంబర్ 2023 | బేస్ (ప్రీట్రైన్డ్); ఇన్స్ట్రక్షన్ (ఇన్స్ట్రక్షన్-ఫైన్ట్యూన్డ్తో) | ఆర్కిటెక్చర్ తప్పనిసరిగా లామా మాదిరిగానే ఉంటుంది. |
DeepSeek-LLM | 29 నవంబర్ 2023 | బేస్;
చాట్ (SFTతో) | |
DeepSeek-MoE | 9 జనవరి 2024 | బేస్;
చాట్ |
నిపుణుల మిశ్రమం (MoE) యొక్క వేరియంట్ను అభివృద్ధి చేసింది. |
DeepSeek-Math | ఏప్రిల్ 2024 | బేస్ | DS-Coder-Base-v1.5 తో ప్రారంభించబడింది |
ఇన్స్ట్రక్ట్ (SFT తో) | |||
RL (ప్రాసెస్ రివార్డ్ మోడల్ ఉపయోగించి) | ప్రాక్సిమల్ పాలసీ ఆప్టిమైజేషన్ (PPO) యొక్క వేరియంట్ అయిన గ్రూప్ రిలేటివ్ పాలసీ ఆప్టిమైజేషన్ (GRPO) ను అభివృద్ధి చేశారు. | ||
డీప్సీక్ V2 | మే 2024 | డీప్సీక్-V2, డీప్సీక్-V2-చాట్
డీప్సీక్-V2-లైట్, డీప్సీక్-V2-లైట్-చాట్ డీప్సీక్-కోడర్-V2 డీప్సీక్-V2.5 |
మల్టీ-హెడ్ లాటెంట్ అటెన్షన్ (MLA) ను అభివృద్ధి చేశారు. నిపుణుల మిశ్రమాన్ని కూడా ఉపయోగించారు (MoE). |
DeepSeek V3 | డిసెంబర్ 2024 | DeepSeek-V3-Base
DeepSeek-V3 (చాట్ మోడల్) |
ఆర్కిటెక్చర్ తప్పనిసరిగా V2 లాగానే ఉంటుంది. |
DeepSeek R1 | 20 నవంబర్ 2024 | DeepSeek-R1-Lite-Preview | API మరియు చాట్ ఇంటర్ఫేస్ ద్వారా మాత్రమే యాక్సెస్ చేయబడుతుంది. |
20 జనవరి 2025 | DeepSeek-R1
DeepSeek-R1-Zero |
DeepSeek-V3-Base నుండి ప్రారంభించబడింది మరియు V3 ఆర్కిటెక్చర్ను పంచుకుంటుంది. | |
డిస్టిల్డ్ మోడల్లు | లామా, క్వెన్ మొదలైన ఇతర మోడల్ల నుండి ప్రారంభించబడింది. R1 మరియు R1-Zero ద్వారా సంశ్లేషణ చేయబడిన డేటా నుండి స్వేదనం చేయబడింది.[8] |
మూలాలు
[మార్చు]- ↑ "DeepSeek突传消息". Sina Corp. 1 ఫిబ్రవరి 2025. Retrieved 1 ఫిబ్రవరి 2025.
- ↑ 2.0 2.1 2.2 An, Wei; Bi, Xiao; చెన్, Guanting; Chen, Shanhuang; Deng, Chengqi; డింగ్, Honghui; Dong, Kai; Du, Qiushi; Gao, Wenju n; Guan, Kang; Guo, Jianzhong; Guo, Yongqiang; He, Ying; Huang, Panpan. "Fire-Flyer AI-HPC: ఎ డీప్ లెర్నింగ్ కోసం ఖర్చు-సమర్థవంతమైన సాఫ్ట్వేర్-హార్డ్వేర్ కో-డిజైన్". SC24: హై పెర్ఫార్మెన్స్ కంప్యూటింగ్, నెట్వర్కింగ్, స్టోరేజ్, విశ్లేషణ కోసం అంతర్జాతీయ సమావేశం. pp. 1–23. arXiv:2408.14158. doi:10.1109/SC41406.2024.00089. ISBN 979-8-3503-5291-7.
{{cite book}}
:|first13=
missing|last13=
(help); External link in
(help); Unknown parameter|చాప్టర్-url=
|las t13=
ignored (help); Unknown parameter|చాప్టర్-url=
ignored (help); Unknown parameter|జర్నల్=
ignored (help); Unknown parameter|తేదీ=
ignored (help) - ↑ ఉల్లేఖన లోపం: చెల్లని
<ref>
ట్యాగు;HI
అనే పేరుగల ref లలో పాఠ్యమేమీ ఇవ్వలేదు - ↑ "幻方力量 | 高速文件系统 3FS". High-Flyer (in ఇంగ్లీష్). 13 జూన్ 2019. Retrieved 3 ఫిబ్రవరి 2025.
- ↑ 5.0 5.1 5.2 "hfreduce |高性能的多卡并行通信工具". High-Flyer (in ఇంగ్లీష్). 4 మార్చి 2020. Retrieved 3 ఫిబ్రవరి 2025.
- ↑ "HFAiLab/hai-platform", High-Flyer, 2 ఫిబ్రవరి 2025, retrieved 3 ఫిబ్రవరి 2025
- ↑ ఉల్లేఖన లోపం: చెల్లని
<ref>
ట్యాగు;Deng, Chengqi-2024
అనే పేరుగల ref లలో పాఠ్యమేమీ ఇవ్వలేదు - ↑ ఉల్లేఖన లోపం: చెల్లని
<ref>
ట్యాగు;Ma, Shirong-2025
అనే పేరుగల ref లలో పాఠ్యమేమీ ఇవ్వలేదు
బయటి లింకులు
[మార్చు]- DeepSeek on GitHub డీప్ సీక్ అధికారిక వెబ్ పేజీ
- DeepSeek on Hugging Face
- Official API documentation
- Anthology of DeepSeek papers
- Research blog of High-Flyer
- మూలాల లోపాలున్న పేజీలు
- వ్యాసంs with short description
- Short description matches Wikidata
- Articles with hatnote templates targeting a nonexistent page
- Articles needing additional references from February 2025
- February 2025 from Use dmy dates
- February 2025 from Use American English
- Articles containing Chinese-language text
- కృత్రిమ మేధస్సు
- కంప్యూటరు శాస్త్రం