Jump to content

డీప్ సీక్

వికీపీడియా నుండి

Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.
స్థానిక పేరు
杭州深度求索人工智能基础技术研究有限公司
రకంప్రైవేటు సంస్థ
పరిశ్రమసమాచార సాంకేతికత
కృత్రిమ మేధ
స్థాపన17 జూలై 2023; 21 నెలల క్రితం (2023-07-17)[1]
స్థాపకుడు
  • లియాంగ్ వెన్‌ఫెంగ్
ప్రధాన కార్యాలయంహాంగ్జౌ, జెజియాంగ్, చైనా
కీలక వ్యక్తులు
  • లియాంగ్ వెన్‌ఫెంగ్ (CEO)
యజమానిహై ఫ్లయర్
ఉద్యోగుల సంఖ్య
Under 200

డీప్‌సీక్‌ (DeepSeek) చైనీస్‌ కృత్రిమ మేధస్సు కంపెనీ. ఇది పెద్ద భాషా నమూనాలను (LLMs) అభివృద్ధి చేస్తుంది. జెజియాంగ్‌ ప్రావిన్స్‌లోని హాంగ్‌జౌలో ప్రధాన కార్యాలయం కలిగిన డీప్ సీక్ కంపెనీ, చైనీస్‌ హెడ్జ్‌ ఫండ్‌ అయిన హై-ఫ్లయర్‌ (High-Flyer) ద్వారా నిధులు పొందుతోంది.

2023 జూలైలో హై-ఫ్లయర్‌ సహ వ్యవస్థాపకుడు లియాంగ్‌ వెన్‌ఫెంగ్‌ డీప్ సీక్‌ని స్థాపించారు. ఆయన రెండు కంపెనీలకు సీఈఓగా వ్యవహరిస్తున్నారు. 2025 జనవరిలో, డీప్ సీక్-R1 మోడల్‌తో పాటు డీప్ సీక్ చాట్‌బాట్‌ను ప్రారంభించింది. MIT లైసెన్స్‌ కింద విడుదలైన డీప్ సీక్-R1, OpenAI యొక్క GPT-4o మరియు o1 వంటి ఆధునిక పెద్ద భాషా నమూనాలతో సమానమైన ప్రతిస్పందనలను అందిస్తుంది. దీని శిక్షణ ఖర్చు ఇతర LLMలతో పోలిస్తే గణనీయంగా తక్కువగా ఉంది. కంపెనీ ప్రకారం, దీని V3 మోడల్‌ను US$6 మిలియన్‌ వ్యయంతో శిక్షణ ఇచ్చారు, ఇది 2023లో OpenAI యొక్క GPT-4 కు ఖర్చైన $100 మిలియన్‌తో పోలిస్తే చాలా తక్కువ. అలాగే, మెటా యొక్క సమాన మోడల్‌ అయిన Llama 3.1 కంటే సుమారు పది రెట్లు తక్కువ కంప్యూటింగ్‌ శక్తిని ఉపయోగించింది.

2025 జనవరి 20న, డీప్ సీక్ డీప్ సీక్-R1 మోడల్‌ ఆధారిత చాట్‌బాట్‌ను iOS మరియు Android కోసం ఉచితంగా విడుదల చేసింది; జనవరి 27 నాటికి, డీప్ సీక్ అమెరికాలోని iOS యాప్‌ స్టోర్‌లో ChatGPT ను అధిగమించి అత్యధికంగా డౌన్‌లోడ్‌ చేయబడిన ఉచిత యాప్‌గా నిలిచింది. దీంతో కృత్రిమ మేథకు సంబంధించిన చిప్ ఉత్పత్తులతో బాగా పెరిగిన ఎన్విడియా (Nvidia) షేర్‌ ధర 18% పడిపోయింది.

శిక్షణా పద్దతులు

[మార్చు]

హై-ఫ్లయర్/డీప్‌సీక్ కనీసం రెండు కంప్యూటింగ్ క్లస్టర్‌లను నిర్వహిస్తుంది, ఫైర్-ఫ్లయర్, ఫైర్-ఫ్లైయర్ 2. ఫైర్-ఫ్లైయర్ 2 సహ-రూపకల్పన చేయబడిన సాఫ్ట్‌వేర్, హార్డ్‌వేర్ ఆర్కిటెక్చర్‌ను కలిగి ఉంటుంది. హార్డ్‌వేర్ వైపు, Nvidia GPUలు 200 Gbps ఇంటర్‌కనెక్ట్‌లను ఉపయోగిస్తాయి. క్లస్టర్ రెండు "జోన్‌లు"గా విభజించబడింది మరియు ప్లాట్‌ఫారమ్ క్రాస్-జోన్ పనులకు మద్దతు ఇస్తుంది. నెట్‌వర్క్ టోపోలాజీ రెండు ఫ్యాట్ ట్రీలు, అధిక బైసెక్షన్ బ్యాండ్‌విడ్త్ కోసం ఎంపిక చేయబడింది. సాఫ్ట్‌వేర్ వైపు:[2][3]

  • 3FS (ఫైర్-ఫ్లయర్ ఫైల్ సిస్టమ్): అసమకాలిక యాదృచ్ఛిక రీడ్‌ల కోసం ప్రత్యేకంగా రూపొందించబడిన పంపిణీ చేయబడిన సమాంతర ఫైల్ సిస్టమ్. ఇది డైరెక్ట్ I/O మరియు RDMA రీడ్ లను ఉపయోగిస్తుంది. ప్రామాణిక బఫర్డ్ I/O కి భిన్నంగా, డైరెక్ట్ I/O డేటాను కాష్ చేయదు. ఈ సందర్భంలో కాషింగ్ పనికిరానిది, ఎందుకంటే చదివిన ప్రతి డేటా యాదృచ్ఛికంగా ఉంటుంది మరియు తిరిగి ఉపయోగించబడదు.[4]
  • hfreduce: అసమకాలిక కమ్యూనికేషన్ కోసం లైబ్రరీ, మొదట Nvidia కలెక్టివ్ కమ్యూనికేషన్ లైబ్రరీ (NCCL) స్థానంలో రూపొందించబడింది.[5] ఇది ప్రధానంగా allreduce కోసం ఉపయోగించబడుతుంది, ముఖ్యంగా backpropagation సమయంలో ప్రవణతలు. GPUలో కెర్నల్స్ను నిరోధించకుండా ఉండటానికి ఇది CPUలో అసమకాలికంగా అమలు చేయబడుతుంది.[2] ఇది NCCL వంటి రెండు-ట్రీ ప్రసారాన్ని ఉపయోగిస్తుంది.[5]
  • hfai.nn: PyTorchలో torch.nn మాదిరిగానే న్యూరల్ నెట్‌వర్క్ శిక్షణ కోసం సాధారణంగా ఉపయోగించే ఆపరేటర్ల సాఫ్ట్‌వేర్ లైబ్రరీ.
  • హైస్కేల్ డిస్ట్రిబ్యూటెడ్ డేటా పారలలిజం (DDP): డేటా పారలలిజం (DP), పైప్‌లైన్ పారలలిజం (PP), టెన్సర్ పారలలిజం (TP), నిపుణుల పారలలిజం (EP), ఫుల్లీ షార్డ్డ్ డేటా పారలలిజం (FSDP) మరియు జీరో రిడండెన్సీ ఆప్టిమైజర్ (ZeRO) వంటి వివిధ రకాల పారలలిజాన్ని అమలు చేసే పారలల్ శిక్షణ లైబ్రరీ. ఇది బ్యాకెండ్‌లో NCCLని ఉపయోగించే PyTorch DDPని పోలి ఉంటుంది.
  • HAI ప్లాట్‌ఫారమ్: టాస్క్ షెడ్యూలింగ్, ఫాల్ట్ హ్యాండ్లింగ్ మరియు డిజాస్టర్ రికవరీ వంటి వివిధ అప్లికేషన్లు.[6]

2022 నాటికి, ఫైర్-ఫ్లైయర్ 2 625 నోడ్‌లలో 5000 PCIe] A100 GPUలను కలిగి ఉంది, ప్రతి ఒక్కటి 8 GPUలను కలిగి ఉంది.[5] మోడల్ సమాంతరత అవసరమయ్యే పెద్ద మోడళ్లకు శిక్షణ ఇవ్వడానికి వారు తరువాత NVLinks మరియు NCCLలను చేర్చారు.[7][2]

అభివృద్ధి, విడుదల చరిత్ర

[మార్చు]
DeepSeek మోడల్స్ యొక్క ప్రధాన వెర్షన్లు. SFT అంటే సూపర్వైజ్డ్ ఫైన్‌ట్యూనింగ్.
ప్రధాన వెర్షన్లు విడుదల తేదీ ప్రధాన వేరియంట్‌లు వ్యాఖ్యలు
DeepSeek కోడర్ 2 నవంబర్ 2023 బేస్ (ప్రీట్రైన్డ్); ఇన్‌స్ట్రక్షన్ (ఇన్‌స్ట్రక్షన్-ఫైన్‌ట్యూన్డ్‌తో) ఆర్కిటెక్చర్ తప్పనిసరిగా లామా మాదిరిగానే ఉంటుంది.
DeepSeek-LLM 29 నవంబర్ 2023 బేస్;

చాట్ (SFTతో)

DeepSeek-MoE 9 జనవరి 2024 బేస్;

చాట్

నిపుణుల మిశ్రమం (MoE) యొక్క వేరియంట్‌ను అభివృద్ధి చేసింది.
DeepSeek-Math ఏప్రిల్ 2024 బేస్ DS-Coder-Base-v1.5 తో ప్రారంభించబడింది
ఇన్స్ట్రక్ట్ (SFT తో)
RL (ప్రాసెస్ రివార్డ్ మోడల్ ఉపయోగించి) ప్రాక్సిమల్ పాలసీ ఆప్టిమైజేషన్ (PPO) యొక్క వేరియంట్ అయిన గ్రూప్ రిలేటివ్ పాలసీ ఆప్టిమైజేషన్ (GRPO) ను అభివృద్ధి చేశారు.
డీప్‌సీక్ V2 మే 2024 డీప్‌సీక్-V2, డీప్‌సీక్-V2-చాట్

డీప్‌సీక్-V2-లైట్, డీప్‌సీక్-V2-లైట్-చాట్

డీప్‌సీక్-కోడర్-V2

డీప్‌సీక్-V2.5

మల్టీ-హెడ్ లాటెంట్ అటెన్షన్ (MLA) ను అభివృద్ధి చేశారు. నిపుణుల మిశ్రమాన్ని కూడా ఉపయోగించారు (MoE).
DeepSeek V3 డిసెంబర్ 2024 DeepSeek-V3-Base

DeepSeek-V3 (చాట్ మోడల్)

ఆర్కిటెక్చర్ తప్పనిసరిగా V2 లాగానే ఉంటుంది.
DeepSeek R1 20 నవంబర్ 2024 DeepSeek-R1-Lite-Preview API మరియు చాట్ ఇంటర్‌ఫేస్ ద్వారా మాత్రమే యాక్సెస్ చేయబడుతుంది.
20 జనవరి 2025 DeepSeek-R1

DeepSeek-R1-Zero

DeepSeek-V3-Base నుండి ప్రారంభించబడింది మరియు V3 ఆర్కిటెక్చర్‌ను పంచుకుంటుంది.
డిస్టిల్డ్ మోడల్‌లు లామా, క్వెన్ మొదలైన ఇతర మోడల్‌ల నుండి ప్రారంభించబడింది. R1 మరియు R1-Zero ద్వారా సంశ్లేషణ చేయబడిన డేటా నుండి స్వేదనం చేయబడింది.[8]

మూలాలు

[మార్చు]
  1. "DeepSeek突传消息". Sina Corp. 1 ఫిబ్రవరి 2025. Retrieved 1 ఫిబ్రవరి 2025.
  2. 2.0 2.1 2.2 An, Wei; Bi, Xiao; చెన్, Guanting; Chen, Shanhuang; Deng, Chengqi; డింగ్, Honghui; Dong, Kai; Du, Qiushi; Gao, Wenju n; Guan, Kang; Guo, Jianzhong; Guo, Yongqiang; He, Ying; Huang, Panpan. "Fire-Flyer AI-HPC: ఎ డీప్ లెర్నింగ్ కోసం ఖర్చు-సమర్థవంతమైన సాఫ్ట్‌వేర్-హార్డ్‌వేర్ కో-డిజైన్". SC24: హై పెర్ఫార్మెన్స్ కంప్యూటింగ్, నెట్‌వర్కింగ్, స్టోరేజ్, విశ్లేషణ కోసం అంతర్జాతీయ సమావేశం. pp. 1–23. arXiv:2408.14158. doi:10.1109/SC41406.2024.00089. ISBN 979-8-3503-5291-7. {{cite book}}: |first13= missing |last13= (help); External link in |చాప్టర్-url= (help); Unknown parameter |las t13= ignored (help); Unknown parameter |చాప్టర్-url= ignored (help); Unknown parameter |జర్నల్= ignored (help); Unknown parameter |తేదీ= ignored (help)
  3. ఉల్లేఖన లోపం: చెల్లని <ref> ట్యాగు; HI అనే పేరుగల ref లలో పాఠ్యమేమీ ఇవ్వలేదు
  4. "幻方力量 | 高速文件系统 3FS". High-Flyer (in ఇంగ్లీష్). 13 జూన్ 2019. Retrieved 3 ఫిబ్రవరి 2025.
  5. 5.0 5.1 5.2 "hfreduce |高性能的多卡并行通信工具". High-Flyer (in ఇంగ్లీష్). 4 మార్చి 2020. Retrieved 3 ఫిబ్రవరి 2025.
  6. "HFAiLab/hai-platform", High-Flyer, 2 ఫిబ్రవరి 2025, retrieved 3 ఫిబ్రవరి 2025
  7. ఉల్లేఖన లోపం: చెల్లని <ref> ట్యాగు; Deng, Chengqi-2024 అనే పేరుగల ref లలో పాఠ్యమేమీ ఇవ్వలేదు
  8. ఉల్లేఖన లోపం: చెల్లని <ref> ట్యాగు; Ma, Shirong-2025 అనే పేరుగల ref లలో పాఠ్యమేమీ ఇవ్వలేదు

బయటి లింకులు

[మార్చు]
"https://te.wikipedia.org/w/index.php?title=డీప్_సీక్&oldid=4432346" నుండి వెలికితీశారు