Distribuovaný souborový systém: Popis, funkce, výhody

Distribuovaný systém souborů funguje jako speciální systém, který provádí přístup k souborům v síti, poskytuje přístup a ukládá data na většině serverových počítačů. Analog síťové platformy je tradiční lokální souborový systém, který spravuje zařízení pro hromadné ukládání uložená na PC.

Základy síťových databází

Tyto prvky se týkají síťových souborových systémů a zaručují jim přístup na serverech. S jejich podporou má uživatel možnost vytvořit integrální souborový systém firewall. Obsahuje různé nástroje pro servery. Distribuované systémy souborů (RFS) poskytují zrcadlení, replikaci a zálohování databáze na libovolné jednotce, což vývojáři umožňuje upravovat vlastní soubory, odstraňovat nebo ukládat konfigurace.


Existuje několik RFU, které se liší v aplikaci, rozhraní a protokoly, stejně jako různé funkce jako ukládání do mezipaměti, protokolování, vícekanálové použití v lokálních sítích. Vzhledem k tomu, že šířka pásma distribuovaných souborových systémů pro clustery je extrémně nízká, mají tyto programy speciální systémy s přenosovými rychlostmi vyššími než 100 MB /s. Patří sem Globální systém (GFS) a Vlastní obecný systém (GPFS). RFU je hierarchicky strukturován a má jedinou logickou dohodu o jménech. Jedná se o síťový protokol, který umožňuje uživateli přístup k souborům bez znalosti umístění serveru. Střední struktura stromu se zjednodušujeVyhledávejte soubory v celé společnosti. Jsou uloženy příliš a zcela přístupné i v případě selhání hlavního pevného disku. V širším smyslu se RFU rozumí síťový protokol pro přístup k souborovému systému.


Příklady jsou:
  • Network File System (NFS).
  • Total Internet File System (CIFS), messaging rozšíření serveru blok (SMB).
  • Protokol podání Apple (AFP) Apple.
  • Základní protokol NetWare (NCP) společnosti Novell.
  • Známé implementace systému RFS jsou:
  • DFS v systému Windows od společnosti Microsoft. Distribuovaný souborový systém DFS se standardem Microsoft v operačních systémech pro servery. Nejprve se objevila ve Windows NT4 a byla dodána se systémem Windows 2000 Server. V systému Windows Server 2003 byly na server přidány vylepšení, například několik kořenů DFS.
  • AFS Andrew File System, pro které existuje několik výrobců v rámci „distribuovaných výpočetních prostředí.“
  • DCE Open Group konsorcium jako dalšího vývoje AFSCoda, vyvinutého na Carnegie Mellonalosk.
  • BeeGFS /FhGFS pro seskupení a aplikace HPCGlusterFS, pro všechny kompatibilní operační systémy POSIX.
  • Souborový systém Hadoop nabízí objekty, repozitáře bloků a souborů, součást jádra Linuxu, LGPL.XtreemFS, RFS tolerantní k chybám s rozhraním kompatibilním s POSIX.
  • Systém souborů Google (GFS, GoogleFS) založený na systému Linux je optimalizován pro data s vysokou šířkou pásma.
  • Srovnání distribuovaných souborových systémů.

    Údržba a typy systémových služeb

    Takový systém poskytuje následující služby:
  • Údržba úložiště. Distribuce a správa prostoru nasekundární paměťové zařízení, čímž poskytuje logický vzhled úložného systému.
  • Originální údržba souborů. Zahrnuje sémantiku sdílení souborů, mechanismus ukládání do mezipaměti, replikaci, paralelní řízení, protokol pro kopírování více kopií.
  • Služba katalogových jmen. Odpovídá za akce související s adresářem: vytvoření a odstranění adresářů, přidání nového souboru do adresáře, odebrání z adresáře, změna názvu, přesunutí z jednoho adresáře do jiného.
  • Požadované funkce RFU:
  • Transparentnost. Klienti distribuovaného systému souborů DFS by neměli znát počet nebo umístění souborových serverů a úložných zařízení. Mnoho souborových serverů poskytuje výkon, škálovatelnost, spolehlivost a průhlednost přístupu.
  • Místní i vzdálené soubory by měly být přístupné stejným způsobem. Systém by měl automaticky najít dostupné a převést je na místo zákazníka. Název souboru by neměl uvést umístění souboru. Při přechodu z jednoho místa na jiný by se nemělo měnit. Pokud je soubor replikován na více uzlech, pak by přítomnost více kopií a jejich umístění měla být skryta od klientů.
  • Mobilita automaticky spouští prostředí uživatele, například domovský adresář uživatele na místě, kde je přihlášen.
  • Produktivita se měří jako průměrná doba potřebná k uspokojení požadavků zákazníků. Tentokrát obsahuje čas CPU + čas pro přístup do sekundárního úložiště + čas přístupusítě. Je žádoucí, aby výkon distribuovaného systému souborů Windows byl srovnatelný s výkonem centralizovaného systému.
  • Uživatelské rozhraní v systému je jednoduché, nicméně počet příkazů by měl být co nejmenší.
  • Škálovatelnost, růst uzlů a uživatelé by neměli vážně narušit službu.
  • Vysoká dostupnost RFU by měla pokračovat v provozu v částečných haváriích, jako je selhání komunikace, uzel nebo jednotka, a měla by mít několik nezávislých souborových serverů, které spravují více paměťových zařízení.
  • Vysoká spolehlivost. Pravděpodobnost ztráty uložených dat musí být minimalizována. Systém by měl automaticky zálohovat kritické soubory.
  • Integrita dat je zajištěna souběžností požadavků od uživatelů s více přístupy, které soutěží o přístup, a musí být řádně synchronizovány pomocí víceformátového řídícího mechanismu.
  • Uživatelé si musí být jisti důvěrností svých údajů.
  • heterogenita RFU by měla umožnit snadný přístup ke společným datům na různých platformách, jako je pracovní stanice Unix, platforma Wintel a další.
  • Model přenosu na blokové úrovni

    V souborových systémech, které používají model pro ukládání dat do mezipaměti, je důležitým problémem návrhu volba datové jednotky. Jedná se o část souboru, která je přenesena a tvořena klienty v důsledku jedné operace čtení nebo zápisu.
    UModely přenosu souborů na úrovni souborů, když mají být data předávána, je celý soubor přesunut. Modelové výhody:
  • Soubor by měl být odeslán pouze jednou v reakci na žádost klienta, a proto je efektivnější než přenos stránek, což vyžaduje více síťových protokolů.
  • Snižuje zatížení serveru a síťový provoz, protože pouze jednou přistupuje k serveru.
  • ​​
  • To zlepšuje škálovatelnost. Když je celý soubor uložen do mezipaměti na webu klienta, nereaguje na selhání serveru a sítě.
  • Nevýhody modelu:
  • Na klientském počítači potřebujete dostatek úložného prostoru. Tento přístup není vhodný pro velmi velké soubory, zvláště když klient pracuje na bezdiskové pracovní stanici.
  • Pouze malá část souboru, přesunutí celého souboru je zbytečná.
  • Přenos souborů probíhá v blocích. Je to samostatná část a má pevnou délku a může se rovnat velikosti stránky virtuální paměti.
  • U přenosového modelu je vysílací jednotka bajt. Model poskytuje maximální flexibilitu, protože umožňuje ukládat a extrahovat libovolnou velikost souboru, nastavenou vnitřním posunem a délkou. Nevýhodou je, že správa mezipaměti je obtížnější díky datům s proměnnou délkou pro různé přístupové dotazy.

    Model přenosu na úrovni záznamu se používá se strukturovanými soubory a přenosová jednotka je záznam. K sdílenému souboru lze přistupovat současně více uživatelé. Důležitý problémNavrhování pro jakýkoli souborový systém má určit, kdy jsou změny datových souborů provedené uživatelem pozorovány jinými uživateli.

    Formy a umístění cache

    Každý distribuovaný souborový systém Windows používá svůj formulář ve formátu cache. Důvody pro vytvoření mezipaměti:
  • Nejlepší výkon, protože opakované volání na stejné informace jsou zpracovávány dalšími síťovými přístupy a diskovými jednotkami.
  • Důvodem je umístění v šablonách přístupu k souborům.
  • Přispívá k škálovatelnosti a spolehlivosti RFU, protože data mohou být vzdáleně ukládána do mezipaměti na webu klienta.
  • Hlavní rozhodnutí, která mají být učiněna ve schématu mezipaměti souborů pro RFS:
  • Umístění vyrovnávací paměti.
  • Změna distribuce.
  • Kontrola vyrovnávací paměti.
  • Umístění mezipaměti odkazuje na místo ukládání dat v mezipaměti. Za předpokladu, že původní umístění souboru na disku jeho serveru. V RFS existuje několik možných umístění mezipaměti:
  • Hlavní paměť serveru. V tomto případě cache spadá do jednoho přístupu k síti. To nepomáhá škálovatelnosti a spolehlivosti systému, protože každá mezipaměť pro klepnutí vyžaduje přístup k serveru. Výhody metody - jednoduchá implementace, transparentnost pro zákazníky, jednoduchost ukládání zdrojového souboru do mezipaměti.
  • Při použití disku klienta má mezipaměť přístup k disku. To je o něco pomalejší než mít mezipaměť v hlavní paměti serveru. Výhody distribuovaných souborových systémů při použití disku klienta poskytujespolehlivost při selhání, protože v případě selhání dochází ke ztrátě dat v mezipaměti. Tato verze s velkou kapacitou usnadňuje škálovatelnost a spolehlivost, protože v mezipaměti může být požadavek vzdáleného přístupu servisován místně bez nutnosti kontaktovat server.
  • Změna distribuce

    Když je mezipaměť umístěna na uzlech klienta, data souboru lze ukládat do mezipaměti současně na více uzlech. Je možné, že mezipaměti se stanou nekoordinovanými, když data souboru změní jeden z klientů a odpovídající data uložená v mezipaměti v jiných uzlech se nezmění ani nevyřadí. Existují dva problémy s konstrukcí:
  • Při distribuci změn provedených na těchto datech na příslušném souborovém serveru.
  • Při kontrole pravosti dat v mezipaměti.
  • Použitý schéma distribuce změn má zásadní vliv na výkon a spolehlivost systému. Metoda "Záznamová schéma" se používá při změně položky mezipaměti, nová hodnota je okamžitě odeslána na server pro aktualizaci hlavní kopie souboru. Výhodou této metody je vysoký stupeň spolehlivosti a vhodnosti pro sémantiku typu UNIX. To je způsobeno tím, že riziko ztráty dat v případě výpadku klienta je velmi nízké, protože každá změna se okamžitě vztahuje na server, který má hlavní kopii. Nedostatek - tato schéma je vhodná pouze tehdy, je-li poměr výsledků a čtení záznamu dostatečně velký. Snižuje síťový provoz pro zápis. To je způsobeno tím, že každý přístup k zápisu by měl počkat, dokud nebude data zaznamenána na hlavní kopii serveru.

    Schéma száznamové zpoždění

    Chcete-li omezit síťový provoz pro zápis, použije se režim zpoždění záznamu. V takovém případě je nová hodnota dat zapsána pouze do mezipaměti a všechny aktualizované záznamy mezipaměti jsou odeslány na server později. Existují tři často používané způsoby zpoždění nahrávání:
  • Záznam při vytažení z mezipaměti. Modifikovaná data v mezipaměti se odesílají serveru pouze tehdy, když se politika nahrazování mezipaměti rozhodla extrahovat data z mezipaměti. To může vést k dobrému výkonu, ale může dojít k problému spolehlivosti, jelikož některé data serveru stárnou po dlouhou dobu.
  • Pravidelné nahrávání. Cache se pravidelně kontroluje a všechna data uložená v mezipaměti, která byla změněna od posledního skenování, byla odeslána na server.
  • Uzavření. Změna dat uložených v mezipaměti se odesílá na server, když klient zavře soubor. Tato malá pomůcka snižuje síťový provoz souborů, které jsou ve velmi krátké době otevřené nebo se zřídka mění.
  • Výhody schématu opožděného zápisu:
  • Přístupový záznam se provádí rychleji, protože nová hodnota je zapsána pouze v mezipaměti klienta. To vede ke zvýšení produktivity.
  • Upravené údaje mohou být odstraněny dříve, než je čas odeslat je na server, například dočasné údaje. Protože změny nemusí být aplikovány na server, vede to k výraznému zvýšení výkonu.
  • Sběr všech aktualizací souborů a jejich odeslání na server je účinnější než odesílání jednotlivých aktualizací jednotlivě.
  • Nedostatek schématu zpoždění záznamu - spolehlivost může být stále problematická, protože změny odeslané na server z mezipaměti klienta budou ztraceny.

    Replikace jako mechanismus dostupnosti

    Vysoká dostupnost je dobrá funkce distribuovaného souborového systému a replikace souborů je hlavním mechanismem pro zlepšení dostupnosti souborů. Replikovaný soubor je soubor s více kopiemi, z nichž každý má samostatný server. Rozdíl mezi replikací a ukládáním do mezipaměti
  • Replika souboru je přiřazena k serveru, zatímco kopie uložená v mezipaměti je obvykle spojena s klientem.
  • Existence kopie uložené v mezipaměti závisí především na umístění v šablonách přístupu k souborům, zatímco přítomnost repliky obvykle závisí na požadavcích na dostupnost a výkon.
  • Ve srovnání s kopií mezipaměti repliky je to více stálé, všeobecně známé, bezpečné, přístupné, kompletní a přesné.
  • Kopie v mezipaměti závisí na repliku. Pouze kopie uložená v mezipaměti může být užitečná při pravidelné kontrole repliky.
  • Výhody replikace:
  • Zvýšená dostupnost. Alternativní kopie replikovaných dat lze použít, pokud není k dispozici hlavní kopie.
  • Zvýšená spolehlivost. Vzhledem k přítomnosti redundantních datových souborů je možné obnovit z katastrofických havárií, například havárie pevného disku.
  • Zlepšená doba odezvy. Umožňuje přístup k datům buď lokálně, nebo z uzlu, jehož přístupový čas je menší než doba přístupu k původní kopii.
  • Snižte provoz sítě. Pokud je replika souboru k dispozici se souborovým serverem umístěným na webu klienta, může být požadavek klienta přístupný místně, což snižuje síťový provoz.
  • Vylepšená šířka pásma systému. Více požadavků klientů na přístup k souboru lze provádět paralelně na různých serverech, což zvyšuje šířku pásma systému.
  • Zlepšená škálovatelnost. K dispozici jsou několik serverů, které slouží k požadavkům klientů z důvodu replikace souborů. To zlepšuje škálovatelnost.
  • Konfigurace aktivity klienta po odpojení

    Obvyklým problémem se službou DFS je vzhled zprávy "Odpojený soubor odpojený ze souborů DFS". Společnost Microsoft musí vyřešit tento problém, k tomu je třeba povolit klient na serveru, například Windows Server 2012 R2. Algoritmus akcí:
  • Otevřete Správce serveru a vyberte "Spravovat DFS" na kartě Nástroje, pokud jej uživatel nemůže najít, musíte přidat funkci Namespace DFS.
  • Klepněte na myši a vyberte spouštění průvodce "Nový název prostoru".
  • Určete název hostitele a pojmenujte jeho vlastní jmenný prostor distribuovaného systému souborů DFS.
  • Klikněte na "Vytvořit" a oblast DFS.
  • Zahrnuje sdílené složky ve službě DFS.
  • Vyberte jmenný prostor a klepněte na složku Nová složka.
  • Sloučit více složek do jedinečné virtuální složky.
  • Vidíte, že cesta Domain_NameNamespace_NameVirtual_folder_name byla vytvořena.
  • Po této zprávě "služba distribuovaného souborového systému nenínainstalováno ", už nebude.
  • Systém pro sdílení síťových prostředků v systému Linux

    NFS je nejběžnější souborový systém pro sdílení síťových zdrojů. Nejběžnější verze je NFS v2. Tento distribuovaný souborový systém Linux se chová jako nejvyšší úroveň lokálního souborového systému. Přístup ke vzdáleným souborům je možný pomocí procedur RPC. Nezáleží na tom, zda je dostupný nebo nepřístupný stav serveru, a používá jen málo technologií ukládání do mezipaměti. Navíc bezpečnost tohoto systému je založena na důvěře zákazníků. Jedná se skutečně o ID zákazníka, který se předá, abyste se seznámili s právy na přístup k prostředkům. NFS v3 je evoluce NFS a v současné době se používá v dnešním patentovaném systému Unix, který vyplňuje některé mezery v něm. Tato definice distribuovaného souborového systému vám umožňuje strukturálně podporovat velké soubory o velikosti 264bitového výkonu a kontrolovat přístupová práva na serveru. Mohou být založeny na tradiční autentizaci Unixu nebo použít další autentizaci, například Kerberos. Verze umožňuje zapisovat data asynchronně, což jim dává lepší výkon. Většina ostatních operací však zůstává synchronní. Podpora NFS v3 je v experimentální fázi jádra Linuxu a je velmi efektivní.

    Uložení škálovatelných bloků

    Ceph je software navržený tak, aby poskytoval škálovatelný objekt, blok a soubor úložiště v systému. Storage clustersRozložený souborový systém Ceph je navržen tak, aby pracoval na komoditním zařízení pomocí algoritmu CRUSH, aby zajistil rovnoměrnou distribuci dat clusteru, a pak všechny uzly v clusteru mohou rychle přijímat data bez centralizovaných úzkých míst. Ceph je k dispozici prostřednictvím nástrojů Amazon Simple (S3) a OpenStack Swift (REST) ​​založených na aplikačních programovacích rozhraních a nativní rozhraní API pro integraci se softwarovými aplikacemi. Bloková paměť bloku Ceph používá zámek, který je virtuální disk a může být připojen k serverům se systémem Linux nebo virtuálním strojům s otevřeným zdrojovým kódem. Důvěryhodný samostatný úložiště objektů distribuovaného Ceph (RADOS) poskytuje funkce pro ukládání dat, jako jsou snímky a replikace. Blokové zařízení Ceph RADOS je integrováno a pracuje jako zadní část s úložištěm bloků OpenStack. Správa úložiště Ceph využívá souborový systém POSIX (CephFS) kompatibilní se systémy CephFS pro ukládání dat do clusteru úložiště Ceph. CephFS používá stejný clusterový systém jako repozitář bloku Ceph a úložiště Ceph.

    Výhody distribuovaného systému souborů

    Technicky poskytuje přístup k obecnému adresáři, který neobsahuje soubory, ale pouze přechody a volitelné podadresáře s velkým počtem přechodů. Přechody jsou podobné softwarovým odkazům známým ze systému souborů Unix, ale odkazují na běžné adresáře a mohou odkazovat na sdílené adresáře na jiných serverech. Nejprve klientů požádat server DFS o připojení a potom kontaktovat server, na který odkaz odkazuje.Primárním účelem používání distribuovaného systému souborů DFS je vytvoření alternativního oboru názvů (reprezentace adresářového stromu), který skrývá detaily podkladové infrastruktury od uživatelů. Cesty, které uživatelé vidí a volají názvy služby DFS, se nemění při přejmenování serverů nebo přesunutí některých adresářů na jiný server. Správci mohou jednoduše nahradit zastaralý název novým názvem, což poukazuje na nový účel. Název může zadat více než jeden cíl, tj. Poskytnout několika klientům alternativní připojení pro různé sdílené složky. V takovém případě mohou mít klienti distribuovaného systému souborů DFS přístup k některým účelům. To zajišťuje vyvažování zátěže a automatické přepnutí na jiný server, pokud selže jeden ze serverů. Díky službě DFS už není nadále přísné připojení k serveru. Paměť je reprezentována jako velká kapacita, za kterou jsou skryté systémy souborů pro uživatele. Ve skutečnosti je to neuvěřitelně užitečný nástroj pro řešení rostoucích požadavků, které souborový systém distribuuje diskový prostor nových serverů na základě požadavků na dostupnost. Technologie, jako je systém Windows DFS, přináší výhody každé společnosti, ať už velké i malé. U velkých společností se aspekt pružnějšího využívání skladovacích prostředků vyplatí. Vzhledem k tomu, že všechny disky jsou součástí virtuální paměti, již neexistují žádné nepoužité nebo přetečné disky a matice. Menší společnosti však oceňují standardizaci správy. Díky níOmezené zdroje jsou obtížné sledovat plné servery, aktualizovat je včas na velké disky a distribuovat prostor mezi aplikacemi. Aplikace DFS nepředstavuje úložný prostor tak, aby uživatelé a aplikace chtěli vidět, protože skutečně existují. A protože serverová a klientská součást jsou nedílnou součástí operačního systému Windows, proces instalace a konfigurace vyžaduje značné úsilí ze strany správce a prakticky neovlivňuje činnost uživatelů. Vývojáři integrovali plnou správu distribuovaného systému souborů DFS systému Windows, konzola je jediným kontrolním bodem pro několik kořenových systémů DFS. Grafické nástroje usnadňují prohlížení a sledování. Správa je možná i na webových stránkách.

    Související publikace