რამდენად დიდია მსოფლიოს ერთიანი მონაცემების (Big Data ) მოცულობა? ტექნოლოგიური საკონსულტაციო ფირმის, IDC-ს გაანგარიშებით, 2007 წელს მსოფლიოს ინფრომაციული მონაცემები დაახლოებით ექსაბაიტს (Exabyte) უტოლდებოდა. 1 ექსაბაიტი შეადგენს 1018 ბაიტს. ამ ციფრის უკეთ აღსაქმელად გეტყვით, რომ მაგალითად, საფოსტო კლიენტი Gmail-ი საშუალებას გაძლევთ ელექტრონულ ფოსტას „მიაბათ”, ანუ დანართის სახით გააგზავნოთ 25 გიგაბაიტის (25 მილიარდი ბაიტი) მოცულობის ინფორმაცია, რაც, თავისთავად უდიდესი რეზერვია, მაგრამ, მეორეს მხრივ, მხოლოდ წვრილმანია. მოსალოდნელია, რომ წელს მსოფლიო მონაცემების რაოდენობა ერთ ზეტაბაიტს ანუ 1000 ექსაბაიტს გაუტოლდება – დაიბენით? მაშინ ამ საკითხს ასე შეხედეთ: მონაცემთა ერთი ზეტაბაიტი კონგრესის 2000 ბიბლიოთეკის ექვივალენტურია.
Forrester-ის ანგარიშის თანახმად, მსოფლიოს ინფრომაციული მონაცემების 80% არასტრუქტურირებულია და წარმოდგენილია არატექსტური ფაილების ფორმატში, კერძოდ: ფოტოები, გრაფიკული მასალები, ვიდეო და აუდიოფაილები, ასევე ისეთი ფორმატები, როგორიცაა PDF და Power Point. მსოფლიოს ინფორმაციული მონაცმების 92% ინახება ინფორმაციის მაგნიტურ მატარებელზე; აქედან გამომდინარე, კომპანია, რომელსაც სურს მონაცემთა შენახვა და დამუშავება, იძულებულია გაიღოს ხარჯი კომპიუტერული აღჭურვილობის, სიხშირეების, ენერგიის, ინფორმაციული ტექნოლოგიების მენეჯმენტისათვის და, შესაბამისად,იხდის გადასახადებსაც.
მულტი-ტეტაბაიტის მოცულობის მონაცემთა შენახვის ტრადიციული სისტემები არნახულად ძვირი სიამოვნება გახდა და მოითხოვს მონაცემებისა და ინფორმაციის შენახვის საკითხისადმი ახლებური მიდგომების შემუშავებას.
ცოტა ხნის წინ მომეცა შესაძლებლობა დეტალური საუბარი მქონოდა კომპანია Cleversafe-ის დამფუძნებელსა და მთავარ აღმასრულებელ დირქტორთან, კრის გლადუინთან. აღნიშნული კომპანია სპეციალიზებულია დიდი მოცულობის მონაცემების უსაფრთხო და საიმედო შენახვაზე. შეკითხვაზე, როგორ უნდა გადაწყდეს მსოფლიოს ერთიანი მონაცემების (Big Data) შენახვის დღევანდელი პრობლემები, ძალზე საინტერესო და ამავე დროს ბუნებრივი პასუხი მივიღე: უნდა მოხდეს მონაცემების დანაწევრება, შემდეგ მათი კოდირება ალგორითმულ ენაზე და გადანაწილება სხვადასხვა საცავში, შეძლებისდაგვარად მინიმალური რეზერვირებით.
გლადუინს, სერიულ მეწარმესა და მასაჩუსეტსის ტექნოლოგიური ინსტიტუტის კურდამთავრებულ ინჟინერს, მონაცემთა შემნახველი სისტემებისადმი ახალი მიდგომების შემუშავების გამოცდილება აქვს. ეს გამოცდილება მან Net Apps-ის კონკურენტ კოპანიაში, Zenith Data Storage-ში მუშაობისას შეიძინა – ჯერ კიდევ მაშინ, როდესაც მეხსიერების ბლოკი პირველად მიუერთეს თავად ქსელს და ის უკვე აღარ წარმოადგენდა მხოლოდ სამაგიდო კომპიუტერების დამატებით პერიფერიულ მოწყობილობას. ამის მიუხედავად, Cleversafe-ის გუნდი სრულიად ახლებურად მიუდგა მსოფლიოს ერთიანი მონაცემების პრობლემას, დაეყრდნო რა საკუთარ ექსპერტულ გამოცდილებას სხვა მსხვილმასშტაბიანი სისტემების, კერძოდ, გლობალური სატლეფნო ქსელის გამოცდილებას. მათი მიდგომის ერთ-ერთი მთვარი „გასაღები” იყო იმ შეზღუდვების აღმოფხვრაზე მუშაობა, რომლებიც ახასიათებს დიდი მოცულობის მონაცემების შენახვის უკვე აპრობირებულ მეთოდს. RAID-ის სახელით (RAID – Redundant Array of Independent Disks -დამოუკიდებელი დისკების ჭარბი მასივი) ცნობილ ამ მეთოდს მონაცემთა ჭარბი ასლების ვირტუალიზაციისათვის იყენებენ. თუმცა RAID-ს არ ძალუძს პეტაბაიტიებისა და ექსაბაიტების მასშტაბების მონაცემებთან გამკლავება.
გლადუინი შემდეგაირად ხსნის ამ მომენტს:„როდესაც შენახულ მონაცემთა მოცულობა ტერაბაიტიდან პეტაბაიტის მასშტაბებამდე იზრდება,ასევე იზრდება იმ ჭარბი ასლების რიცხვი, რომლებიც აუციელებლია მონაცემთა უსაფრთხოდ შენახვის უზრუნველსაყოფად. მარტივად ეს ნიშნავს, რომ მონაცემთა შენახვის სისტემების ღირებულება მონაცემთა მოცულობის ზრდასთან ერთად გაიზრდება”.
(სინამდვილეში RAID თავდაპირველად გულისხმობდა „ჭარბი იაფი დისკების მასივებს” (Inexpensive Disks.) მაგრამ მოგვიანებით თავად RAID-ის მრჩეველთა საბჭოს რჩევით შეიცვალა სახელწოდება).
მეტიც,მონაცემების ჭარბი ასლების მიდგომის გამოყენება გულისხმობს, რომ თუნდაც რამდენიმე შემნახველი კვანძის ჩავარდნის შემთხვევაშიც კი კონკრეტული მონაცემები მიუწვდომელი ხდება როგორც სოციალური ტიპის ვებ-გვერდებისათვის, ასევე ისეთი მძლავრი ტრაფიკის მქონე მომხმარებლებისათვის, როგორიცაა, ვქვათ, 3-მილიონიანი ქალაქი, რომლის ტრაფიკიც პეტაბაიტებში იზომება.
Cleversafe-ის გუნდმა იცოდა, რომ მსოფლიოს ერთიანი მონაცემები საჭიროებდა იმ პარადიგმის ცვლილებას, რომლის მიხედვითაც ხდება დიდი მოცულობის ინფორმაციისა და მონაცემების შენახვა. დიდი მოცულობის მონაცემთა შენახვისადმი მათი მიდგომა RAID-ის საპირისპიროა. RAID-ი კონკრეტული მონაცემების იმდენ ჭარბ ასლს განათავსებს სხვადასხვა ადგილას, რამდენიც აუცილებელია მისი უსაფრთხო შენახვისათვის. ამის ნაცვლად, Cleversafe-ის ინფორმაციის დისპერსიის ალგორითმი (Information Dispersal Algorithms) კონკრეტული მონაცემის გასაზღვრულ რაოდენობას ამოუცნობ ნაწილად (N) ანაწევრებს და თითოეული ამ ნაწილის კოდირება ხდება ნულებისა და ერთიანების შემთხვევითი სიტემით. ამგვარად დაშიფრული მონაცემების გავრცელება მთელი მსოფლიოს მასშტაბითაა შესაძლებელი. თითოეული ასეთი ნაწილი შეიცავს ჭარბ მონაცემთა მინიმალურ ოდენობას იმგვარად, რომ თუკი შესაძლებელი გახდება სრული დანაწევრებული ნაწილებიდან (N) კრიტიკული რიცხვის (M) აღდგენა, ასევე შესაძლებელი გახდება მათში შენახული და დაშიფრული მონაცემების სრულად აღდგენაც. გლადუინის თანახმად, ოპტიმალური თანაფარდობა(M/N)შეესაბამება დაახლ. 5/8 თანაფარდობას. რაც უფრო დიდია მრიცხველი და მნიშვნელი – სხვა სიტყვებით რომ ვთქვათ,რაც უფრო დიდია არსებული ნაწილების და მათ აღსადგენად აუცილებელი ნაწილების რიცხვი – მით მეტად უსაფთხოა სისტემა. RAID-ისაგან განსხვავებით, სისტემის გაზრდა ზრდის თავად სისტემის უსაფრთხოების ხარისხს, მაგრამ არ იწვევს დამატებით ხარჯს.
მეცნიერები მიჩვეულნი არიან ისეთ გარემოში მუშაობას, სადაც მათი საქმიანობა რეცენზირებას ექვედებარება. გლადუინმა მიიღო მსოფლიოს საუკეთესო ექსპერტის, U.S. Intelligence Community-ის დადებითი შეფასება, სტრატეგიული ინვესტიცისა და In-Q-Tel-თან (IQT) გაფორმებული განვითარების შეთანხმების სახით. IQT წარმოადგენს ამერიკის შეერთებული შტატების სადაზვერვო უწყების მხარდამჭერ ორგანიზაციას. სადაზვერვო და თავდაცვითი საზოგადოებებისათვის, ფედერალური ხელისუფლებისათვის, ასევე შტატებისა და ადგილობრივი ხელისუფლებებისათვისაც(ძირითადად, სამეთვალყურეო კამერების შემთხვევაში) კი დიდი მოცულობის მონაცმეების შენახვასთან დაკავშირებული პრობლემები ახალი არ არის. პეტაბაიტებისა და ექსაბაიტების საუკუნეში ამ პრობლემის მოქნილი და ფინანსურად ხელმისაწვდომი გადაწყვეტის მოძებნა ზემოაღნიშნული დაინტერესებული მხარეების ერთ-ერთი საზრუნავი იყო. Cleversafe-ის გუნდის წევრები მუდმივად ხვდებიან ხელისუფლების სხვადასხვა დონის წარმომდაგენლებს, შეიქმნა ერთობლივი სამუშაო ჯგუფებიც; სულ ცოტა ხნის წინ მათ განაცხადეს კომპანია Shutterfly-სთან მნიშვნელოვანი პარტნიორობის გაფორმების შესახებ. ეს პარტნიორობა მართლაც მნიშვნელოვანია,რადგან კომპანია Shutterfly-ს, eBay-ზე მისი საქმიანობის დროიდან მოყოლებული, მსხვილმასშტაბიან სისტემებთან მუშაობის დიდი გამოცდილება დაუგროვდა.