Big data est un terme utilisé pour désigner un ensemble de données si volumineuses et complexes qu’il est difficile de les traiter à l’aide des applications/outils traditionnels. Il s’agit des données dont la taille dépasse les téraoctets. En raison de la variété des données qu’il englobe, le big data pose toujours un certain nombre de défis liés à son volume et à sa complexité. Selon une étude récente, 80 % des données créées dans le monde ne sont pas structurées. L’un des défis consiste à structurer ces données non structurées, avant de tenter de comprendre et de capturer les données les plus importantes. Un autre défi est de savoir comment les stocker. Voici les principaux outils utilisés pour stocker et analyser les Big Data. Nous pouvons les classer en deux catégories (stockage et interrogation/analyse).
1. Apache Hadoop Apache Hadoop est un cadre logiciel libre basé sur java qui peut stocker efficacement de grandes quantités de données dans un cluster. Ce cadre fonctionne en parallèle sur un cluster et a une capacité à nous permettre de traiter les données à travers tous les nœuds. Hadoop Distributed File System (HDFS) est le système de stockage d’Hadoop qui divise les données volumineuses et les distribue sur plusieurs nœuds d’un cluster. Cela réplique également les données dans un cluster fournissant ainsi une haute disponibilité.
2. Microsoft HDInsight C’est une solution Big Data de Microsoft alimentée par Apache Hadoop qui est disponible en tant que service dans le cloud. HDInsight utilise le stockage Blob de Windows Azure comme système de fichiers par défaut. Cela permet également une haute disponibilité à faible coût.
3. NoSQL Alors que le SQL traditionnel peut être utilisé efficacement pour traiter une grande quantité de données structurées, nous avons besoin de NoSQL (Not Only SQL) pour traiter les données non structurées. Les bases de données NoSQL stockent des données non structurées sans schéma particulier. Chaque ligne peut avoir son propre ensemble de valeurs de colonnes. Les bases de données NoSQL offrent de meilleures performances pour le stockage de quantités massives de données. Il existe de nombreuses bases de données NoSQL open-source disponibles pour analyser les big data.
4. Hive C’est une gestion de données distribuées pour Hadoop. Il prend en charge l’option de requête de type SQL HiveSQL (HSQL) pour accéder aux big data. Il peut être utilisé principalement à des fins d’exploration de données. Il fonctionne au-dessus d’Hadoop.
5. Sqoop C’est un outil qui connecte Hadoop avec diverses bases de données relationnelles pour transférer des données. Cela peut être utilisé efficacement pour transférer des données structurées vers Hadoop ou Hive.
6. PolyBase Cela fonctionne au-dessus de SQL Server 2012 Parallel Data Warehouse (PDW) et est utilisé pour accéder aux données stockées dans PDW. PDW est une appliance de datawarhousing construite pour traiter n’importe quel volume de données relationnelles et fournit une intégration avec Hadoop nous permettant d’accéder également aux données non relationnelles.
7. Big data dans EXCEL Comme beaucoup de gens sont à l’aise pour faire des analyses dans EXCEL, un outil populaire de Microsoft, vous pouvez également connecter les données stockées dans Hadoop en utilisant EXCEL 2013. Hortonworks, qui s’emploie principalement à fournir Apache Hadoop aux entreprises, propose une option permettant d’accéder aux données volumineuses stockées dans sa plate-forme Hadoop à l’aide d’EXCEL 2013. Vous pouvez utiliser la fonction Power View d’EXCEL 2013 pour résumer facilement les données. De même, HDInsight de Microsoft nous permet de nous connecter aux Big data stockés dans le cloud Azure en utilisant une option de requête puissante.
8. Presto Facebook a développé et récemment mis en open-source son moteur de requête (SQL sur Hadoop) nommé Presto qui est construit pour gérer des pétaoctets de données. Contrairement à Hive, Presto ne dépend pas de la technique MapReduce et peut récupérer rapidement des données.