Avro est un framework de remote procedure call et de sérialisation de données élaboré au sein du projet Apache Hadoop. Il utilise JSON pour la définition des types de données et des protocoles, et sérialise les données dans un format binaire plus compact. La principale utilisation est dans Apache Hadoop, où il peut fournir à la fois un format de sérialisation pour les données persistantes, et un format "filaire" pour la communication entre les nœuds Hadoop, et de programmes client pour services Hadoop.

Il est similaire à Apache Thrift et Protocol Buffers, mais ne nécessite pas d'exécuter un programme de génération de code lors d'un changement de schéma (sauf si désiré pour les langages statiquement-typés).

Avro est reconnu et accepté par Apache Spark SQL comme source de données.

Fichier Avro Object Container

Un fichier Avro Object Container se compose de:

  • un en-tête, suivi par
  • un ou plusieurs blocs de données.

L'en-tête se compose de:

  • quatre octets ASCII 'O', 'b', 'j', suivi par 1.
  • les métadonnées du fichier, y compris la définition de schéma.
  • Le marqueur de synchronisation pour ce fichier. Il est constitué de 16 octets générés de façon aléatoire.

Pour les blocs de données Avro spécifie deux encodages de sérialisation: binaire et JSON. La plupart des applications utiliseront le codage binaire, car il est plus petit et plus rapide. Pour le débogage et les applications Web, l'encodage JSON peut parfois être approprié.

Définition d'un schéma

Dans Avro, les schémas sont définis à l'aide de JSON. Ils sont composés de types primitifs (null, boolean, int, long, float, double, bytes,  string) ou complexes (record, enum, array, map, union, fixed).

Exemple de schéma :

La sérialisation et la désérialisation

Les données en Avro peuvent être stockées avec le schéma correspondant, ce qui signifie qu'un élément sérialisé peut être lu sans connaître le schéma à l'avance.

Exemple de sérialisation et de désérialisation code en Python

La sérialisation:

Fichier "users.avro" va contenir le schéma JSON et une représentation compact binaire des données:

La désérialisation:



Output:


Langages avec les Api

Bien qu'en principe, il soit possible d'utiliser tout type de langage avec Avro, les langages suivants disposent d'une Api, :

  • C
  • C
  • C#,,
  • GO
  • Haskell
  • Java
  • Perl
  • PHP
  • Python
  • Ruby
  • Scala

Avro IDL

En plus de prendre en charge JSON pour les types et les définitions de protocole, Avro inclut un support expérimental pour une autre syntaxe de langage de description d'interface (IDL) connue sous le nom d'Avro IDL. Précédemment connu sous le nom GenAvro, ce format est conçu  pour faciliter son adoption par les utilisateurs familiers avec des IDL et langages de programmation plus traditionnels, avec une syntaxe similaire à C / C , Protocol Buffers et autres.

Voir aussi

  • Apache Thrift
  • Protocol Buffers
  • Etch (protocole)
  • MessagePack
  • Apache Parquet
  • Apache Kafka
  • Apache Druid
  • Apache ORC

Références

Bibliographie

  • Tom White, Hadoop: The Definitive Guide, (ISBN 978-1-4493-8973-4)
  • Portail de l’informatique
  • Portail d’Internet

Apache avro

Fillable Online avro apache Apache Avro 1 Fax Email Print pdfFiller

An Introduction to Apache Avro

Apache Avro A data serialization system

Apache Avro Logo, HD Png Download kindpng