Тут ми налаштовуємо процеси як отримати потрібні нам дані і “завести” їх в систему.
Для грамотної роботи, дата інженери мусять скоординувати свою роботу з потребами інших команд, які можуть виступати у ролі подальших споживачів даних. Ingestion можна класифікувати по-різному, один з варіантів – за видом отримання даних.
Один з варіантів походження даних буде, скоріше за все, зрозумілий людям, що працюють у вебі. Якщо вам по http треба передати дані, то ви або маєте можливість зробити певний запит на якийсь ендпоінт, чи маєте налаштовані вебхуки, куди періодично надходять дані. Деякі компанії мають лише веб інтерфейси для даних у вигляді якихось JSON API (авжеж, і інші формати можливі). В цьому випадку інженеру треба знати за яким посиланням треба ходити на цей third party API, налаштувати відправку запитів, разово чи періодично, і відповідно обробляти відповіді системи (і помилки теж), і зберігати ці дані.
Більш нестандартними підходами, які поширені у дата-інженерів в більшій мірі, ніж