AI 자동화툴_Make.com과 AI로 모든 것을 웹 스크레이핑하는 방법 _Jono Catliff

How I Web Scrape EVERYTHING With Make.com & AI

1. 웹 스크래핑 소개 및 Make.com 활용

웹 스크래핑은 인터넷 상의 웹사이트에서 원하는 정보를 추출하는 기술입니다. 이 기술을 활용하면 다양한 웹사이트에서 데이터를 수집하여 분석하거나 다른 서비스와 통합할 수 있습니다. 과거에는 웹 스크래핑을 위해 복잡한 코딩 지식이 필요했지만, Make.com과 같은 자동화 플랫폼을 사용하면 코딩 없이도 쉽게 웹 스크래핑을 수행할 수 있습니다. Make.com은 웹사이트에 요청을 보내고, 응답을 처리하고, 원하는 데이터를 추출하는 과정을 시각적으로 구성할 수 있도록 지원합니다. 특히, 이 플랫폼은 초보자도 쉽게 사용할 수 있도록 설계되어 있어 웹 스크래핑에 대한 진입 장벽을 낮추는 데 기여합니다. 간단한 웹사이트부터 Yelp와 같이 복잡한 구조를 가진 웹사이트까지 다양한 웹사이트에서 이메일 주소, 전화번호, 회사 정보 등 원하는 모든 정보를 추출할 수 있습니다. 추출된 정보는 리드 생성, 시장 조사, 경쟁 분석 등 다양한 목적으로 활용할 수 있습니다. Make.com을 사용한 웹 스크래핑은 데이터 기반 의사 결정을 가능하게 하고, 비즈니스 효율성을 향상시키는 데 도움이 됩니다. 웹 스크래핑을 통해 얻은 데이터는 스프레드시트에 저장하거나, CRM 시스템에 통합하거나, 다른 자동화 워크플로우의 입력으로 사용할 수 있습니다.

백링크 1: Make.com 공식 웹사이트
백링크 2: 웹 스크래핑 기초
백링크 3: 웹 스크래핑 방법

2. Make.com을 이용한 간단한 웹사이트 스크래핑

Make.com에서 새로운 시나리오를 생성한 후, 가장 먼저 HTTP 모듈을 추가해야 합니다. HTTP 모듈은 특정 웹사이트에 요청을 보내는 역할을 합니다. Make.com에는 다양한 HTTP 액션이 있지만, 기본적인 웹 스크래핑에는 “Make a request” 액션만으로 충분합니다. 다른 액션들은 인증이 필요한 웹사이트나 고급 요청에 사용됩니다. 기본적인 웹 스크래핑에서는 웹사이트가 공개되어 있어 별도의 인증 절차가 필요하지 않습니다. HTTP 모듈을 설정할 때 가장 중요한 것은 웹사이트의 URL을 입력하는 것입니다. 웹사이트의 URL을 “URL” 필드에 복사하여 붙여넣습니다. 다음으로, HTTP 메서드를 선택해야 합니다. “GET”, “POST”, “PUT”, “PATCH”, “DELETE” 등 다양한 메서드가 있지만, 웹사이트에서 정보를 요청하는 경우에는 “GET” 메서드를 선택합니다. “GET” 메서드는 웹사이트에 정보를 요청하는 가장 기본적인 방법입니다. 헤더나 쿼리 스트링은 간단한 요청에서는 필요하지 않습니다. “Content type”은 “application/x-www-form-urlencoded”를 선택하거나 비워둘 수 있습니다. HTTP 모듈을 설정한 후에는 시나리오를 실행하여 웹사이트로부터 데이터를 가져올 수 있습니다. 시나리오를 실행하면 웹사이트로부터 응답이 반환됩니다. 응답에는 상태 코드, 헤더, 쿠키, 그리고 가장 중요한 데이터가 포함됩니다. 상태 코드가 200이면 요청이 성공적으로 처리되었음을 의미합니다. “Data” 필드에는 웹사이트의 전체 HTML 코드가 포함되어 있습니다. 이 HTML 코드에는 웹사이트의 모든 정보가 포함되어 있지만, 사람이 읽기에는 매우 복잡합니다. 따라서 HTML 코드를 사람이 읽기 쉬운 형태로 변환하는 과정이 필요합니다. 이 과정을 위해 텍스트 파서 모듈을 사용합니다.

3. 텍스트 파서 및 데이터 추출

텍스트 파서 모듈은 HTML 코드에서 HTML 태그를 제거하고 텍스트만 추출하는 역할을 합니다. 텍스트 파서 모듈을 추가하고 “HTML to text” 액션을 선택합니다. 그런 다음, HTTP 모듈에서 가져온 “Data”를 입력으로 설정합니다. 텍스트 파서 모듈을 실행하면 HTML 태그가 제거된 텍스트가 출력됩니다. 이제 텍스트에서 원하는 정보를 추출할 수 있습니다. 웹사이트에서 전화번호와 이메일 주소를 추출하려면 텍스트 파서 모듈의 “Match elements” 액션을 사용합니다. “Match elements” 액션은 특정 패턴과 일치하는 텍스트를 추출하는 데 사용됩니다. Make.com은 이메일 주소와 전화번호를 추출하기 위한 기본 제공 패턴을 제공합니다. “Pattern” 필드에서 “Email” 또는 “Phone number”를 선택하면 Make.com이 자동으로 해당 패턴과 일치하는 텍스트를 추출합니다. 텍스트 파서 모듈을 실행하면 추출된 이메일 주소와 전화번호가 출력됩니다. 웹사이트에서 특정 헤더를 추출하려면 먼저 웹 브라우저의 개발자 도구를 사용하여 해당 헤더의 HTML 태그를 확인해야 합니다. 예를 들어, 헤더가 <h1> 태그로 둘러싸여 있다면 텍스트 파서 모듈의 “Match pattern advanced” 액션을 사용하여 <h1> 태그 내의 텍스트를 추출할 수 있습니다. “Pattern” 필드에 정규 표현식을 입력하여 HTML 태그 내의 텍스트를 추출합니다. 정규 표현식은 텍스트에서 특정 패턴을 검색하는 데 사용되는 특수한 문자열입니다. 코딩 지식이 없더라도 ChatGPT와 같은 AI 도구를 사용하여 정규 표현식을 생성할 수 있습니다. ChatGPT에 원하는 패턴을 설명하면 자동으로 해당 패턴을 검색하는 정규 표현식을 생성해 줍니다. Make.com에서 AI 도구를 사용하려면 먼저 AI 도구를 연결해야 합니다. AI 도구를 연결한 후에는 “Create a chat completion” 액션을 사용하여 ChatGPT에 요청을 보낼 수 있습니다.

4. 고급 웹 스크래핑: Yelp 데이터 추출

간단한 웹사이트 스크래핑 외에도 Make.com을 사용하여 Yelp와 같은 복잡한 웹사이트에서 데이터를 추출할 수 있습니다. Yelp에서 데이터를 추출하려면 먼저 Yelp 검색 페이지의 URL을 HTTP 모듈에 입력합니다. Yelp 검색 페이지의 URL에는 검색어와 위치 정보가 포함되어 있습니다. 예를 들어, “landscaping services”를 검색하고 위치를 “New York”으로 설정하면 URL은 다음과 같은 형태가 됩니다. https://www.yelp.com/search?find_desc=landscaping+services&find_loc=New+York HTTP 모듈을 설정한 후에는 시나리오를 실행하여 Yelp 검색 페이지로부터 데이터를 가져올 수 있습니다. 텍스트 파서 모듈을 사용하여 HTML 코드를 텍스트로 변환합니다. Yelp 검색 페이지에는 여러 비즈니스 목록이 포함되어 있습니다. 각 비즈니스 목록에서 URL을 추출하려면 텍스트 파서 모듈의 “Get elements from HTML” 액션을 사용합니다. “Get elements from HTML” 액션은 HTML 코드에서 특정 HTML 태그 내의 텍스트를 추출하는 데 사용됩니다. “Links”를 선택하면 HTML 코드에서 모든 링크를 추출합니다. Yelp 검색 페이지에는 많은 링크가 포함되어 있으므로 필터링 단계를 추가하여 원하는 링크만 추출해야 합니다. 필터 모듈을 사용하여 URL에 “/biz/”가 포함된 링크만 통과시킵니다. “/biz/”는 Yelp 비즈니스 페이지의 URL에 포함된 고유한 문자열입니다. 필터링 단계를 추가한 후에는 반복기 모듈을 사용하여 각 링크를 개별적으로 처리합니다. 반복기 모듈은 목록의 각 항목에 대해 동일한 작업을 반복하는 데 사용됩니다. 반복기 모듈을 사용하면 각 비즈니스 페이지에 대해 HTTP 요청을 보내고, 데이터를 추출하고, 스프레드시트에 저장할 수 있습니다.

5. 데이터 추출 및 저장 자동화

각 비즈니스 페이지에서 데이터를 추출하려면 먼저 해당 페이지의 URL을 HTTP 모듈에 입력합니다. Make.com에서는 변수를 사용하여 URL을 동적으로 생성할 수 있습니다. HTTP 모듈에서 “URL” 필드에 https://www.yelp.com{{value}}를 입력합니다. {{value}}는 반복기 모듈에서 가져온 URL 변수를 나타냅니다. 텍스트 파서 모듈을 사용하여 HTML 코드를 텍스트로 변환합니다. 이제 텍스트에서 원하는 정보를 추출할 수 있습니다. ChatGPT를 사용하거나 정규 표현식을 사용하여 비즈니스 이름, 전화번호, 웹사이트 주소, 서비스 목록 등 원하는 정보를 추출합니다. 텍스트 파서 모듈의 출력을 Google Sheets 모듈에 연결하여 추출된 데이터를 스프레드시트에 저장합니다. Google Sheets 모듈을 사용하려면 먼저 Google 계정을 연결해야 합니다. Google Sheets 모듈에서 스프레드시트와 워크시트를 선택합니다. 그런 다음, 스프레드시트의 각 열에 해당하는 데이터를 매핑합니다. 예를 들어, “Company Name” 열에는 비즈니스 이름이, “Phone Number” 열에는 전화번호가, “Website Address” 열에는 웹사이트 주소가 매핑됩니다. “Date” 열에는 현재 날짜를 매핑합니다. Make.com은 날짜와 시간을 다양한 형식으로 표시할 수 있습니다. “Date” 열에 {{now()}}를 입력하고 날짜 형식을 “YYYY-MM-DD”로 설정하면 스프레드시트에 “2024-10-27″과 같은 형식으로 날짜가 저장됩니다. 모든 설정을 완료한 후에는 시나리오를 실행하여 웹 스크래핑 프로세스를 자동화할 수 있습니다. 시나리오가 실행되면 Make.com은 Yelp 검색 페이지에서 비즈니스 목록을 추출하고, 각 비즈니스 페이지에서 데이터를 추출하고, 추출된 데이터를 스프레드시트에 저장합니다. 이 모든 과정이 자동으로 수행되므로 시간과 노력을 절약할 수 있습니다.

위로 스크롤