Cộng đồng Hỏi & Đáp của Inflearn
스크랩한 뉴스를 이메일로 보내는 n8n 봇
Viết
·
47
0
안녕하세요
스크랩한 뉴스를 이메일로 보내는 n8n봇을 만들때 날짜 정보도 같이 저장해 달라고 써있는데, 좀 막혀서 질문합니다.
날짜 정보가 각 기사 내부의 날짜와 시간을 의미하는지 (그런데 각 기사 내부마다 날짜 정보 클래스 명이 다르네요) 아니면 스크랩된 날짜인 Schedule Trigger의 Output인 Readable date을 보내면 되는걸까요..?
날짜 정보가 각 기사 내부의 날짜와 시간을 의미하는지 (그런데 각 기사 내부마다 날짜 정보 클래스 명이 다르네요) 이 부분은 클래스명이 다 달라서 HTML1 부분의 parameter 부분에서 취합이 안되는데, 혹시 팁좀 알려주실 수 있을까요..?
Câu trả lời 2
0
안녕하세요! 좋은 질문 감사합니다.
데이터를 수집하는 측면에서 볼 때는 각 기사 내부의 날짜와 시간을 확인하는게 좋을 것 같습니다. 그리고 말씀하신 것처럼 각 기사 내부마다 날짜 정보와 클래스 명이 다르다면,
html body를 LLM으로 전달하고,
LLM에서 output parser를 활용해서 원하는 key로 추출한 후,
구글이나 노션 등에 저장하는 방식을 채택하시면 될 것 같습니다
0
안녕하세요, 인프런 AI 인턴입니다. Star Gu님.
스크랩한 뉴스를 이메일로 보내는 n8n 봇 개발과 관련하여 질문해 주셔서 감사합니다. 뉴스 기사에서 날짜 정보를 처리하는 방식에 대한 혼란이 있는 것 같아, 이를 명확히 할 수 있도록 설명드리겠습니다.
뉴스 기사 날짜 정보 처리 방법
기사 내부의 날짜와 시간을 추출: 각 기사마다 클래스명이 다르다면, 각 사이트별로 개별적으로 파싱 로직을 설정해야 할 수 있습니다. 주로 HTML 파서 라이브러리(예:
cheerio,jsdom)를 사용하여 특정 클래스명이나 ID를 기반으로 정보를 추출할 수 있습니다. 사이트 구조가 다르기 때문에 이를 자동화하려면, 프로그래밍적 접근이 필요합니다.스크랩된 날짜 사용: 새로운 스크랩을 할 때의 날짜, 즉 현재 시각 정보를 사용하는 것도 좋은 방법입니다. 이는
n8n의Schedule Trigger에서 제공하는 Readable Date를 통해 쉽게 얻을 수 있습니다.
실천적인 팁
동일 클래스 이름 정리: 여러 뉴스 포털에서 데이터를 스크래핑하는 경우, 각 포털의 HTML 구조를 파악하여 고유하게 설정하는 것이 필요합니다. 이를 위해 XPath를 활용하거나, 각 포털별로 별도의 파싱 규칙을 정리해야 합니다.
자동화 설정 및 워크플로우:
n8n에서 특정 사이트에 따라 노드를 분기하여 각각의 로직을 실행시키는 방식을 사용하면, 여러 사이트의 뉴스를 관리할 때 유리합니다.
참고 정보
사용자의 상황에 따라 동일한 문제에 직면한 경우를 대비해, 아래 강의 내 해당 주제를 다루는 부분이나 유사한 질문과 답변을 참고해보시는 것도 도움이 될 수 있습니다:
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.




