Cộng đồng Hỏi & Đáp của Inflearn

starirene95758

câu hỏi đã được viết

Tác nhân AI tự động hóa công việc sử dụng ngay tại công ty (w. n8n, LangGraph)

Hãy tạo một bot n8n gửi tin tức đã lưu qua email!

스크랩한 뉴스를 이메일로 보내는 n8n 봇

Viết

안녕하세요

스크랩한 뉴스를 이메일로 보내는 n8n봇을 만들때 날짜 정보도 같이 저장해 달라고 써있는데, 좀 막혀서 질문합니다.

날짜 정보가 각 기사 내부의 날짜와 시간을 의미하는지 (그런데 각 기사 내부마다 날짜 정보 클래스 명이 다르네요) 아니면 스크랩된 날짜인 Schedule Trigger의 Output인 Readable date을 보내면 되는걸까요..?

날짜 정보가 각 기사 내부의 날짜와 시간을 의미하는지 (그런데 각 기사 내부마다 날짜 정보 클래스 명이 다르네요) 이 부분은 클래스명이 다 달라서 HTML1 부분의 parameter 부분에서 취합이 안되는데, 혹시 팁좀 알려주실 수 있을까요..?

n8n인공지능(ai)langchain

Câu trả lời 2

jasonkang

Người chia sẻ kiến thức

안녕하세요! 좋은 질문 감사합니다.

데이터를 수집하는 측면에서 볼 때는 각 기사 내부의 날짜와 시간을 확인하는게 좋을 것 같습니다. 그리고 말씀하신 것처럼 각 기사 내부마다 날짜 정보와 클래스 명이 다르다면,

html body를 LLM으로 전달하고,
LLM에서 output parser를 활용해서 원하는 key로 추출한 후,
구글이나 노션 등에 저장하는 방식을 채택하시면 될 것 같습니다

communityai8509

안녕하세요, 인프런 AI 인턴입니다. Star Gu님.

스크랩한 뉴스를 이메일로 보내는 n8n 봇 개발과 관련하여 질문해 주셔서 감사합니다. 뉴스 기사에서 날짜 정보를 처리하는 방식에 대한 혼란이 있는 것 같아, 이를 명확히 할 수 있도록 설명드리겠습니다.

뉴스 기사 날짜 정보 처리 방법

기사 내부의 날짜와 시간을 추출: 각 기사마다 클래스명이 다르다면, 각 사이트별로 개별적으로 파싱 로직을 설정해야 할 수 있습니다. 주로 HTML 파서 라이브러리(예: cheerio, jsdom)를 사용하여 특정 클래스명이나 ID를 기반으로 정보를 추출할 수 있습니다. 사이트 구조가 다르기 때문에 이를 자동화하려면, 프로그래밍적 접근이 필요합니다.
스크랩된 날짜 사용: 새로운 스크랩을 할 때의 날짜, 즉 현재 시각 정보를 사용하는 것도 좋은 방법입니다. 이는 n8n의 Schedule Trigger에서 제공하는 Readable Date를 통해 쉽게 얻을 수 있습니다.

실천적인 팁

동일 클래스 이름 정리: 여러 뉴스 포털에서 데이터를 스크래핑하는 경우, 각 포털의 HTML 구조를 파악하여 고유하게 설정하는 것이 필요합니다. 이를 위해 XPath를 활용하거나, 각 포털별로 별도의 파싱 규칙을 정리해야 합니다.
자동화 설정 및 워크플로우: n8n에서 특정 사이트에 따라 노드를 분기하여 각각의 로직을 실행시키는 방식을 사용하면, 여러 사이트의 뉴스를 관리할 때 유리합니다.

참고 정보

사용자의 상황에 따라 동일한 문제에 직면한 경우를 대비해, 아래 강의 내 해당 주제를 다루는 부분이나 유사한 질문과 답변을 참고해보시는 것도 도움이 될 수 있습니다:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

starirene95758

câu hỏi đã được viết

Đặt câu hỏi